欢迎光临散文网 会员登陆 & 注册

Python 读取 Word 文档中的文本

2023-08-29 15:18 作者:bili_82846548227  | 我要投稿

文本是Word文档中最基本的要素之一,在word文档中,我们通常需要分析文本、提取文档中的指定部分文字内容并将内容导入其他数据,或者用于 AI 训练以及制作其他文档等。本文将介绍如何在 Python 应用程序中从 Word 文档中提取文本并保存。Spire.Doc for Python 提供了一个简单的方法直接提取 Word 文档中的文本内容,且不需要大量的复制粘贴操作。

Word 文档中提取文本内容并写入 TXT 文件

引入 Spire.Doc for Python

使用此工具操作 Word 文档之前,需要先将其引入到项目中。可以从 Spire.Doc for Python 官方网站下载,或直接 pip 安装。代码如下:

pip install Spire.Doc

从 Word 文档中提取文本内容并写入 TXT 文件

Spire.Doc for Python 中的 Document.GetText () 方法可以获取 Word 文档中的所有文本并返回字符串,我们可以将返回的字符串写入到文本文件中进行保存。操作步骤如下:

  • 创建 Document 的对象。

  • 使用 Document.LoadFromFile() 方法载入 Word 文档。

  • 使用 Document.GetText() 方法获取文档中的文本。

  • 将获取的文本写入文本文件。

代码示例:

 


以上是关于如何使用 Spire.Doc for Python 从 Word 文档中提取文本的代码介绍。Spire.Doc for Python 还支持非常多的Word文档操作,可以前往官网了解,也可以前往Word 组件QQ交流群 913816707 参与讨论。


Python 读取 Word 文档中的文本的评论 (共 条)

分享到微博请遵守国家法律