python处理pdf文件_PDFMiner首页、文档和下载 - Python PDF 解析器 - OSCHINA - 中文开源技术交流社区...

PDFMiner 是一个 Python 的 PDF 解析器，可以从 PDF 文档中提取信息。与其他 PDF 相关的工具不同，它侧重的是获取和分析文本数据。PDFMiner 允许获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个 PDF 转换器，可以把 PDF 文件转换成 HTML 等格式。还有一个扩展的 PDF 解析器，可以用于除文本分析以外的其他用途。特性完全用 Python 编写

weixin_39673742

48人浏览 · 2020-11-24 11:10:41

weixin_39673742 · 2020-11-24 11:10:41 发布

PDFMiner 是一个 Python 的 PDF 解析器，可以从 PDF 文档中提取信息。与其他 PDF 相关的工具不同，它侧重的是获取和分析文本数据。PDFMiner 允许获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个 PDF 转换器，可以把 PDF 文件转换成 HTML 等格式。还有一个扩展的 PDF 解析器，可以用于除文本分析以外的其他用途。

特性

完全用 Python 编写

解析、分析和转换 PDF 文档

PDF-1.7 规范支持

CJK 语言和垂直书写脚本支持

支持各种字体类型（Type1、TrueType、Type3 和 CID）

基本加密（RC4）支持

大纲（TOC）提取

标记内容提取

自动布局分析

PDFMiner 内置两个工具：pdf2txt.py 和 dumppdf.py：

pdf2txt.py 从 PDF 文件中提取所有文本内容。但不能识别画成图片的文本，这需要特征识别。对于加密的 PDF 你需要提供一个密码才能解析，对于没有提取权限的 PDF 文档你得不到任何文本。

dumppdf.py 把 PDF 文件内容变成 pseudo-XML 格式。这个程序主要用于 debug ，但是它也可能用于提取一些有意义的内容（比如图片）。

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

2024开放原子开发者大会议题征集正式开启

2024开放原子开发者大会（以下简称“大会”）将于12月中旬重磅来袭,2024开放原子开发者大会议题征集正式开启!

开放原子开发者工作坊

操作系统大会&openEuler Summit 2024参会指南，请查收！

开放原子开发者工作坊

推动工业软件核心技术攻关，开源工业软件算法集成大赛正式启动！

推动工业软件核心技术攻关，开源工业软件算法集成大赛正式启动！

开放原子开发者工作坊

所有评论(0)

查看更多评论

weixin_39673742

@weixin_39673742

已为社区贡献3条内容