12 年历史的 PDF 工具开源了

最近在整理 PDF 的时候,有一些需求普通的 PDF 编辑器没办法满足,比如 PDF 批量合并、编辑等。

于是,我就去 GitHub 上看一看有没有现成的轮子,发现了这个 PDF 神器「PDF 补丁丁」,让人惊讶的是这个 PDF 神器有 12 年的历史。该项目与两个月之前在 GitHub 上开源,至今已经获得 4.2 K的 Star。

PDF 补丁丁是一个多功能的 PDF 文档工具箱,名为 wmjordan 的开发者在 2009 年开始从事程序的开发的相关工作,他便一直完善这个 PDF 工具,到现在也已经有十二年了。

PDF 补丁丁致力于解除 PDF 文档的烦恼,带有一个强大的 PDF 书签编辑器(可自动生成书签),有超快的从 PDF 文档里无损提取图片的能力,又可以合并图片和 PDF 文档,统一页面尺寸,清除文档的打印和复制限制,对于高端开发者,又提供了文档结构探查器等一系列功能。

虽然界面有上世纪的风格,但好在 PDF 补丁丁功能强大,你想要的任何 PDF 处理功能,都能在这个工具上找到,不限于:

  • 修改 PDF 文档

  • 合并已有 PDF 文件或图片

  • 拆分或合并 PDF 文件

  • 将 PDF 页面转换为图片。

  • 提取或删除 PDF 文档中指定的页面,调整顺序。

  • 根据 PDF 文档元数据重命名 PDF 文件名。

  • 替换字体:替换文档中使用的字体;

  • 分析文档结构:以树视图显示 PDF 文档结构,可编辑修改 PDF 文档节点,或将 PDF 文档导出成 XML 文件,供 PDF 爱好者分析、调试之用。

一个小巧轻便的 PDF 阅读器

SumatraPDF 是基于 Windows ,支持多格式(PDF、EPUB、MOBI、CBZ、CBR、FB2、CHM、XPS、DjVu)的阅读器

开源地址:https://github.com/sumatrapdfreader/sumatrapdf

Stirling-PDF

Stirling PDF 还具备文件转换功能,可以将常见文件转换为 PDF,或将 PDF 转换为 Word、PowerPoint 等格式

github地址:

https://github.com/Stirling-Tools/Stirling-PDF

国内源代码:

http://www.gitpp.com/pythonking/Stirling-PDF

Stirling PDF 是一个开源免费的 PDF 文档处理工具箱,它在 GitHub 上拥有15.6k 的星标,可见其受欢迎程度。这个工具最初是由 ChatGPT 制作的,并经过不断的迭代更新,增加了许多新的功能。它支持对 PDF 文件进行拆分、合并、转换、重组、添加图像、旋转、压缩等多种操作。

Stirling PDF 完全开源免费,无广告,适用于 Windows、Linux、MacOS 全平台,支持 18 种语言,包括中文。它提供完整的 web-GUI,可以方便地进行 PDF 的合并、分割、旋转、移动等操作。此外,它还可以将 PDF 转换为图片,或将图片转换为 PDF,检测并删除空白页,比较两个 PDF 的文本差异,向 PDF 中添加图片,压缩 PDF 文件大小,添加或移除密码,添加水印等。

Stirling PDF 还具备文件转换功能,可以将常见文件转换为 PDF,或将 PDF 转换为 Word、PowerPoint 等格式。它还可以从 PDF 中提取图片,对 PDF 进行 OCR 识别。项目的源代码在 GitHub 上开源,名为 Stirling-Tools/Stirling-PDF。

如果你想尝试 Stirling PDF,可以在 GitHub 上找到它的最新版本和安装指南。它也可以通过 Docker 进行部署,使得安装和使用变得更加方便。

所有的文件和PDF只存在于客户端,任何已被用户下载的文件在那个时候已经从服务器上删除

Stirling-PDF

Stirling PDF 还具备文件转换功能,可以将常见文件转换为 PDF,或将 PDF 转换为 Word、PowerPoint 等格式

github地址:

https://github.com/Stirling-Tools/Stirling-PDF

国内源代码:

http://www.gitpp.com/pythonking/Stirling-PDF

Stirling PDF 是一个开源免费的 PDF 文档处理工具箱,它在 GitHub 上拥有15.6k 的星标,可见其受欢迎程度。这个工具最初是由 ChatGPT 制作的,并经过不断的迭代更新,增加了许多新的功能。它支持对 PDF 文件进行拆分、合并、转换、重组、添加图像、旋转、压缩等多种操作。

Stirling PDF 完全开源免费,无广告,适用于 Windows、Linux、MacOS 全平台,支持 18 种语言,包括中文。它提供完整的 web-GUI,可以方便地进行 PDF 的合并、分割、旋转、移动等操作。此外,它还可以将 PDF 转换为图片,或将图片转换为 PDF,检测并删除空白页,比较两个 PDF 的文本差异,向 PDF 中添加图片,压缩 PDF 文件大小,添加或移除密码,添加水印等。

Stirling PDF 还具备文件转换功能,可以将常见文件转换为 PDF,或将 PDF 转换为 Word、PowerPoint 等格式。它还可以从 PDF 中提取图片,对 PDF 进行 OCR 识别。项目的源代码在 GitHub 上开源,名为 Stirling-Tools/Stirling-PDF。

如果你想尝试 Stirling PDF,可以在 GitHub 上找到它的最新版本和安装指南。它也可以通过 Docker 进行部署,使得安装和使用变得更加方便。

所有的文件和PDF只存在于客户端,任何已被用户下载的文件在那个时候已经从服务器上删除

以下是一些 Stirling PDF 能够帮助用户解决的问题:

1. 文件拆分:用户可以将一个 PDF 文件拆分为多个文件,尤其是当需要提取特定页码的 PDF 文件时。

2. 文件合并:Stirling PDF 允许用户将多个 PDF 文件合并为一个单一的文件,这对于整理和归档多个相关文件非常有用。

3.页面重组:用户可以重新排列 PDF 文件中的页面顺序,以符合特定的需求或布局。

4. 页面旋转:如果需要,用户可以将 PDF 文件中的页面旋转 90 度,以便更好地查看或打印。

5. 压缩:为了减小文件大小,用户可以将 PDF 文件进行压缩,这有助于节省存储空间和加速文件传输。

6.  转换:Stirling PDF 可以转换 PDF 文件到其他格式,如 Word、PowerPoint 等,以及将其他文件格式转换为 PDF。

7.图像添加:用户可以向 PDF 文件中添加图片,这可以在创建报告或演示文稿时非常有用。

8. 水印添加:为了保护文档的版权,用户可以向 PDF 文件中添加水印。

9.  空白页删除:Stirling PDF 可以帮助用户检测并删除 PDF 文件中的空白页。

10. 文本差异比较:用户可以比较两个 PDF 文件,并突出显示文本差异,这在审核和校对文档时非常有用。

11. 安全性增强:添加或移除 PDF 文件的密码,以及设置访问控制,可以增强文档的安全性。

12. 多语言支持:支持多种语言,包括中文,使得不同语言的用户都能够使用这个工具。

通过这些功能,Stirling PDF 帮助用户更有效地管理和操作 PDF 文件,提高了工作效率和文档处理的灵活性。

github地址:

https://github.com/Stirling-Tools/Stirling-PDF

国内源代码:

http://www.gitpp.com/pythonking/Stirling-PDF

以下是一些 Stirling PDF 能够帮助用户解决的问题:

1. 文件拆分:用户可以将一个 PDF 文件拆分为多个文件,尤其是当需要提取特定页码的 PDF 文件时。

2. 文件合并:Stirling PDF 允许用户将多个 PDF 文件合并为一个单一的文件,这对于整理和归档多个相关文件非常有用。

3.页面重组:用户可以重新排列 PDF 文件中的页面顺序,以符合特定的需求或布局。

4. 页面旋转:如果需要,用户可以将 PDF 文件中的页面旋转 90 度,以便更好地查看或打印。

5. 压缩:为了减小文件大小,用户可以将 PDF 文件进行压缩,这有助于节省存储空间和加速文件传输。

6.  转换:Stirling PDF 可以转换 PDF 文件到其他格式,如 Word、PowerPoint 等,以及将其他文件格式转换为 PDF。

7.图像添加:用户可以向 PDF 文件中添加图片,这可以在创建报告或演示文稿时非常有用。

8. 水印添加:为了保护文档的版权,用户可以向 PDF 文件中添加水印。

9.  空白页删除:Stirling PDF 可以帮助用户检测并删除 PDF 文件中的空白页。

10. 文本差异比较:用户可以比较两个 PDF 文件,并突出显示文本差异,这在审核和校对文档时非常有用。

11. 安全性增强:添加或移除 PDF 文件的密码,以及设置访问控制,可以增强文档的安全性。

12. 多语言支持:支持多种语言,包括中文,使得不同语言的用户都能够使用这个工具。

通过这些功能,Stirling PDF 帮助用户更有效地管理和操作 PDF 文件,提高了工作效率和文档处理的灵活性。

github地址:

https://github.com/Stirling-Tools/Stirling-PDF

SumatraPDF

一款适用于 Windows 的多格式阅读器

github地址:

https://github.com/sumatrapdfreader/sumatrapdf

SumatraPDF

是一款适用于 Windows 的多格式(PDF、EPUB、MOBI、CBZ、CBR、FB2、CHM、XPS、DjVu)阅读器,采用 (A)GPLv3 许可证,部分代码采用 BSD 许可证(请参阅作者)。

PDF格式在全球范围内的流行对个人、企业和政府机构产生了深远的影响,主要体现在以下几个方面:

1. 便捷的文档共享:PDF格式的普及使得文档的创建、分享和传输变得更加便捷。无论是在电子邮件中附件PDF文件,还是在网站上提供下载链接,PDF格式都确保了接收方能够以原始格式查看文档,无需担心格式兼容性问题。

2. 提高工作效率:由于PDF格式的一致性和可靠性,它大大简化了文档的审核、审批和签署流程。企业和政府机构常常使用PDF格式来处理合同、报告和其他重要文件,因为这些文件需要保持原始格式不变。

3. 数字化转型的推动力:PDF格式的流行促进了纸质文档向电子文档的转换,这是数字化转型的关键一步。企业和政府机构通过将纸质文档扫描为PDF格式,不仅节省了存储空间,还提高了文档的检索和访问速度。

4. 知识传播和普及:PDF格式的大量使用使得知识和信息的传播变得更加广泛和便捷。书籍、教材、研究报告等资料可以轻松地以PDF格式在互联网上共享,从而促进了全球范围内的知识传播和普及。

5. 环境影响:随着PDF格式的普及,人们越来越倾向于使用电子文档而不是纸质文档,这在一定程度上减少了纸张的使用,对环境保护产生了积极影响。

6. 安全性问题:虽然PDF格式提供了文档安全性,但它也可能成为恶意软件传播的载体。恶意软件可以隐藏在PDF文件中,一旦用户打开这些文件,就可能遭受网络钓鱼或恶意软件攻击。

7. 格式转换的需求:PDF格式的流行也带动了格式转换工具的发展。许多软件和在线服务提供了将其他格式转换为PDF的功能,如Word、Excel、PowerPoint等,以满足用户在不同场景下的需求。

总之,PDF格式的流行改变了人们创建、处理和共享文档的方式,对现代社会的信息流动和工作流程产生了深远的影响。和企业简化API的管理,提高系统的整体性能和安全性,同时保持灵活性和可扩展性。

SumatraPDF是一个轻量级的PDF阅读器,它解决了许多用户在处理PDF文件时遇到的问题,主要包括:

1. 性能问题:SumatraPDF以其快速的启动速度和高效的文件处理能力而著称,这对于那些需要频繁打开和处理大型PDF文档的用户来说是一个显著的优势。

2. 兼容性问题:SumatraPDF能够在多种Windows操作系统上运行,包括一些较旧的系统版本,这意味着用户不必担心软件兼容性问题。

3. 界面简洁性:SumatraPDF提供了一个简洁的用户界面,减少了视觉干扰,使得用户可以更加专注于文档内容。

4. 功能性问题:SumatraPDF提供了多种功能,如查看PDF、搜索文本、添加注释、填写表单等,满足了用户的基本需求。

5. 安全性问题:SumatraPDF允许用户对PDF文件进行加密,保护文档内容不被未授权访问。

6. 打印问题:SumatraPDF能够精确地控制打印输出,确保打印的文档与电子版的一致性。

7. 文档共享:SumatraPDF支持将PDF文件转换为其他格式,如HTML、文本或图片,方便用户在不同场合下共享文档。

8. 注释和标记:SumatraPDF允许用户在PDF文档上进行注释和标记,这对于需要审核或修改文档的用户来说非常有用。

9. 阅读体验:SumatraPDF提供了多种视图模式,如页面视图、缩略图视图等,以及可自定义的阅读设置,如背景颜色、字体大小等,从而提供更好的阅读体验。

10. 便携性问题:SumatraPDF有一个便携版,可以在不需要安装的情况下运行,这对于需要在多个设备之间移动并使用PDF阅读器的用户来说非常方便。

总的来说,SumatraPDF通过提供一系列实用的功能和高效的性能,帮助用户更轻松地创建、阅读、编辑和分享PDF文件。

官网:  https://www.sumatrapdfreader.org/free-pdf-reader

github地址:

https://github.com/sumatrapdfreader/sumatrapdf

一款可将扫描的 PDF 文件转换为可搜索的 PDF 文件OCRmyPDF

OCRmyPDF 将扫描的 PDF 文件转换为可搜索的 PDF 文件

github地址:

https://github.com/ocrmypdf/OCRmyPDF

国内源代码:

http://www.gitpp.com/yuanxiaoming/OCRmyPDF

大家不要小瞧 PDF 工具,中国有一家上市公司就是依靠 PDF工具起家的

 中国有一家上市公司从事 PDF 工具的研发和销售,这家公司名为福昕软件(Foxit Software)。福昕软件成立于 2001 年,总部位于中国福州,是一家专注于 PDF 解决方案的提供商。

福昕软件的主要产品包括福昕阅读器(Foxit Reader)、福昕编辑器(Foxit PhantomPDF)等。这些工具涵盖了 PDF 文件的创建、编辑、查看、打印、签名、加密等功能,适用于个人和企业用户。此外,福昕软件还提供一系列 PDF 开发工具和 SDK,以便其他软件开发者能够在他们的产品中集成 PDF 处理功能。

福昕软件已于 2015 年在上海证券交易所上市,股票代码为 603630。上市后,公司持续加大研发投入,丰富产品线,并在全球范围内扩大市场份额。作为中国 PDF 工具领域的上市公司,福昕软件在业界具有一定的影响力和竞争力。

OCRmyPDF 是一款开源工具,它可以将扫描的 PDF 文件转换为可搜索的 PDF 文件,通过在 PDF 文件中添加 OCR 文本层来实现。以下是使用 OCRmyPDF 为扫描的 PDF 文件添加 OCR 文本层的步骤:

1. 安装 OCRmyPDF:在命令行中使用以下命令安装 OCRmyPDF:

   ```  

   pip install ocrmypdf  

   ```

2. 运行 OCRmyPDF:在命令行中,导航到包含扫描 PDF 文件的目录,然后使用以下命令运行 OCRmyPDF:

   ```  

   ocrmypdf input.pdf output.pdf  

   ```

   其中,`input.pdf` 是输入的扫描 PDF 文件,`output.pdf` 是输出的新 PDF 文件。

3. 优化 OCR 结果:根据需要,可以使用以下选项来优化 OCR 结果:

   - `--pages`:指定要处理的页面范围,例如 `2-4` 表示处理第 2 到 4 页。  

   - `--deskew`:添加手动 deskew 参数,其中包含要 OCR 的区域的坐标。

   - `--rotate`:添加手动旋转角度,使页面适应旋转角度。

   - `--padding`:添加手动页面边缘填充值。

   - `--psm`:设置识别模式,例如 `6` 或 `7`,用于处理包含图形和表格的页面。

4. 检查 OCR 结果:在输出 PDF 文件中,可以使用搜索功能或其他文本编辑工具来检查 OCR 结果并进行必要的修正。

请注意,OCRmyPDF 支持多种语言,但不同语言的识别效果可能有所不同。此外,OCRmyPDF 需要安装 Tesseract OCR 引擎,并指定其安装路径。如果您使用的是 Windows 操作系统,可以通过以下命令安装 Tesseract OCR:

```  

pip install pytesseract  

```

然后,在命令行中设置 Tesseract OCR 的安装路径,例如:

```  

ocrmypdf --tesseract /path/to/tesseract input.pdf output.pdf  

```

总之,使用 OCRmyPDF 为扫描的 PDF 文件添加 OCR 文本层是一种简单有效的方法,可以使 PDF 文件可搜索和编辑。

 PDF 工具市场在过去几年中一直呈现出稳步增长的趋势,随着科技的发展和互联网的普及,PDF 工具在个人和企业中的应用越来越广泛。以下是一些关于 PDF 工具市场的主要分析:

1. 市场需求:PDF 文件作为一种通用且易于分享的文档格式,其在各行各业中的应用越来越广泛。因此,市场对 PDF 工具的需求也在不断增长。个人用户需要 PDF 工具来查看、编辑和转换文件,企业用户则更需要高效、易用的 PDF 解决方案来提高工作效率。

2. 产品种类:市面上有许多不同类型的 PDF 工具,包括 PDF 阅读器、编辑器、转换器等。这些工具涵盖了 PDF 文件的创建、编辑、查看、打印、签名、加密等功能,适用于不同场景和用户需求。

3. 技术进步:随着技术的不断进步,PDF 工具也在不断创新和发展。例如,云技术的应用使得 PDF 工具可以实现云端存储和在线协作;人工智能技术的融入则让 PDF 识别和自动处理变得更加智能。

4. 市场竞争:PDF 工具市场竞争激烈,众多厂商纷纷推出自家的产品。知名厂商如 Adobe、福昕软件(Foxit Software)、WinPDF 等。此外,还有一些免费和开源的 PDF 工具,如 PDFsam、PDFchain 等。

5. 市场前景:预计未来 PDF 工具市场仍将保持增长态势。随着数字化转型的加速,PDF 文件在教育、医疗、金融、政务等领域的应用将更加广泛。同时,新兴技术如区块链、大数据、物联网等,也将为 PDF 工具市场带来新的机遇和挑战。

总之,PDF 工具市场是一个充满潜力且不断发展的领域。各类 PDF 工具在满足个人和企业的需求方面发挥了重要作用,未来市场将继续保持创新和繁荣。

github地址:

https://github.com/ocrmypdf/OCRmyPDF

PDF是在办公过程中经常使用的文件格式。它的优势是不可编辑,并且在不同的设备或者系统上可以保持一致的内容格式。但在一些情况下如果需要对PDF文件做一些简单的调整,就得重新生成,这是不可编辑特性带来的障碍。要对PDF文档进行一些编辑,就必须使用一些专业的PDF编辑工具。本文收集了一些最好的开源PDF编辑器。这些工具支持的系统包括:Windows、Mac和Linux等。

01

LibreOffice

官网:

https://zh-cn.libreoffice.org/

下载:

https://zh-cn.libreoffice.org/download/libreoffice/

源码:

https://github.com/LibreOffice/core

LibreOffice是一个值得信赖的开源PDF编辑器,可以作为Microsoft Office的替代产品。它兼容多种平台,如Windows、Mac、Linux。它支持对PDF文档进行几个简单的编辑,例如:注释、添加签名、管理页面等,除此之外,LibreOffice还提供了一个表单功能,允许您向PDF添加可填充的文本框,以轻松制作可填充的PDF。这个功能非常实用。

但是,LibreOffice并不是编辑大型PDF文档的好选择。

02

Inkscape

官网:

https://inkscape.org/

下载:

https://inkscape.org/release/inkscape-1.3.2/

Inkscape实际上是一个开源的矢量图形编辑器。它通常用于修改图像文件,但也可以编辑PDF文档。可以修改PDF文档的文本、图像、链接等。

但它可能没有其他专业的PDF编辑工具那么强大。

03

PDFsam Basic

官网:

https://pdfsam.org/

下载:

https://pdfsam.org/download-pdfsam-basic/

源码:

https://github.com/torakiki/pdfsam

PDFsam Basic或PDF Split and Merge专用于合并、拆分和旋转PDF文件。它是一个免费使用的PDF编辑工具,适用于Windows,Mac和Linux。它在处理PDF页面时非常高效。该程序支持多种语言,包括:中文、英语、法语、、西班牙语等。全世界的用户都可以使用它,没有语言障碍。

但基础版本不适用于PDF编辑。如果您需要高级PDF编辑工具,您必须购买其增强版。

04

Apache OpenOffice Draw

官网:

https://www.openoffice.org/product/draw.html

下载:

https://www.openoffice.org/download/index.html

Apache OpenOffice Draw是一个值得推荐的开源编辑器。它可以用于PDF文档编辑,包括使用文本、画笔、线条等进行注释、插入图像、分割PDF页面、拼写检查PDF文件等等。

它是完全免费的,支持各种系统,如:Windows、Mac、Linux。

05

PDFedit

下载:

http://pdfedit.cz/en/download.html

PDFedit是一个轻量级的、高效的、开源、免费的PDF阅读器和编辑器,适用于多种平台,其仪表板上有许多PDF编辑选项。一般来说,它允许您使用文本、线条和画笔等工具编辑PDF,支持转换PDF格式、使用密码保护PDF等功能。

06

Scribus 

下载:

https://www.scribus.net/downloads/

Scribus是一个免费的、开源的PDF编辑器。可以使用它来编辑PDF文档,支持添加文本、线条、矩形框等。支持Windows、Mac和Linux等操作系统。

但它的用户界面和一些操作有些过时。

07

Preview

https://support.apple.com/zh-cn/guide/preview/welcome/mac

Preview是Mac系统上的一个内置PDF阅读器和编辑器,仅适用于Mac系统。您可以使用它来打开和编辑PDF文件,并且是免费的。因此,它也可以被看作是一个开源的PDF编辑器。

08

XpdfReader

安装文件以及源码下载:

https://www.xpdfreader.com/download.html

XpdfReader是一个非常高效的PDF阅读器和编辑器,支持表单填充、图像处理、注释等功能,支持Windows、linux、MacOS等操作系统。XpdfReader主要使用C++开发,因此它能够以最小资源提供出色性能。

09

PDF4QT

下载:

https://github.com/JakubMelka/PDF4QT/releases

源码:

https://github.com/JakubMelka/PDF4QT

PDF4QT是Linux和Windows系统上的PDF编辑器。该工具使用Qt框架开发,提供了直观的用户界面和强大的功能。

10

PDFCreator

下载:

https://download.pdfforge.org/download/pdfcreator

源码:

https://github.com/pdfforge/PDFCreator

PDFCreator可以在Windows上创建、编辑PDF。支持将任何可打印文档转换为PDF;支持数字签名;支持多语言;支持文档合并和重新排列;

原文链接:

 12 年历史的 PDF 工具开源了!

 一个开源免费的 PDF 文档处理工具箱

一款开源的PDF阅读器!

一款可将扫描的 PDF 文件转换为可搜索的 PDF 文件

7个最佳开源免费PDF编辑工具

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐