扫描版PDF优化—ComicEnhancePro+Acrobat DC(重排版+去噪+文字处理+二值/灰度化+目录+OCR文字识别)
使用ComicEnhancePro+Acrobat,对扫描版PDF文件处理,实现重排版、背景去噪、文字清晰、添加目录、文内搜索等功能
目录
前言
在网上找了几本PDF图书资源,奈何都是原始扫描版,纸张薄导致透印且背景灰色,文字也不太清晰。折腾一下午大概能出来效果不错的成品了,记录一下供以后使用。
一、待解决的问题
PDF存在背透、背景灰暗、不规则线条的问题,部分页面还有版面倾斜的现象,如下图所示
另外我个人需要文档内搜索功能,所以需要对文件OCR处理,这要求让文字更清晰、把图像二值化或灰度处理、并输出较高的分辨率
最后为文档添加较为详细的目录以方便阅读
二、使用的工具
- Adobe Acrobat Pro DC 2020 : 图片提取,OCR
- ComicEnhancePro: 图片裁剪、排版,图像处理
- EditPad Lite 8:文本编辑器,编辑生成目录
- FreePic2Pdf:挂目录
三、操作步骤
1.导出图片
Acrobat 打开文件,工具>>导出PDF>>图片 选择路径开始导出
2.图片处理
1. 图片分类
图片按照后面处理参数不同,先按缩略图分成彩图页、全文字正文页、带图正文页,分别存入不同文件夹
2. 图像处理
- 全文字正文页面处理,参数如下
版面:
- 纠斜: 自动_双向, 边缘保留
切边: 手动选择范围内自动选择, 不计黑边, 忽略斑点直径: 08, 斑点补偿
DPI=600
页面大小: 787x1092mm, 1/16
图像:
- 黑白文字
- 变细01
- 高斯模糊半径: 1.2
- 高斯锐化半径: 3, 阶数: 7
- 多尺度细节增强: 18
- USM锐化: 遍数=1, 数量=100, 半径=5.0, 阀值=20
输出:
- Jpg质量: 80
效果如图
- 含图页面处理,直接使用黑白文字选项会让图片一片黑,需要使用曲线去背景,参数如下
版面:
- 纠斜: 自动_横排, 边缘保留
- 切边: 手动选择范围内自动选择, 不计黑边, 强力去背景, 忽略斑点直径: 08, 斑点补偿
- DPI=600
- 页面大小: 787x1092mm, 1/16, 内容框对齐方式: 水平=不变, 垂直=居中
图像:
- 曲线调节: X1=150, Y1=0, X2=110, Y2=255
- 多尺度细节增强: 20
- 高斯模糊半径: 1.2
- 高斯锐化半径: 3, 阶数: 7
- USM锐化: 遍数=1, 数量=100, 半径=5.0, 阀值=20
其它:
- 色彩设置: 色彩数=32级灰度, 调色板量化算法=神经网络
- Jpg质量: 80
效果如图
3、图片汇总
把上面生成的新图片汇总到一个文件夹中,方便后面使用
3、生成PDF并OCR
生成PDF
Acrobat 工具>>创建PDF>>从多个文件 选中上一步中生成的图片,生成PDF并检查是否存在错误
- OCR
工具>>扫描及OCR>>识别文本>>可编辑的文本和图像,识别完成后即可进行全文搜索
4、目录生成
把OCR后的目录页面复制到EditPad Lite中
检查发现存在以下问题
- “1”被识别成l(小写L)或I(大写i),“0”被识别成“O”
- 每章的第一节前没有编号
- 多行成一行
- 章节号与章节名分开
- 章节内容内换行
- 页码与内容间缺空格
- 需要tab来为目录提供层级
需要达到的层级关系
|—第1篇
|——第1章
| |——1.1
| | |——1.1.1
| | | |——案例研究/新闻摘录/参考资料
| | |——1.1.2
......
| |——内容提要/关键概念/复习题...
......
|—第2篇
|——第4章
| |——4.1
......
解决方法及效果如下
- 替换成正确的“0”“1”: [lI] —> 1 O —> 0
- 删除所有空格
- 添加缺失编号:(第(\d+)章.+\r\n) —> \1\2.1
- 合并章节号与章节名:(第\d+[篇/章])\r\n(.+) —> \1 \2
- 合并行拆分1: (?<=[\u4e00-\u9fff])(\d+(\.\d+)+([\u4e00-\u9fff].+)) —> \r\n\3
- 合并行拆分2: (?<!^)(第\d+[章篇].+) —> \r\n\1
- 第二层前添加tab*1:(第(\d+)章.+\r\n) —> \t\1
- 第三层前添加tab*2:^((\d+\.\d+[^\.]|[内关复快问].+).+\r\n) —> \t\t\1
- 第四层前添加tab*3:^(\d+.+\r\n) —> \t\t\t\1
- 第五层前添加tab*4:^([新参案].{3})(.+) —> \t\t\t\t\1 \2
- 在页码前添加tab:(\d+)$ —> \t\1
- 开头添加其它页面目录:封面\扉页\出版信息\献词\作者介绍\序\前言\学习指南图\目录
生成的目录保存为txt文件
FreePic2Pdf>>更改PDF>>往PDF挂书签 分别选择PDF文件和目录文件,点击开始,跳出成功信息即可
目录
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)