pdf怎么会有扫描版这种玩意，它还不带书签

2024-06-28 PDF

写本文的目的

最近又在看一些pdf书，但大多数都是扫描版，没目录书签真的很恼火，想找点内容都必须拉到顶部看下目录的页码，然后再去定位。
【pdf怎么会有扫描版这种玩意，它还不带书签】因此我就想能不能通过python写个脚本，把目录导进去。

实现思路

我需要获得目录为达到这个目的，想到下面几种方案。

截图。通过orc识别，如QQ截图的识别，或者其他识别工具，从扫描版上获取目录。
书籍网站上找目录-如http://www.china-pub.com/
程序集成orc库来扫描整个pdf获取目录。

我需要有一个现成的pdf库，来供我读取和操作pdf文件

这玩意百分之百有， github上一找就找到了一个叫做Pypdf3的东西

编码思路

从网上找到目录

我这里是手动复制，其实也可以使用爬虫，这样只需要输入网页地址即可。这里选择该方案主要我还没有动力去了解orc扫描。但orc扫描应该是最优方案了。

导入目录，依靠正则表达式做数据清洗。生成树形结构

请小心中文乱码。
ps：正则表达式的?<= 和?=非常有用，前者表明匹配这个规则之后的数据，后者表明匹配这个规则之前的数据

操作pdf加标签

网上下载下来的目录需要核实对不对得上。有可能你找的电子书版本和你手头上的电子书版本对不上。
核实手头上的电子书内容的页码和在pdf中的实际页码的偏移量。这影响了你标签加的准不准。

输出文件，这基本就完事了，然后再把它搞成shell脚本凑合着也就能用了

一些缺陷

数据清洗其实挺麻烦的，因为目录结构无法保证是一致的
输出的文件还是有一点偏差，不过偏差不大就是了。
从网上找目录也不是一个稳妥的方案，只能说是临时方案，所以还是得搞orc扫描

一些请求

哇，兄弟，这玩意还是要有专业的工具比较靠谱。
有哪些优秀的orc库，或者说可以直接生成目录的工具请告知啊。
peace and love 。

相关经验推荐

上一篇：如何高效给PDF加标签

下一篇：excel表格为什么不能求和 excel公式不求和了怎么办