写本文的目的
最近又在看一些pdf书,但大多数都是扫描版 , 没目录书签真的很恼火,想找点内容都必须拉到顶部看下目录的页码,然后再去定位 。【pdf怎么会有扫描版这种玩意,它还不带书签】因此我就想能不能通过python写个脚本,把目录导进去 。
实现思路
- 我需要获得目录 为达到这个目的 , 想到下面几种方案 。
书籍网站上找目录-如http://www.china-pub.com/
程序集成orc库来扫描整个pdf获取目录 。
- 我需要有一个现成的pdf库,来供我读取和操作pdf文件
编码思路
- 从网上找到目录
- 导入目录,依靠正则表达式做数据清洗 。生成树形结构
ps:正则表达式的?<= 和?=非常有用,前者表明匹配这个规则之后的数据,后者表明匹配这个规则之前的数据
- 操作pdf加标签
核实手头上的电子书内容的页码和在pdf中的实际页码的偏移量 。这影响了你标签加的准不准 。
- 输出文件 , 这基本就完事了,然后再把它搞成shell脚本凑合着也就能用了
一些缺陷
数据清洗其实挺麻烦的,因为目录结构无法保证是一致的输出的文件还是有一点偏差,不过偏差不大就是了 。
从网上找目录也不是一个稳妥的方案,只能说是临时方案,所以还是得搞orc扫描
一些请求
哇 , 兄弟,这玩意还是要有专业的工具比较靠谱 。有哪些优秀的orc库,或者说可以直接生成目录的工具请告知啊 。
peace and love 。