怎么快速分析一个 PDF , 用 ChatGPT 式的对话、聊天方式快速阅读 。
chatpdf.com(可能需科学上网)
ChatPDF 最近火出了圈 , 你上传一篇文章或者一本书的 PDF,它用 GPT 一会儿就能分析完,而后你可以就 PDF 内容随意提问 。
开发者介绍,说学生特别喜欢这个工具,用它来啃大部头的参考书 。
因为太受欢迎,开发者火速加上了付费功能 , 免费用户最多分析少于 50 页的 PDF…这可能就傻眼了 , 比如众多研究生朋友要是想分析一本十几万字的书籍作为测试,绝对超过 50 页了 。
经过笔者测试,最终找了一本喜欢的 epub 书籍 , 把它解压缩后得到二十几个 xhtml 文件 , 再把所有文件合并为一个大 txt 文件,接着洗掉所有 html 代码,最后在 word 里编辑这个 txt 文件,把字号缩小到 5pt,最终生成了一个 10 页的 PDF 。
这么生成的 PDF 只有文字、没有任何结构 , 拿它去做测试 , 这才发现 ChatGPT 的真实能力:它“理解”文字的同时 , 还准确分析出了这本书的书名、作者、章节等各种信息 。
用 ChatGPT 聊天方式阅读书籍等效果很有趣,比通读一遍更省力,比只读摘要更充实 , 而且可以就着原始内容提出真正的问题、就像在请教作者本人一样 。
然而,缺点也很明显,因为现阶段功能极简,所以分析结果和聊天过程都无法直接导出 。
虽然火出圈,但我觉得我还是有义务澄清一下很多人的误会
1)chatpdf并不能增强chatgpt阅读长文的能力,其能力依然锁定在4096个token内
2)pdf的所谓阅读的做法是把文章分成无数个上述长度内的片段然后生成embedding 。你提问,依赖embedding召回 , 最后再去问一次chatgpt
3)字体变小会让成本加倍增长
【ChatPDF来了,你会用吗?】