PyPDF2模块介绍之——PdfFileReader
PdfFileReader class是文件读取模块,通过它 , 文件的PDF数据流会缓慢读入内存中,它的初始化操作如下:(以后本教程简写为pdfreader , 权且叫pdf文件阅读器)代码操作在c:/users/admin/desktop/pypdf/day02目录下,有一个文件test.pdf,Ipython8.0环境下测试
from PyPDF2 import PdfFileReader as pdfreader# 测试pdf文件阅读后赋值给一个变量rpdfrpdf = pdfreader('test.pdf')type(rpdf)
基本概念介绍:一图胜千言
先看思维脑图:
pdfreader模块脑图
1、PdfFileReader常用属性测试
rpdf.documentInfo#获取文档元数据信息rpdf.numPages# 获取pdf文件的页数,一共有多少页rpdf.isEncrypted # 判断pdf文档是否加密了
【模块PdfFileReader介绍 python办公自动化之pdf篇 day02】属性操作1
属性操作2
2、PdfFileReader常用方法测试
getDocumentInfo( ) #获取文档元数据 , 属性documentInfo就是调取了它getNumPages( ) # 获取pdf共有的页数,属性numPages就是调用了它
以上两个方法直接用属性替代操作简单点,省时省力 。
getPage(Num) # 参数是数字,获取指定页数的页面对象getPageNumber( ) # 获取页面对象的页码数字decrypy(password) # 参数是密码,用于解密加密文档p1 = rpdf.getPage(0) #获取页面对象p2 = rpdf.getPage(5)p3 =rpdf.getPaage(8) # 会出错,超出范围# 判断文档是否加密,试图用123456解密它if rpdf.isEncrypted: rpdf.decrypt('123456')else: print('pdf文档未加密')
本节课我们简单的学习了PdfFileReader(简称pdfreader)模块的属性和方法,这些都是常用的,请认真参阅,亲自动手哦 。