模块PdfFileReader介绍 python办公自动化之pdf篇 day02

PyPDF2模块介绍之——PdfFileReader

PdfFileReader class是文件读取模块,通过它 , 文件的PDF数据流会缓慢读入内存中,它的初始化操作如下:(以后本教程简写为pdfreader , 权且叫pdf文件阅读器)
代码操作在c:/users/admin/desktop/pypdf/day02目录下,有一个文件test.pdf,Ipython8.0环境下测试
from PyPDF2 import PdfFileReader as pdfreader# 测试pdf文件阅读后赋值给一个变量rpdfrpdf = pdfreader('test.pdf')type(rpdf)
模块PdfFileReader介绍 python办公自动化之pdf篇 day02

基本概念介绍:一图胜千言
先看思维脑图:
模块PdfFileReader介绍 python办公自动化之pdf篇 day02

pdfreader模块脑图

1、PdfFileReader常用属性测试

rpdf.documentInfo#获取文档元数据信息rpdf.numPages# 获取pdf文件的页数,一共有多少页rpdf.isEncrypted # 判断pdf文档是否加密了
模块PdfFileReader介绍 python办公自动化之pdf篇 day02

【模块PdfFileReader介绍 python办公自动化之pdf篇 day02】属性操作1
模块PdfFileReader介绍 python办公自动化之pdf篇 day02

属性操作2

2、PdfFileReader常用方法测试

getDocumentInfo( ) #获取文档元数据 , 属性documentInfo就是调取了它getNumPages( ) # 获取pdf共有的页数,属性numPages就是调用了它
以上两个方法直接用属性替代操作简单点,省时省力 。
getPage(Num) # 参数是数字,获取指定页数的页面对象getPageNumber( ) # 获取页面对象的页码数字decrypy(password) # 参数是密码,用于解密加密文档p1 = rpdf.getPage(0) #获取页面对象p2 = rpdf.getPage(5)p3 =rpdf.getPaage(8) # 会出错,超出范围# 判断文档是否加密,试图用123456解密它if rpdf.isEncrypted: rpdf.decrypt('123456')else: print('pdf文档未加密')
模块PdfFileReader介绍 python办公自动化之pdf篇 day02

模块PdfFileReader介绍 python办公自动化之pdf篇 day02

本节课我们简单的学习了PdfFileReader(简称pdfreader)模块的属性和方法,这些都是常用的,请认真参阅,亲自动手哦 。

相关经验推荐