首页 > 编程 > Python > 正文

Python实现pdf文档转txt的方法示例

2020-01-04 16:09:58
字体:
来源:转载
供稿:网友

本文实例讲述了Python实现pdf文档转txt的方法。分享给大家供大家参考,具体如下:

首先,这是一个比较粗糙的版本,因为已经够用了,而且对pdf的格式不熟悉,所以暂时没有进一步优化。

还有,这是转成txt的,所以如果是有图片的pdf是无法保存图片的。

至于本来就是图片的文本,这里是无法分析出来的。那些图片的pdf,估计要用图形匹配的方式来处理,类似于超速拍摄的车牌识别。

不过这样的程度,已经不是文本处理了。扯远了。。。

转出来的文字,好像按照pdf里面的所展示的来换行了,看不到有什么规则还原,我也不知道怎么处理,将就着用吧。

另外,初始代码是网上找的,最初地址不知道哪里了。

用到了第三方库pdfminier

pdfminer库的地址 https://pypi.python.org/pypi/pdfminer3k

下载后,用cmd执行命令 setup.py install

安装完之后打开eclipse会弹出要求加载一些东西,点击确定就行了。

再来看看代码:

import os.pathfrom pdfminer.pdfparser import PDFParser,PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LTTextBoxHorizontal,LAParamsfrom pdfminer.pdfinterp import PDFTextExtractionNotAllowedclass CPdf2TxtManager():  '''''  classdocs  '''  def __init__(self):    '''''    Constructor    '''  def changePdfToText(self, filePath):    file = open(path, 'rb') # 以二进制读模式打开    #用文件对象来创建一个pdf文档分析器    praser = PDFParser(file)    # 创建一个PDF文档    doc = PDFDocument()    # 连接分析器 与文档对象    praser.set_document(doc)    doc.set_parser(praser)    # 提供初始化密码    # 如果没有密码 就创建一个空的字符串    doc.initialize()    # 检测文档是否提供txt转换,不提供就忽略    if not doc.is_extractable:      raise PDFTextExtractionNotAllowed    # 创建PDf 资源管理器 来管理共享资源    rsrcmgr = PDFResourceManager()    # 创建一个PDF设备对象    laparams = LAParams()    device = PDFPageAggregator(rsrcmgr, laparams=laparams)    # 创建一个PDF解释器对象    interpreter = PDFPageInterpreter(rsrcmgr, device)    pdfStr = ''    # 循环遍历列表,每次处理一个page的内容    for page in doc.get_pages(): # doc.get_pages() 获取page列表      interpreter.process_page(page)      # 接受该页面的LTPage对象      layout = device.get_result()      # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性,      for x in layout:        if (isinstance(x, LTTextBoxHorizontal)):          pdfStr = pdfStr + x.get_text() + '/n'    fileNames = os.path.splitext(filePath)    file2 = open(fileNames[0] + '.txt','wb')#保存这些内容    file2.write(pdfStr.encode())    file2.close()    file.close()if __name__ == '__main__':  '''''   解析pdf 文本,保存到txt文件中  '''  path = r'C:/Users/Administrator/Desktop/《精力管理》.pdf'  pdf2TxtManager = CPdf2TxtManager()  pdf2TxtManager.changePdfToText(path)

希望本文所述对大家Python程序设计有所帮助。


注:相关教程知识阅读请移步到python教程频道。
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表