python 读取pdf中的文本
2023-12-25 13:34:41
摘要
常常需要针对pdf进行文本分析,以下给出了两种方法用来读取pdf中的文字
方法一 pypdf2
pip install pypdf2
import PyPDF2
filename = 'xxx.pdf'
with open(filename, 'rb') as file:
# 创建一个PDF阅读器对象
reader = PyPDF2.PdfReader(file)
# 遍历PDF中的每一页
for page_num in range(len(reader.pages)):
# 获取当前页面的文本内容
text = reader.pages[page_num].extract_text()
print(text)
方法二 langchain
pip install pypdf
def pdf_load(filename):
# pip install pypdf
from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader(filename)
return loader.load_and_split()
res = pdf_load(filename)
print(res)
两种方法得到的结果,都在原文中出现了很多换行符。
输出如下:
双随机
、
一公开
”
食品药品市场监管机制
,
建立完善旗县
(
市
、
区
)
、
苏木乡镇食
文章来源:https://blog.csdn.net/sjxgghg/article/details/135196650
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!