Python PDF文本提取实战技法

在本文中，探讨了Python中利用PyPDF2和PyMuPDF这两个强大的PDF处理库进行文本提取的方法。通过PyPDF2，学习了基本的文本提取、指定页面范围提取以及文本搜索与高级提取的技巧。同时，探讨了如何将提取的文本保存到文本文件中，以及如何进行文本处理与分析，例如词频统计。进一步地，介绍了利用PyMuPDF进行PDF文本提取的方法，展示了其在PDF处理领域的强大功能。了解了如何使用PyMuP

小敢摘葡萄

1958人浏览 · 2023-12-01 10:50:00

小敢摘葡萄 · 2023-12-01 10:50:00 发布

随着数字化时代的到来，PDF文档在办公场景中的应用越来越广泛。本文将介绍如何利用Python自动化办公，提取PDF文档中的文本信息，以提高工作效率。

安装必要的库

首先，确保已经安装了PyPDF2或其他适用于PDF处理的库：

pip install PyPDF2

基本文本提取

在Python中使用PyPDF2库进行PDF文档基本文本提取是一个常见的任务。

以下是一个简单的示例代码，演示了如何使用PyPDF2提取PDF文档中的文本信息：

import PyPDF2

def extract_text_from_pdf(pdf_path):
    # 打开PDF文件
    with open(pdf_path, 'rb') as file:
        # 创建PyPDF2的PdfFileReader对象
        pdf_reader = PyPDF2.PdfFileReader(file)

        # 获取PDF文档的总页数
        num_pages = pdf_reader.numPages

        # 初始化文本变量
        text = ""

        # 循环遍历每一页
        for page_num in range(num_pages):
            # 获取当前页
            page = pdf_reader.getPage(page_num)

            # 提取当前页的文本
            text += page.extractText()

    return text

# 指定PDF文件路径
pdf_path = 'example.pdf'

# 调用函数提取文本
extracted_text = extract_text_from_pdf(pdf_path)

# 打印提取的文本
print(extracted_text)

在这个示例中，extract_text_from_pdf函数接受一个PDF文件的路径作为输入，然后使用PyPDF2库打开文件，逐页提取文本并将其追加到一个字符串中。最后，返回整个文档的文本。

指定页面范围提取文本

当只对PDF文档中的特定页面范围感兴趣时，可以使用PyPDF2库来指定页面范围提取文本。

以下是一个示例代码，演示如何在PyPDF2中指定页面范围来提取文本：

import PyPDF2

def extract_text_from_specific_pages(pdf_path, start_page, end_page):
    # 打开PDF文件
    with open(pdf_path, 'rb') as file:
        # 创建PyPDF2的PdfFileReader对象
        pdf_reader = PyPDF2.PdfFileReader(file)

        # 获取PDF文档的总页数
        num_pages = pdf_reader.numPages

        # 初始化文本变量
        text = ""

        # 确保开始页和结束页在有效范围内
        start_page = max(1, start_page)
        end_page = min(num_pages, end_page)

        # 循环遍历指定范围的页
        for page_num in range(start_page - 1, end_page):
            # 获取当前页
            page = pdf_reader.getPage(page_num)

            # 提取当前页的文本
            text += page.extractText()

    return text

# 指定PDF文件路径
pdf_path = 'example.pdf'

# 指定页面范围（例如从第2页到第4页）
start_page = 2
end_page = 4

# 调用函数提取指定范围内的文本
extracted_text = extract_text_from_specific_pages(pdf_path, start_page, end_page)

# 打印提取的文本
print(extracted_text)

在这个示例中，extract_text_from_specific_pages函数接受一个PDF文件的路径以及开始页和结束页作为输入。它会确保开始页和结束页在有效范围内，然后只提取这个范围内的文本。这样你就可以针对特定的页面范围进行文本提取。

文本搜索与高级提取

在使用PyPDF2进行文本搜索和高级文本提取时，可以通过简单的字符串搜索或者更灵活的正则表达式来定制提取规则。

以下是一个示例代码，演示如何在提取的文本中执行搜索，并进行一些高级的文本提取：

import PyPDF2
import re

def search_text_in_pdf(pdf_path, search_term):
    # 打开PDF文件
    with open(pdf_path, 'rb') as file:
        # 创建PyPDF2的PdfFileReader对象
        pdf_reader = PyPDF2.PdfFileReader(file)

        # 获取PDF文档的总页数
        num_pages = pdf_reader.numPages

        # 循环遍历每一页
        for page_num in range(num_pages):
            # 获取当前页
            page = pdf_reader.getPage(page_num)

            # 提取当前页的文本
            text = page.extractText()

            # 在文本中搜索指定的词语
            if re.search(search_term, text, re.IGNORECASE):
                print(f"Found '{search_term}' on page {page_num + 1}")

# 指定PDF文件路径
pdf_path = 'example.pdf'

# 指定搜索的词语
search_term = 'Python'

# 调用函数进行文本搜索
search_text_in_pdf(pdf_path, search_term)

在这个示例中，search_text_in_pdf函数接受一个PDF文件的路径以及要搜索的词语作为输入。它使用PyPDF2提取每一页的文本，并使用正则表达式进行搜索。如果找到了匹配的文本，就会打印出在哪一页找到了。

PDF转文本文件

将提取的文本保存到一个文本文件中是一个常见的需求，这可以方便后续处理、分析或分享文本内容。

以下是一个示例代码，演示如何将提取的文本保存到一个文本文件中：

import PyPDF2

def extract_text_from_pdf(pdf_path):
    with open(pdf_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfFileReader(file)
        text = ""
        for page_num in range(pdf_reader.numPages):
            page = pdf_reader.getPage(page_num)
            text += page.extractText()
    return text

def save_text_to_file(text, output_file):
    with open(output_file, 'w', encoding='utf-8') as file:
        file.write(text)

# 指定PDF文件路径
pdf_path = 'example.pdf'

# 调用函数提取文本
extracted_text = extract_text_from_pdf(pdf_path)

# 指定保存文本的文件路径
output_file = 'extracted_text.txt'

# 调用函数保存文本到文件
save_text_to_file(extracted_text, output_file)

print(f"Text extracted from PDF has been saved to: {output_file}")

在这个示例中，extract_text_from_pdf函数用于提取PDF文档的文本，而save_text_to_file函数用于将提取的文本保存到指定的文本文件中。确保在保存文本时使用适当的编码，这里使用了UTF-8编码。

文本处理与分析

对提取的文本进行进一步处理和分析是文本挖掘中的一个常见任务，可以帮助了解文本的特征、提取关键信息以及进行更深入的分析。

以下是一个示例代码，演示如何对提取的文本进行简单的词频统计：

from collections import Counter
import string

def analyze_text(text):
    # 去除标点符号和换行符
    text = text.translate(str.maketrans('', '', string.punctuation + '\n'))

    # 转换为小写
    text = text.lower()

    # 将文本拆分为单词
    words = text.split()

    # 使用Counter进行词频统计
    word_count = Counter(words)

    # 打印词频统计结果
    print("Top 10 Words and Their Frequencies:")
    for word, frequency in word_count.most_common(10):
        print(f"{word}: {frequency}")

# 指定文本文件路径
text_file = 'extracted_text.txt'

# 读取文本文件内容
with open(text_file, 'r', encoding='utf-8') as file:
    text_content = file.read()

# 调用函数进行文本处理与分析
analyze_text(text_content)

在这个示例中，analyze_text函数接受提取的文本作为输入，首先去除标点符号和换行符，然后转换为小写，最后使用Counter进行词频统计。最后，打印出前10个词和它们的频率。

图形界面与用户交互

使用Tkinter库创建一个简单的图形界面，使用户能够选择PDF文件并执行文本提取操作是一个有用的功能。

以下是一个示例代码，演示如何结合Tkinter实现这个图形界面：

import tkinter as tk
from tkinter import filedialog
import PyPDF2

def extract_text_from_selected_pdf():
    # 弹出文件选择对话框
    file_path = filedialog.askopenfilename(filetypes=[('PDF Files', '*.pdf')])

    # 如果用户取消选择文件，则直接返回
    if not file_path:
        return

    # 调用PDF文本提取函数
    extracted_text = extract_text_from_pdf(file_path)

    # 在文本框中显示提取的文本
    text_box.delete(1.0, tk.END)
    text_box.insert(tk.END, extracted_text)

def extract_text_from_pdf(pdf_path):
    with open(pdf_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfFileReader(file)
        text = ""
        for page_num in range(pdf_reader.numPages):
            page = pdf_reader.getPage(page_num)
            text += page.extractText()
    return text

# 创建Tkinter窗口
root = tk.Tk()
root.title("PDF Text Extractor")

# 添加按钮和文本框
browse_button = tk.Button(root, text="Choose PDF", command=extract_text_from_selected_pdf)
browse_button.pack(pady=10)

text_box = tk.Text(root, height=10, width=50)
text_box.pack(pady=10)

# 运行Tkinter事件循环
root.mainloop()

在这个示例中，通过filedialog.askopenfilename弹出文件选择对话框，用户可以选择一个PDF文件。然后，通过extract_text_from_pdf函数提取选定PDF文件中的文本，并将文本显示在Tkinter窗口的文本框中。

PDF转其他格式

将PDF文本转换为其他格式，例如转为Word文档，可以使用第三方库如python-docx和PyMuPDF。

以下是一个示例代码，演示了如何使用PyMuPDF库将PDF文本转换为Word文档：

首先，确保已经安装了PyMuPDF库：

pip install pymupdf

然后，使用以下代码进行PDF到Word的转换：

import fitz
from docx import Document

def convert_pdf_to_docx(pdf_path, output_docx):
    doc = fitz.open(pdf_path)
    document = Document()

    for page_num in range(doc.page_count):
        page = doc[page_num]
        text = page.get_text()
        document.add_paragraph(text)

    document.save(output_docx)

# 指定PDF文件路径
pdf_path = 'example.pdf'

# 指定输出的Word文档路径
output_docx = 'converted_document.docx'

# 调用函数进行PDF到Word的转换
convert_pdf_to_docx(pdf_path, output_docx)

print(f"PDF has been converted to Word document: {output_docx}")

在这个示例中，convert_pdf_to_docx函数接受一个PDF文件的路径和输出Word文档的路径作为输入。它使用PyMuPDF打开PDF文件，然后遍历每一页，将每一页的文本添加到python-docx的Document对象中。最后，保存为Word文档。

处理图像内容

处理PDF文档中的图像通常涉及到使用第三方库，其中PyPDF2并不提供直接处理图像的功能。一个常用的库是PyMuPDF，它可以提取PDF中的图像并保存为图片文件。以下是一个示例代码，演示如何使用PyMuPDF提取PDF文档中的图像：

首先，确保已经安装了PyMuPDF库：

pip install pymupdf

然后，使用以下代码进行PDF图像提取：

import fitz
from PIL import Image

def extract_images_from_pdf(pdf_path, output_folder):
    doc = fitz.open(pdf_path)

    for page_num in range(doc.page_count):
        page = doc[page_num]

        # 获取所有图像对象
        img_list = page.get_images(full=True)

        for img_index, img in enumerate(img_list):
            img_index += 1

            # 获取图像的字节流数据
            img_bytes = page.get_image_data(img[0])

            # 将字节流转为Image对象
            img_pil = Image.frombytes("RGB", [img[1], img[2]], img_bytes)

            # 保存图像为文件
            img_path = f"{output_folder}/image_page{page_num + 1}_img{img_index}.png"
            img_pil.save(img_path)

    doc.close()

# 指定PDF文件路径
pdf_path = 'example.pdf'

# 指定输出图像的文件夹路径
output_folder = 'extracted_images'

# 调用函数进行PDF图像提取
extract_images_from_pdf(pdf_path, output_folder)

print(f"Images have been extracted and saved to: {output_folder}")

在这个示例中，extract_images_from_pdf函数接受一个PDF文件的路径以及输出图像文件夹的路径作为输入。它使用PyMuPDF打开PDF文件，遍历每一页，获取页面中的图像对象，然后将每个图像保存为PNG文件。

使用第三方库PyMuPDF

PyMuPDF（MuPDF）是一个强大的PDF处理库，它提供了丰富的功能，包括PDF文本提取、图像提取、PDF渲染等。

以下是一个简单的示例代码，演示如何使用PyMuPDF进行PDF文本提取：

首先，确保已经安装了PyMuPDF库：

pip install pymupdf

然后，使用以下代码进行PDF文本提取：

import fitz

def extract_text_with_pymupdf(pdf_path):
    doc = fitz.open(pdf_path)
    text = ""
    for page_num in range(doc.page_count):
        page = doc[page_num]
        text += page.get_text()
    doc.close()
    return text

# 指定PDF文件路径
pdf_path = 'example.pdf'

# 调用函数进行PDF文本提取
text_with_pymupdf = extract_text_with_pymupdf(pdf_path)

# 打印提取的文本
print(text_with_pymupdf)

在这个示例中，extract_text_with_pymupdf函数接受一个PDF文件的路径作为输入，使用PyMuPDF打开PDF文件，遍历每一页，获取每一页的文本内容，并将其拼接成一个字符串。最后，关闭文档。

总结

在本文中，探讨了Python中利用PyPDF2和PyMuPDF这两个强大的PDF处理库进行文本提取的方法。通过PyPDF2，学习了基本的文本提取、指定页面范围提取以及文本搜索与高级提取的技巧。同时，探讨了如何将提取的文本保存到文本文件中，以及如何进行文本处理与分析，例如词频统计。

进一步地，介绍了利用PyMuPDF进行PDF文本提取的方法，展示了其在PDF处理领域的强大功能。了解了如何使用PyMuPDF提取文本和图像，并扩展了工具箱，将PDF文本转换为其他格式，比如Word文档。最后，通过一个简单的图形界面示例，展示了如何结合Tkinter库，实现用户友好的PDF文本提取应用。

这篇文章不仅提供了详细的示例代码，使大家能够快速上手，还强调了不同库之间的灵活组合，满足各种PDF处理需求。无论是办公自动化、数据分析，还是自然语言处理，这些技术都为处理PDF文档提供了强大的工具和丰富的选择。

感兴趣的小伙伴，赠送全套Python学习资料，包含面试题、简历资料等具体看下方。