当前位置：首页 > news >正文

切割PDF使用python，库PyPDF2

news 来源：原创 2025/4/25 6:34:32

使用 Python 将大型 PDF 文件分割成多个小文件

理解任务

将一个 170M 的 PDF 文件分割成多个 10M 左右的小文件。这在处理大型 PDF 文件时非常有用，例如：

减少单个文件的大小，方便传输或存储
分别处理不同的文件部分
提高 PDF 处理的效率

选择合适的 Python 库

Python 提供了多个用于处理 PDF 文件的库，其中 PyPDF2 是一个常用的选择。它可以读取、合并、分割 PDF 文件，并提供了一些其他的功能。

代码实现

import PyPDF2def split_pdf(input_pdf, output_prefix, max_size=10*1024*1024):"""将一个 PDF 文件分割成多个小文件Args:input_pdf: 输入 PDF 文件路径output_prefix: 输出文件的前缀max_size: 每个输出文件的最大字节数"""with open(input_pdf, 'rb') as input_file:reader = PyPDF2.PdfReader(input_file)num_pages = len(reader.pages)output_pdf = Noneoutput_writer = Nonecurrent_size = 0part_num = 1for page_num in range(num_pages):page = reader.pages[page_num]if output_pdf is None:output_pdf = PyPDF2.PdfWriter()output_filename = f"{output_prefix}_{part_num}.pdf"output_pdf.add_page(page)# 获取当前输出 PDF 文件的字节大小output_pdf.add_page(page)  # 添加页面后，再次获取大小，以确保准确with io.BytesIO() as buffer:output_pdf.write(buffer)current_size = len(buffer.getvalue())if current_size >= max_size:with open(output_filename, 'wb') as output_file:output_pdf.write(output_file)# 创建新的输出 PDF 和写入器output_pdf = PyPDF2.PdfWriter()output_filename = f"{output_prefix}_{part_num + 1}.pdf"part_num += 1current_size = 0# 处理最后一个部分if output_pdf:with open(output_filename, 'wb') as output_file:output_pdf.write(output_file)# 示例用法
input_file = "large_pdf.pdf"
output_prefix = "split_part"
split_pdf(input_file, output_prefix)

代码解释

导入 PyPDF2 库： 用于处理 PDF 文件。
定义函数： split_pdf 函数接受输入 PDF 文件路径、输出文件前缀和每个输出文件的最大字节数作为参数。
读取 PDF 文件： 使用 PyPDF2.PdfReader 读取输入 PDF 文件，获取总页数。
创建输出 PDF 和写入器： 初始化输出 PDF 和写入器，用于写入分割后的 PDF 文件。
逐页处理： 遍历每一页，将页面添加到当前输出 PDF 中。
检查文件大小： 每次添加页面后，检查当前输出 PDF 的大小是否超过最大字节数。如果超过，则将当前输出 PDF 保存到磁盘，并创建一个新的输出 PDF。
处理最后一个部分： 处理完所有页面后，将最后一个输出 PDF 保存到磁盘。

注意

文件大小估计： 由于 PDF 文件的压缩方式不同，实际每个页面的字节大小可能会有波动，因此分割后的文件大小可能与设定的 max_size 略有差异。
性能优化： 对于非常大的 PDF 文件，可以考虑使用多线程或多进程来提高分割速度。
其他库： 除了 PyPDF2，还有其他一些 Python 库可以用于处理 PDF 文件，例如 pdfminer.six。