非结构化数据解析
针对日常生活中常见的文本中出现图片,表格,公式等非结构性数据,在构建rag系统时对其有效信息提取与最后结果息息相关。下面来总结一下目前常见非结构性数据提取方法:
(1)分块识别
下面针对融合多种非结构性数据pdf文本进行识别
import os
import pdfplumber
import fitz # PyMuPDF 提取图像
from openpyxl import Workbookclass PDFProcessor:def __init__(self, pdf_path,save_path=None):self.pdf_path = pdf_pathself.save_path = save_pathself.extract_pdf()def extract_pdf(self):# self.extract_text()self.extract_images()# self.extract_tables()# self.extract_table2txt()def extract_text(self): with pdfplumber.open(self.pdf_path) as pdf: text = ""for page in pdf.pages: