当前位置：首页 > news >正文

非结构化数据解析

news 来源：原创 2025/4/28 6:22:09

针对日常生活中常见的文本中出现图片，表格，公式等非结构性数据，在构建rag系统时对其有效信息提取与最后结果息息相关。下面来总结一下目前常见非结构性数据提取方法：

（1）分块识别

下面针对融合多种非结构性数据pdf文本进行识别

import os
import pdfplumber
import fitz  # PyMuPDF 提取图像
from openpyxl import Workbookclass PDFProcessor:def __init__(self, pdf_path,save_path=None):self.pdf_path = pdf_pathself.save_path = save_pathself.extract_pdf()def extract_pdf(self):# self.extract_text()self.extract_images()# self.extract_tables()# self.extract_table2txt()def extract_text(self):  with pdfplumber.open(self.pdf_path) as pdf:      text = ""for page in pdf.pages:

相关文章：

ESP32开发入门（四）：ESP32-s3多串口开发实践

Linux进程详细解析

Day14(链表)——LeetCode234.回文链表141.环形链表

MySQL：13.用户管理

【漫话机器学习系列】226.测试集、训练集、验证集（test,training,validation sets）

天线设计实战：三大经典布局的摆放逻辑与核心技术要点！

el-input限制输入只能是数字限制input只能输入数字

力扣hot100，739每日温度(单调栈)详解

什么是模块化区块链？Polkadot 架构解析

【今日三题】笨小猴(模拟) / 主持人调度(排序) / 分割等和子集(01背包)

Pinia——Vue的Store状态管理库

【KWDB创作者计划】_企业级多模数据库实战：用KWDB实现时序+关系数据毫秒级融合（附代码、性能优化与架构图）

基于深度学习的智能交通流量监控与预测系统设计与实现

Spring Boot API版本控制实践指南

基于深度学习的医疗诊断辅助系统设计

深入详解人工智能数学基础—概率论-KL散度在变分自编码器（VAE）中的应用

SHCTF-REVERSE

【极致版】华为云Astro轻应用抽取IoTDA影子设备参数生成表格页面全流程

如何在 iPhone 上恢复已删除的联系人：简短指南

OkHttp源码梳理

上海第三家“胖永辉”在浦东开业，设立了外贸产品专区

四川在浙江公开招募200名退休教师，赴川支教帮扶

主播说联播丨六部门出台新政！来华买买买，实惠多多多

马上评丨发钱奖励结婚，支持婚育就该系统性发力

辽宁省信访局副局长于江调任辽宁省监狱管理局局长

读科学发展的壮丽史诗，也读普通人的传奇