当前位置: 首页 > news >正文

非结构化数据解析

       针对日常生活中常见的文本中出现图片,表格,公式等非结构性数据,在构建rag系统时对其有效信息提取与最后结果息息相关。下面来总结一下目前常见非结构性数据提取方法:

(1)分块识别

下面针对融合多种非结构性数据pdf文本进行识别

import os
import pdfplumber
import fitz  # PyMuPDF 提取图像
from openpyxl import Workbookclass PDFProcessor:def __init__(self, pdf_path,save_path=None):self.pdf_path = pdf_pathself.save_path = save_pathself.extract_pdf()def extract_pdf(self):# self.extract_text()self.extract_images()# self.extract_tables()# self.extract_table2txt()def extract_text(self):  with pdfplumber.open(self.pdf_path) as pdf:      text = ""for page in pdf.pages:

相关文章:

  • ESP32开发入门(四):ESP32-s3多串口开发实践
  • Linux进程详细解析
  • Day14(链表)——LeetCode234.回文链表141.环形链表
  • MySQL:13.用户管理
  • 【漫话机器学习系列】226.测试集、训练集、验证集(test,training,validation sets)
  • 天线设计实战:三大经典布局的摆放逻辑与核心技术要点!
  • el-input限制输入只能是数字 限制input只能输入数字
  • 力扣hot100,739每日温度(单调栈)详解
  • 什么是模块化区块链?Polkadot 架构解析
  • 【今日三题】笨小猴(模拟) / 主持人调度(排序) / 分割等和子集(01背包)
  • Pinia——Vue的Store状态管理库
  • 【KWDB创作者计划】_企业级多模数据库实战:用KWDB实现时序+关系数据毫秒级融合(附代码、性能优化与架构图)
  • 基于深度学习的智能交通流量监控与预测系统设计与实现
  • Spring Boot API版本控制实践指南
  • 基于深度学习的医疗诊断辅助系统设计
  • 深入详解人工智能数学基础—概率论-KL散度在变分自编码器(VAE)中的应用
  • SHCTF-REVERSE
  • 【极致版】华为云Astro轻应用抽取IoTDA影子设备参数生成表格页面全流程
  • 如何在 iPhone 上恢复已删除的联系人:简短指南
  • OkHttp源码梳理
  • 上海第三家“胖永辉”在浦东开业,设立了外贸产品专区
  • 四川在浙江公开招募200名退休教师,赴川支教帮扶
  • 主播说联播丨六部门出台新政!来华买买买,实惠多多多
  • 马上评丨发钱奖励结婚,支持婚育就该系统性发力
  • 辽宁省信访局副局长于江调任辽宁省监狱管理局局长
  • 读科学发展的壮丽史诗,也读普通人的传奇