当前位置: 首页 > news >正文

【算法工程】RAG:针对linux下文档解析出现乱码问题的解决

        RAG服务中,非常关键的模块是文档解析。但将解析服务部署到linux平台,解析word、ppt等文档时可能就会出现乱码,核心原因是系统未能识别出对应的字体。因为word、ppt在windows下是最适配的,如果将解析服务部署到linux上,就有可能产生一些异常。

        解决的思路:系统安装相应的字体

        比如我自己是ubuntu环境,需要安装:

RUN apt-get update && \
    apt-get install -y \
        ttf-wqy-zenhei \
        fonts-noto-cjk \
        msttcorefonts -qq

        配置:

# 设置字体渲染环境变量(帮助 LibreOffice 使用安装的字体)
ENV FONTCONFIG_PATH=/etc/fonts
ENV LIBREOFFICE_ENABLE_GUI=0

相关文章:

  • package.json版本前缀
  • 【Python 代码进阶-2】Python 中的 **(...)语法,字典解包操作符
  • 虫洞数观系列一 | 豆瓣电影TOP250数据采集与MySQL存储实战
  • 阿里巴巴1688类网站高保真原型设计
  • 国产化适配 - YashanDB、达梦数据库与MySQL 的兼容性及技术选型对比分析
  • 重学vue3(三):vue3基本语法及使用
  • AI驱动下的智能异常处置:海量多元异构数据的挑战与应对
  • 二分查找(二分答案)套路模板
  • JavaScript 改变 HTML 样式
  • 给Web开发者的HarmonyOS指南01-文本样式
  • Spring AI Alibaba ImageModel使用
  • vue的项目添加全局接口请求封装,并通过配置文件使接口请求变得更简洁易用
  • 13.2 kubelet containerRuntime接口定义和初始化
  • Java操作RabbitMQ
  • BCC-应用程序组件分析
  • 【身份安全】零信任安全框架梳理(一)
  • 如何在 Postman 中导入和导出 cURL 命令?
  • 用C/C++实现针对整数的BoomFilter
  • 解决Vmware 运行虚拟机Ubuntu22.04卡顿、终端打字延迟问题
  • 【每日论文】MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse
  • 我国将出台稳就业稳经济推动高质量发展若干举措,将根据形势变化及时出台增量储备政策
  • 坚守刑事检察一线13年,“在我心中每次庭审都是一次大考”
  • 葛兰西的三位一体:重提并复兴欧洲共产主义的平民圣人
  • 全球首台环形CT直线加速器在沪正式开机,系我国自主研发
  • 三大猪企去年净利润同比均较大幅度增长,资产负债率齐降
  • 中青报:“猿辅导员工猝死”事件上热搜,是对健康职场环境的共同关切