企业级RAG行业应用落地方案——阿里云百炼
行业痛点分析
这张图主要围绕“行业痛点锚定”展开,通过雷达图和表格结合的方式,分析电商选品在不同维度下的情况:
- 分析对象:聚焦电商选品。
- 维度展示:从可结构化程度、重复性、数据可得性、人机互动性、AI带来的价值这五个维度评估。
- 得分情况:各维度得分用雷达图呈现,连线构成的区域面积反映综合表现。图中显示电商选品在不同维度有一定得分,表明在这些维度上有相应表现 。
对五个维度进行详细说明:
- 可结构化程度:指是否有明确规则、流程或模板,高适配性表现为有标准化文档、流程图、SOP等 。
- 重复性:关注是否存在大量重复、低判断任务 。
- 数据可得性:衡量是否容易收集并使用历史数据,高适配性体现为有日志、文本记录、行为数据等 。
- 人机互动性:看是否与用户有频繁互动,如客服、销售、教育等场景 。
- AI带来的价值:评估替代或增强人的效率是否明显,如降本增效、提高响应速度等 。 这张图整体通过可视化和表格说明,帮助理解电商选品在各维度的特性及评估要点,为分析行业痛点及AI应用适配性提供参考 。
这张图探讨了AI的本质以及人与AI的协作方式:
- 标题:“AI的本质到底是啥”点明主题。
- 图像与比喻:左侧有一个穿着学士服、手持文凭的卡通人物形象,下方文字将AI比喻为“名校毕业的实习生助理” ,形象地传达出AI具备一定能力但可能也需要引导的特点。
- 明确的任务:AI需要被赋予清晰、明确的任务指令,就像给实习生安排具体工作,让其知道目标和方向,才能有效发挥作用。
- 丰富的案例数据:为AI提供大量丰富的案例数据,如同给实习生提供众多参考资料,使其能从中学习规律、模式,提升执行任务的能力。
- 定期的进度沟通:人与AI协作时,要像与实习生定期交流工作进展一样,及时了解AI的运行情况、是否遇到问题,以便调整策略和优化任务执行。 整体通过比喻和要点罗列,以通俗易懂的方式阐述AI的本质以及人与AI协作的关键要素 。
不同行业的AI应用场景及相关案例/数据,旨在展示AI在各行业的实际应用情况:
- 行业:涵盖金融行业、医疗健康、智能制造、教育行业、城市治理、文化传媒等多个领域。
- 应用场景:
- 金融行业:包括智能投顾、信贷审批、反欺诈监管、金融产品推荐等。
- 医疗健康:涉及医学影像诊断、药物研发(如虚拟临床试验 )、手术规划、重症监护大模型等。
- 智能制造:有工业缺陷检测、流体仿真(如航空/船舶设计 )、危象岗位无人化等。
- 教育行业:包含AI个性化辅导、智能备课系统、编程批改自动化等。
- 城市治理:涉及智慧交通调度、环境监测、应急响应决策支持等。
- 文化传媒:有AIGC内容生成(美术/音乐/视频 )、三维自动化设计等。
- 案例/数据:
- 金融行业:咨锐通过大模型提升金融客服拟人化交互体验。
- 医疗健康:广东“启元重症大模型”显著提升医生工作效率。
- 智能制造:富士康工业自动化生产线效率提升30%,成本降低40%-60%。
- 教育行业:科大讯飞方案减少教师63%备课时长。
- 城市治理:中国电信AI节能系统半年节电5亿度。
- 文化传媒:Colov空间智能实现家居设计供应链一体化。
这张图围绕“行业AI场景判断”展开,通过表格形式呈现了不同AI应用场景的相关信息:
- 场景:分为服务和业务助手、个人助理、多模态文件交互和数据处理三类。
- 行业和场景举例:
- 服务和业务助手:涉及互联网、制造、游戏等行业,应用场景有对客服务、对内助手、产品搜索和推荐等。
- 个人助理:涵盖互联网、教育、游戏、社交等行业,包括闲聊助手、情感陪伴、学习助手等场景。
- 多模态文件交互和数据处理:涉及互联网、教育、安防等行业,如视频理解和信息抽取、作业批改等场景。
- 业务关注点:
- 服务和业务助手:关注回答准确率、数据覆盖范围。
- 个人助理:关注回答准确率、业务数据关联性、人设契合度、多模态。
- 多模态文件交互和数据处理:关注成本、延迟、多场景适配度。
- 关键RAG功能:
- 服务和业务助手:具备丰富的文档/多媒体/数据库支持、多数据源打通、文档Meta信息增强、搜索过滤、大模型召回判定等功能。
- 个人助理:有Prompt优化、多模态数据上传、互联网搜索、音频/视频交互等功能。
- 多模态文件交互和数据处理:包括自定义文件解析设置、视觉解析增强、企业级数据管理等功能。
商业价值
关于“真需求”的理念:
- 展示了一本书籍《真需求》,封面上有文字“从有个想法,到找到钱,一本书全都说透了!真需求是打造商业帝国的超级秘籍” ,表明这本书聚焦于剖析商业领域中真实需求相关内容,帮助理解如何从创意转化为商业成果。
- 标题:“价值是由买方决定的” ,强调在商业或市场环境中,价值的判定主体是买方。
- 三角形图示:三角形的三个顶点分别是“价值”“共识”“模式” ,中间标注“真需求” 。意味着真需求是价值、共识和模式的核心基础,只有明确真需求,才能围绕其构建起被市场认可的价值、达成各方共识并形成有效模式 。
围绕ROI(投资回报率)成本核算展开,从总投资成本和预计收益两方面进行分析:
总投资成本
- 人员成本:企业为员工支付的薪酬、福利、培训等相关费用,是人力投入产生的成本。
- 开发成本:包括产品或项目开发过程中涉及的软硬件采购、技术研发、设计等费用,是将创意转化为实际产品或服务所需的投入。
- 运营成本:涵盖日常运营中的场地租赁、设备维护、水电费、营销推广等费用,用于维持业务的正常运转。
预计收益
- 开源:通过拓展业务范围、开发新客户、推出新产品或服务等方式增加收入来源,扩大企业的盈利渠道。
- 节流:通过优化流程、降低采购成本、控制费用支出等手段减少企业运营过程中的不必要开支,实现成本节约。
这张图介绍了小成本市场验证的三个阶段,具体如下:
第一阶段:快速验证功能
- 目标:利用公共AI平台(如百度 )和现有工具、资源构建AI智能体,解决用户痛点问题。
- 核心优势:节省时间与资源,借助外部平台快速实现概念验证,减少研发投入。
- 关键行动:选择合适公共平台,定义用户问题,构建智能体并完成功能验证。
- 风险与应对:过度依赖外部平台存在数据安全和功能局限风险,此阶段重点关注数据隐私。
第二阶段:产品化功能
- 目标:将第一阶段成功功能集合成企业自主产品,提升市场竞争力。
- 核心优势:基于第一阶段成果,整合分散AI功能,提高用户体验和市场竞争力。
- 关键行动:进行功能整合与优化、用户体验设计、市场定位与推广。
- 风险与应对:需评估开发团队技术能力,整合AI智能体应用功能。
第三阶段:私有化部署
- 目标:在企业内部部署AI服务,保障数据安全,实现灵活定制与长期发展。
- 核心优势:提升数据安全和业务自主性,企业可按需调整AI服务并融入内部流程。
- 关键行动:搭建基础设施,选择合适技术,进行内部团队AI能力建设。
- 风险与应对:私有化部署成本高、技术复杂,需充足预算和技术支持。
技术可行性评估
这张图围绕“判断逻辑自洽”,阐述了可行性研究分析的相关内容:
- 判断逻辑自洽:强调对方案或计划进行逻辑合理性的判断,确保其内部逻辑连贯、合理。
- 可行性研究分析:对项目或计划是否可行进行全面研究和分析,是判断逻辑自洽的重要手段。
分析方法
- 沙盘推演:通过模拟、分析等方式对方案进行深入思考和规划。这是一种在实际实施前,对各种情况进行模拟推演的方法,有助于提前发现问题。
- 真实业务:强调分析要基于实际的业务场景和需求,确保研究贴合现实,避免脱离实际。
- 步骤记录:在分析和推演过程中,详细记录每一个步骤,便于后续复盘、检查逻辑漏洞和总结经验。
- 多次验证:通过反复验证,对方案的各个环节进行检验,确保其在不同情况下的可靠性和稳定性。
- demo预演:制作演示模型并进行预演,直观展示方案的实际效果和运行流程,帮助发现潜在问题并及时调整。
“数据才是AI行业专家的前提”强调数据在AI领域的基础性和重要性;“数据整理占整体70%以上的工作量” ,突出数据整理工作在AI项目中的比重极大。
数据来源分类
- 公开数据集:指可以免费获取、面向大众开放的数据集,通常由科研机构、政府部门或相关组织发布,是AI研究和开发常用的数据资源。
- 企业内部数据:企业在日常运营过程中积累的客户信息、业务交易记录、生产数据等,对于企业定制化AI应用开发具有重要价值。
- 行业数据:聚焦特定行业的专业数据,反映行业特征、市场动态、技术趋势等,有助于AI在行业内的精准应用和创新。
- 数据厂商:专门从事数据收集、整理、存储和销售的机构,通过提供各类标准化或定制化数据产品,满足不同用户对数据的需求。
- 爬虫网络获取:利用网络爬虫技术从网页上抓取公开数据,但需注意遵循法律法规和网站的robots协议 。
AI应用的技术选型梯度,从低到高分为四个层级:
娱乐级应用(白银)
- 特点:5分钟创建一个应用,强调便捷快速。
- 技术构成:基于公共数据,借助大模型,通过prompt(提示词 )来构建应用。这种组合开发难度较低,能快速实现一些趣味性、简单功能的应用,主要用于娱乐场景。
助手级应用(黄金)
- 特点:为应用装上记忆和手脚,意味着应用具备一定的数据处理和执行能力。
- 技术构成:采用私有数据,结合大模型与RAG(检索增强生成 )技术。RAG能让模型更好地利用外部知识源,使应用在处理特定领域任务时表现更智能,可作为助手辅助完成工作。
专家级应用(钻石)
- 特点:让应用像人一样思考,要求应用具备更高的智能和理解能力。
- 技术构成:使用私有数据,搭配大模型、Advanced RAG(高级检索增强生成 )以及Workflow(工作流 )。Advanced RAG进一步提升知识检索和利用效率,Workflow使应用能按照复杂流程处理任务,适用于专业性强的领域。
解决方案级应用(王者)
- 特点:让应用融入到软件生态,强调应用的综合性和生态融合能力。
- 技术构成:整合各种能力,形成专家级应用,为复杂问题提供完整解决方案,在软件生态中发挥关键作用。
项目开发
“财会助手”的网页界面,主要提供财务相关的法规和问题解答服务:
- 界面分为多个板块,包括左侧的法规分类展示区和右侧的交互引导区。
法规分类展示
- 会计法规:列出多项会计法规条目,如“企业会计准则第1号——存货”等,方便用户查找会计领域的相关准则规范。
- 税务法规:呈现涉及税务的法规信息,像“国家税务总局关于办理2023年度个人所得税综合所得汇算清缴事项的公告”等,帮助用户了解税务政策。
- 证券法规:展示与证券相关的法规通知,例如“关于发布《上海证券交易所公司债券发行上市审核规则适用指引第1号——申请及推荐》的通知” ,为证券业务提供法规依据。
- 经济法规:包含各类经济领域法规,如“中华人民共和国企业国有资产法” ,涉及经济活动的法律规范。
交互引导区
- 有一个“Hi, 我是财会助手!点击我进入咨询问答”的提示框,鼓励用户进行提问。下方还列举了一些相关专业热门问题,如“企业财务预算与实际差异分析”等,涵盖财务工作中的常见分析、报表编制、税务处理等问题,方便用户快速找到关心的内容并获取解答 。
这是“财会助手”的交互界面,呈现了一个AI助手咨询场景:
界面布局与元素
- 顶部:左上角显示“财会助手”名称,明确功能定位。中间是一个带有头像的“财会AI助手”标识,头像风格简洁,强化交互对象感知。
- 左侧栏:有多个图标,可能分别对应主页、咨询记录、收藏、设置等功能入口 ,方便用户在不同功能间切换。
- 中间区域:展示了一些推荐问题,如“如何组建企业的外账与内账准备”“企业如何进行资产负债表分析”等,涉及企业财务工作的多方面,帮助用户快速找到可咨询的方向。
- 底部:是输入框,提示文字“您有什么问题,都随时问我哦”引导用户输入需求,右侧有发送按钮,方便用户提交问题获取解答 。
做了个RAG,对内部数据进行处理,以及互联网数据(数据等级最低)。
高等级的用户能对AI回答进行校正,不同等级的专家的置信度都不一样。
这张图介绍了代码数据清洗的相关内容,列出数据清洗的方法及其对应的目标:
- 去重:去除重复内容,避免数据冗余对后续分析和模型训练产生干扰。
- 数据标准化:统一数据格式和处理方式,让不同来源、不同形式的数据具有一致性,便于分析和处理。
- 文本清理:去除噪声数据、特殊字符、停用词等,使文本数据更纯净,突出有效信息,提升文本分析准确性。
- 语法与语义修正:纠正拼写错误和语法问题,保证数据语义一致,避免因错误表达导致理解偏差。
- 标注与标签清洗:确保数据标注准确,防止标注偏差影响模型学习效果和预测准确性。
- 去偏差处理:减少数据中潜在偏见,保证数据公平性,避免模型学习到有偏差的数据而产生不公平或错误的结论。
- 数据增强:增加数据多样性,提升数据泛化能力,使模型能学习到更丰富的特征,提高在不同场景下的适应性 。
这张图是关于文件处理工具MinerU的推荐介绍:
主要功能
- 页面处理:能剔除冗页、页眉、脚注,实现页码移重,确保语义连贯,优化文件页面结构。
- 文本输出:输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版,方便阅读和使用。
- 文档结构保留:保留文档结构,包括标题、段落、列表等,维持文档原有逻辑层次。
- 元素识别标注:可按页对图像、图片描述、表格、表格标题及脚注进行识别并标注,便于分类和处理。
- 格式转换:自动识别并转换文档中的公式为LaTeX或其他格式,满足不同编辑需求;自动检测且转换PDF里乱码为HTML格式,提升可读性。
- OCR功能:OCR支持84种语言的检测与识别,具备多种输出格式,如静态文本、JSON等,还支持多种可视化结果及多种计算平台,兼容性强,支持Windows、Linux和Mac平台 。
提炼一些QA文档,这种模式的精确度会更高一些
这张图围绕“人工数据清洗”展开,呈现了一个数据管理系统界面,可能是某个企业或项目的数据后台。界面上有多个数据列,包括类似编号、名称、金额、操作人、操作时间等字段信息 ,显示了多条数据记录。
- 中间部分用红色框标注出了一些数据记录,可能是在展示需要进行人工清洗的具体数据范围,比如检查这些数据是否存在重复、错误、不完整等问题,以便后续进行修正、删除或补充等操作 ,确保数据的准确性和一致性,为后续数据分析、模型训练等工作提供高质量的数据基础 。
重点展示的关键信息、分析结果或优化后的内容 ,用于突出显示处理后的效果和重要结论,表明在文本处理、分析等方面取得了一定成果 。
多模态RAG产品分享
这张图展示了在文档处理中三种不同类型的理解任务及其挑战:
PPT阅读顺序理解
- 任务内容:PPT文档具有二维的空间布局,阅读顺序不像word、PDF等顺序文档那样直观。正确理解阅读顺序对准确理解文档内容至关重要。
- 图示:展示了一个PPT页面,上面有多个内容区域和编号,体现PPT布局的复杂性。
复杂表格理解
- 任务内容:复杂表头关系、无线表格分割、表格合并、表格跨页等制表方式,会给表格信息的准确解析带来困难。
- 图示:呈现了一个具有复杂表头和行列结构的表格,展示了实际中复杂表格的样式。
图表数据理解
- 任务内容:传统的OCR(光学字符识别)解析方式在处理饼图、折线图、柱状图等多模态数据时,难以精准地将图表信息转化并传达出来。
- 图示:展示了两个饼图,分别表示按性别划分和按级别划分的情况,体现图表数据理解的复杂性。
这张图对比了OCR文档解析和VLM文档解析两种方式:
OCR文档解析
- 优点:
- 擅长包含大量文字内容的文档解析,能有效处理以文字为主的文档。
- 基本能还原文档所有文字内容,保证文字信息完整性。
- 缺点:面对版面结构复杂的文档,阅读顺序可能错乱,易丢失文档结构信息,无法很好处理图表、图形等非文字元素与文字的排版关系。
VLM文档解析
- 优点:擅长包含复杂版面结构的文档解析,对有多种元素组合的复杂版面处理能力强;对流程图、架构图有较强还原能力,能较好处理非文字信息。
- 缺点:如果文档中文字内容较多,解析会占用大量token,导致速度慢、成本高;可能存在部分内容丢失问题或幻觉现象,即生成看似合理但实际错误的信息。
对比LLM生成模型和VLM生成模型的优缺点:
LLM生成模型
- 优点:可以容纳更多的检索召回结果作为参考,意味着在处理文本信息时,能整合更多相关数据来辅助生成内容,理论上可提供更全面丰富的输出。
- 缺点:对于图表类参考信息理解能力不足,在涉及图表数据解读、分析等任务上表现欠佳。
VLM生成模型
- 优点:对于统计图表、表格或有复杂版面的参考页面,生成准确率很高,相比LLM有更高上限,擅长处理包含图表、复杂版面的文档内容。
- 缺点:非常依赖召回准确率,通常只能提供top1 - 5检索结果,检索范围相对较窄,可能会遗漏重要信息。
对比传统推理生成模式和多智能体推理生成框架:
传统推理生成模式
- 构成:由检索模块和生成模块组成。先通过检索模块(Top-K )获取信息,再传递给生成模块。
- 局限:受限于检索精度、上下文长度等因素,检索精度不足可能导致获取信息不准确,上下文长度限制会影响处理复杂、长文本任务的能力。
多智能体推理生成框架
- 特点:多智能体迭代推理框架,可实现推理过程动态扩展。
- 构成及功能:
- 多模态检索:能从多种模态(如图像、文本、音频等 )获取信息,丰富信息来源。
- 全局线索提取智能体:从整体信息中提取关键线索,把握全局信息。
- 细粒度评估智能体:对信息进行细致评估,确保信息准确性和有效性。
- 回答智能体:基于前面智能体处理后的信息生成回答。各智能体相互协作,形成更灵活、强大的推理生成机制 。