《2025全球机器学习技术大会:阿里云讲师张玉明深度剖析通义灵码AI程序员》
4 月 18 日 - 19 日,由 CSDN & Boolan 联合举办的 2025 全球机器学习技术大会(ML-Summit)于上海顺利举行。大会聚焦人工智能与机器学习前沿技术,汇聚了来自科技与人工智能领域的数位顶尖专家以及数千名开发者和研究者,吸引了来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众,共同探讨人工智能领域的前沿发展和行业最佳实践。
阿里巴巴高级技术专家张玉明作为特邀讲师,以“通义灵码 AI 程序员解密:AI Agent 在软件研发领域的落地实践”为主题的演讲,成为本次大会的一大亮点。
阿里巴巴高级技术专家张玉明围绕主题阐述了随着大语言模型技术的快速发展,AI 辅助编程工具正在重塑软件开发范式。深入剖析了通义灵码 AI 程序员的技术架构与实践经验,探讨如何通过 AI Agent 技术突破传统智能编码助手的能力边界。演讲重点分享了基于大模型的代码全工程理解与代码生成、Agent 框架设计、模型训练等关键技术,以及在需求理解、多文件代码变更、单测生成等场景的创新应用。
AI 编码工具的发展情况
阿里巴巴高级技术专家张玉明从 2020 年到 2022 年期间是如何通过智能化手段面向代码编写、代码评审以及代码检测这三个核心研发场景进行能力建设引出 AI 2.0 时代的到来。近年 AI 编码工具产品飞速演进,AI Coding 俨然已成为大模型落地的最佳应用场景。
以通义灵码为例,从工具的使用角度出发讲述 AI 与人的协同编码模式,主要会经历三个阶段:辅助编码阶段,这一阶段灵码的代码生成占比平均能超过 30%;当前所处在的是面向任务的协同编程阶段,这一阶段程序员的主要工作是任务的澄清、过程的干预和结果的审查,灵码的代码生成占比差不多是 50%;并表示未来会进入 AI 自主编程的高级阶段,AI 的代码生成占比将会超过人类,具体形式是通过多 Agent 协同来完成端到端的需求级任务开发,人在里面负责的工作是创意、需求的澄清和结果的验收。灵码的规划目标是尽快越过当前协同编程阶段,率先进入自主编程的高级阶段。
大语言模型下的软件研发新范式
阿里巴巴高级技术专家张玉明提到从场景上讲辅助编码和协同编程的区别在于,开发者从专注于 IDE 的 Edit 区在编码时基于大语言模型生成的代码提示按下 Tab 键进行确认,逐步过渡到将更多的关注和操作放到了 IDE 会话区基于 Agent 模式的对话式编程,这时的 IDE 的智能辅助已超越传统补全,演变为自主决策规划型协作者,环境感知 + 自主决策将成为后续智能编码工具的标配。而对话式编程简单讲就是人类通过自然语言描述,与工具以对话的方式进行交互,从而完成代码的编写。张玉明表示:“编程发展到这一步既是突破也是顺理成章,就像从一开始的机器语言到汇编再到现在的高级编程语言。高级编程语言帮我们屏蔽掉了汇编语言的使用复杂度,类推自然语言也迟早会屏蔽掉高级编程语言,这一天的到来相信并不遥远。”
编码智能体从产品层面可以如何更好支持对话式编程
基于 AI Agent,AI 编码能力将从行级、片段级生成跨越到面向工程的多文件生成;可以进一步实现上下文自动感知、编程工具自动使用、自动功能验证、自我反思迭代等自动化能力。进而支持开发者只需要输入准确的需求和上下文,AI 可自主完成从需求理解、任务规划、代码生成、DIFF 应用全过程。开发者无需从零开始编码,而是基于 AI 生成结果完成任务。随着模型能力、Agent 能力的成熟,开发者可以更加信任 AI,并倾向于将尽可能多的编码任务交给 AI 完成。此时称之为的信任拐点已经到来,AI 更加拟人,从一个辅助生成功能,变成了可以交流沟通的编程伙伴。
通义灵码 AI 程序员核心技术能力构建
从工程实现角度来讲张玉明认为有三个关键能力至关重要,即:
通义灵码 AI 程序员系统流程设计
结合对话式交互,在开发者输入具体需求描述后,AI 程序员结合用户手动引入的上下文、Codebase 检索结果、长短期记忆等进行提示词组装,然后经过服务端大模型的意图识别及推理规划,触发客户端本地 Agent 工具调用,基于工具执行结果进行推理或反思迭代,进而生成编码方案并将代码 diff 自动 Apply 到本地工程文件实现文件改写,最后由用户针对改动进行审查。
通义灵码 AI 程序员 Agent 框架
其设计上整体分为三层:
Core 层主要由 Graph、Memory、Tool 等核心模块组成。其中 Graph 模块主要包含 State、Node、Edge 等组件,负责 workflow 和 agent 的编排。Memory 模块负责处理长短期记忆。Tool 模块负责模型工具的定义和调用。
中间是 Extension 层,主要在 LangChain 和 LangGraph 的 Chain 和 Node 的基础上再抽象一层来支持 Agent 的实现,目的是能够更便捷的实现 Agent 和 Multi Agent;另外是可以友好的支持工具、大语言模型和 RAG 的扩展。
最上面是 Manager 层,主要负责 Agent 注册、维护,会话管理,多 Agent 编排及 Agent 框架和外部交互的接口。
在理想情况下,基于工程感知能力基础上的一次需求实现的流程时序如图所示:首先由用户在 IDE 插件端输入需求描述,Lingma Agent 将可用的检索工具信息及必要的工程上下文给到大模型,大模型综合上下文理解需求和工程结构,生成规划,通过调用向量检索工具召回与需求语义相似的代码片段,通过关键字检索工具返回相关代码,通过引用关系检索工具查看依赖调用关系并进一步返回相关代码,合并、去重、排序后返回最相关的上下文,进而让大模型生成代码编辑方案,再由 Lingma Agent 完成源文件的变更,最终实现用户需求。
AI 程序员典型使用场景
- **新功能开发:**基于自定义的应用框架,结合任务描述,快速完成工程文件初始化;基于已有工程进行功能迭代,进行批量代码修改,帮助开发者快速完成研发任务。
- **跨语言编程:**让开发者跨越编程语言的边界,拥有全栈能力,如 Java 开发者也可以与 AI 程序员协同,进行前端开发,或使用 Python、JavaScript 等多种语言,快速编写小工具、小游戏。
- **单元测试编写:**结合被测函数和文件,帮助开发者批量生成单元测试,并完成编译和运行,比如针对每天完成的新增代码,进行单元测试覆盖,大幅提效。
- **错误排查及修复:**当开发者遇到编译、调试错误,可以在 IDE 中选择错误信息,或者直接提交报错信息截图,灵码可自动进行分析,给出解决方案和代码修改建议,帮助开发者快速进行问题排查修复。
下一步展望:持续构建智能编程的未来
阿里巴巴高级技术张玉明表示下一阶段,在 IDE 侧会秉承简单、智能、主动学习三个核心原则去打造通用研发智能体。
简单指的是产品交互简洁,用户理解、使用门槛低;智能指的是完全由模型驱动,不做工作流式的解决方案,完全基于模型的自主规划、反思及工具使用能力打造 ReAct 模式智能体;主动学习指的是能够根据用户行为偏好总结用户画像、将成功经验自动沉淀以应用于未来相似的任务,进而形成智能体长期记忆,使通用研发智能体越来越聪明、越来越懂开发者。除了以上三个核心原则,在产品功能建设层面,加入更多IDE 原生工具能力,如 Lint 工具、Debug 工具等,使其与 Agent 无缝结合,进一步提升编码效率和质量;同时通过 MCP 工具市场接入丰富的三方工具,不断扩展 Agent 能力边界;另外通过自定义规则及工具配置支持用户定制符合个性化研发场景的自定义智能体。
阿里巴巴高级技术专家张玉明的演讲引发了参会者的广泛关注和热烈讨论。通义灵码 AI 程序员不仅提高了开发效率和质量,降低了开发成本,还为开发者提供了更加便捷和高效的开发体验。相信在未来,随着技术的不断进步和应用场景的不断拓展,通义灵码 AI 程序员可以为开发者带来更多的可能性。
最后阿里巴巴高级技术专家张玉明表示:“人工智能技术正在重塑千行百业,希望通过我们的不断努力和探索,能够将软件研发这项工作变得更简单、更有趣且更有价值。”