当前位置: 首页 > news >正文

【默子AI】万字长文:MCP与A2A协议详解

【默子AI】万字长文:MCP与A2A协议详解

【默子AI】万字长文:MCP与A2A协议详解

引言:

让一个大模型凭空解决所有问题,就像让一个书呆子不借助工具就去修汽车

即便他脑子里装满了理论知识,也缺少实践的“手脚”。

长期以来,AI助手(尤其是LLM)面对两个难题:一是无法访问外部工具和实时数据,二是无法与其他AI协作。前者导致模型往往成为“闭门造车”的孤岛,后者则让每个AI都各自为战,无法组团发挥特长。

好消息是,业界针对这两点推出了两个重量级的开放协议:MCP(Model Context Protocol)和A2A(Agent-to-Agent)

也是我们今天文章的标题关键词:MCP和A2A

可以打个比方:MCP相当于给AI装上了Tpye-C,在21世纪到处乱插 ;

A2A则是教会AI使用标准的“社交礼仪”,让不同厂商、不同能力的AI代理人之间也能无缝对话协作 。

在这里插入图片描述

今天,默子将以幽默风趣的方式,深入解析MCP和A2A的技术原理,包括它们的底层设计思路、标准接口和通信流程,并结合大量国内外知名项目实例穿插讲解。从高德地图的导航助手,到一键部署网页、智能问答、虚拟试衣等应用场景,我们将看看这些协议是如何让AI如虎添翼的。

最后,默子也来和大家也一起展望一下未来:当AI拥有了**“拿起工具的手”“召唤伙伴的嘴”**,又会激发出怎样的新玩法呢?

一、MCP:Model Context Protocol — AI的万能接口

说起MCP,它是Anthropic公司在2024年开放推出的一项协议标准 。全称就是《模型上下文协议》,顾名思义,“模型上下文协议”旨在为AI模型提供上下文和工具接口。

这个MCP可以让我们亲爱的大模型们能安全、便捷地获取外界的信息和工具。

像电脑有了USB-C插口后,随便什么设备都能即插即用(但随便的即插即用到现在真的便利了吗?默子下一篇文章会详细讲一讲这个通用的代价)

MCP解决了什么问题?

在MCP出现之前,让一个AI助手连接某个新数据源或API,开发者往往需要为每种工具写定制的集成代码。

比如想让AI读取Google Drive里的文件、调用Slack消息、查询数据库,得分别写各自的接口逻辑。

这不仅麻烦,而且每换一个模型或应用还得重来,缺乏统一性。

MCP的诞生正是为了解决这一痛点 。它提供了一个开放且统一的规范,让所有这些外部数据源、应用工具都可以用同一种方式接入AI系统 。

开发者**“一次对接,处处适用”**:只要实现了MCP协议,任何MCP客户端都能连接上你的服务,反之亦然 。

换句话说,MCP就像给AI世界造了一根又稳又通用的“数据线”。以前每个工具有不同的插头(不同的API格式、鉴权方式、字段名等等),现在通过MCP这个“转接头”,模型和工具之间的通信被标准化了 。

这让扩展AI能力变得像装乐高一样简单

需要新技能?插上对应的MCP模块即可,无需担心各种奇葩接口差异。

MCP的架构与通信流程

那MCP到底是怎么做到这些的呢?它采用的是典型的客户端-服务器(Client-Server)架构。这里有几个角色需要介绍:

  • Host(宿主):运行LLM应用的主体环境,负责发起和管理连接。可以理解为AI助手所在的“操作系统”或应用,如Claude Desktop或者是Cursor这样的程序。(实测来说,Cursor是真好用)
  • MCP Client(客户端):宿主中的一部分,用来与外部MCP服务器建立连接、转发请求和响应,进行编排。它与服务器保持一对一的长连接,管理所有LLM对该服务器的调用 。
  • MCP Server(服务器):包装了某个外部数据源或功能模块的服务端,实现MCP接口规范。它向客户端暴露出标准化的功能**(比如工具函数)或数据(比如资源内容)。本质上,每个MCP服务器就代表一个可供AI访问的外部能力**(如一座知识库、一个应用的API等)。
  • Protocol(协议本身):规定了客户端和服务器之间如何交换消息的格式和规则 。MCP使用JSON-RPC 2.0作为基础的消息封装格式,在客户端和服务器之间建立双向通信。二者可以持续对话,双方首先会交换各自支持的能力说明(类似于握个手沟通“我会哪些招式”),确保互相了解能干什么,再开始正式通信。

值得一提的是,MCP深受软件领域**“语言服务器协议(LSP)”**的启发 。(笑死,谁第一个想到了老S批,出来挨打)

LSP让各种IDE都能用统一方式支持不同编程语言的智能提示,而MCP则试图让各种AI应用用统一方式支持不同工具和数据源 。

所以可以把MCP看作是LLM世界里的LSP,让“增加新技能”这件事标准化、模块化。

提供的能力类型

按照规范设计,MCP服务器可以向客户端提供三类主要能力 :

  • Resources(资源):提供静态或动态数据给模型作为上下文。例如服务器可以暴露出一本文档、一组图片、数据库中的记录等,让模型将它们视作阅读材料或知识库。
  • Tools(工具):提供可执行的操作函数,相当于让模型可以调用一些动作。比如“查询地图坐标”、“发送一封邮件”、“调用计算器”等等,都可以作为Tool由服务器实现并供模型调用。
  • Prompts(提示):提供预设的提示模板或对话流程,帮助模型更好地完成某些交互。比如一个Prompt模版可以指导模型去执行某种任务的步骤。这有点像给模型提供剧本片段,在需要时套用。

另一方面,MCP客户端本身也可以向服务器提供一种特殊能力叫Sampling(采样) 。简单理解,就是允许服务器“反过来”请求客户端让模型帮忙处理一些内容(比如要求模型对一段文本总结一下)。这使得交互不再总是模型主动调用工具,有时工具也能请求模型做事,实现更复杂的双向配合。但出于安全考虑,这种机制通常需要用户明确授权方可进行 。

消息流程举例

要更直观地理解MCP通信,我们来看一个简单的工作流程例子:让AI日程助理给我在日历上安排一个会议

建立连接: 用户在AI应用中启用了“Google日历MCP服务器”。宿主的MCP客户端于是与该服务器建立了连接。

在这里插入图片描述

建立好连接后,就要获取到服务器提供的工具列表(比如有一个名为create_event的日历事件创建工具)。
在这里插入图片描述
注入上下文: MCP客户端会告诉模型“我现在帮你接上了Google日历,你可以调用create_event工具来创建会议”。模型于是将这视为自己能力的一部分。

模型决定调用工具: 当用户对AI说“在本周四下午3点帮我安排一个团队同步会”时,模型分析请求,判断需要使用日历工具。它依据MCP定义的接口格式,填充create_event所需的参数(日期、时间、标题等)。

客户端发送RPC请求: MCP客户端拿到模型准备的调用指令,代表模型向Google日历MCP服务器发送一个JSON-RPC请求,调用create_event工具。

服务器执行并返回: 日历MCP服务器收到请求后,使用用户授权过的API凭证,在Google Calendar创建了相应的日程事件。随后它按照协议构造响应,附带结果(比如成功创建的会议ID或详情),发回给客户端。

carbon-10
模型继续对话: MCP客户端把结果交给模型,模型据此生成对用户的回答:“好的,我已经在本周四15:00安排了团队同步会议。” 用户看到的只是AI助手一句话,背后实际完成了一系列API调用。整个过程对用户透明而流畅。

通过这样的标准流程,MCP让AI助手具备了一定程度的“行动力”:它不再只是被动回答,还能主动帮用户执行操作、查询信息。更妙的是,这一切并不需要为每个工具写死在模型里——只要连上新的MCP服务器,模型就自动拓展了新能力。这种即插即用的扩展性,正是MCP最大的价值所在 。

MCP的安全与开放生态

当然,让AI直接访问外部工具和数据,安全性是不容忽视的。不然之后一些购物网站出一个MCP岂不是要逆天了

MCP协议在设计时就强调了用户控制和安全授权的重要性 。比如,宿主应用在暴露用户数据给服务器前必须获得用户明确同意,调用危险操作(如写文件、执行代码的工具)时也应二次确认 。

所有这些都需要在实现中做好防护——协议本身提供了机制(如连接握手时声明权限范围),但具体执行还得靠开发者遵守安全最佳实践 。MCP给了AI一把“万能钥匙”,但我们可得始终握着钥匙的使用权限,防止AI“小铁匠开锁”乱来。

安全是前提,而开放生态则是MCP真正威力的来源。截至目前,MCP已经吸引了广泛的社区参与。

Anthropic开源了大量参考实现和SDK,包括TypeScript和Python版本,方便开发者快速创建自己的MCP服务器 。

官方提供了一些基础的参考服务器实现(例如文件系统访问、GitHub集成、网页抓取、数据库查询等) 。

更令人惊喜的是,开源社区和各大厂商也纷纷加入,贡献了五花八门的MCP服务器:

  • 有的用于信息检索,如AWS知识库检索、Brave Search搜索引擎接口等 。
  • 有的用于内容生成,例如EverArt图像生成 、Sequential Thinking逻辑推理辅助 。
  • 主流开发平台也在跟进,如Google Drive、GitHub、Slack等都有对应的MCP连接器,让AI能读写云盘文件、仓库代码,发送消息等等 。甚至连GitLab、Sentry错误日志、PostgreSQL数据库都已在列表中 。
  • 不少官方集成由厂商直接维护。例如AgentQL公司提供了AgentQL MCP服务器,使AI能从非结构化网页中提取结构化数据 ;Apify开放了Actors MCP Server,AI可以通过它使用多达3000+个现成的爬虫和数据提取工具 ;就连国内的腾讯云也推出了EdgeOne Pages MCP作为官方集成(后文会详述)。

有实力的读者可以去GitHub上自己挑一些MCP服务器提供的服务玩玩。

可以说,MCP正快速成为一个**“AI能力商店”**的基石协议。越来越多的工具和服务正以MCP插件的形式涌现,供AI调用。

而对开发者来说,这意味着不用每次重新造轮子,只需“挂载”好MCP接口,就等于给AI装上了对应的新功能。

难怪有人把MCP称作AI领域的「USB接口」,让模型连接外部世界变得前所未有地简单 。

二、A2A:Agent-to-Agent Protocol — AI的协同语言

如果说MCP解决的是“AI如何用工具”的问题,那么A2A解决的就是“AI如何和同伴协作”。

Agent-to-Agent协议由谷歌在2025年推出,得到了数十家科技公司的支持联合制定 。

它的目标是:让不同的AI代理人能够彼此通信、协作,无论它们背后的架构、厂商有多么不同 。

A2A可以看作是给AI代理人们创造了一种共同的“语言”和通讯协议,从而打造出一个多智能体协作的生态系统

img

A2A要解决的痛点

设想一下未来的场景:你有一个AI个人助理,它擅长整理日程和邮件。但当你让它帮忙规划旅行行程时,或许会希望它能找一个旅游专家AI合作;当涉及财务决策时,又希望它咨询一下财经顾问AI

在没有A2A之前,这些不同领域的AI很难直接对话配合——每家AI各干各的,缺乏标准接口互通。这就像每个人说着不同的语言,没有翻译的话就鸡同鸭讲。

A2A协议的出现,就是为AI代理人提供了“翻译官”和“通信线路”

谷歌明确表示,A2A是对MCP的有益补充:MCP关注于AI连接工具和数据,而A2A关注于AI与AI之间的互操作 。通过A2A,一个AI可以发现别的AI有哪些本领,进而发送任务请求,让擅长者去执行,再安全地拿回结果。

这种多代理协同,可以显著扩大AI系统的能力边界——毕竟**“一个好汉三个帮”**,多个专长各异的AI如果能联手解决问题,必定比单打独斗更有效率 。

A2A的设计原则

要让不同源头的AI代理互通有无,A2A的设计遵循了几项核心原则 :

  • 开放和厂商无关: 协议必须是开放标准,任何框架和厂商都能实现支持,不被某一家垄断。谷歌拉来了超过50家合作伙伴共同制定A2A,就是为了保证它的中立性和通用性 。这让A2A成为AI代理人的一门“世界语”。
  • 支持真正的自主智能体行为: A2A强调让代理人以自然、非结构化的方式交流,而不强制要求共享内存或工具 。每个AI都保持各自的独立,只通过交流来协同,就像人在协作时各自有独立大脑,只是沟通商量,不需要脑电波连在一起。
  • 构建在现有成熟技术之上: A2A并没有另起炉灶设计全新传输协议,而是充分利用了Web现有的**HTTP、JSON-RPC和SSE(Server-Sent Events)**等标准 。
  • 安全和权限管理内置: 企业级安全是A2A的重中之重。它支持像OpenID Connect那样的认证/授权机制来验证代理身份和权限 。此外还有发现机制(类似于服务发现),比如通过.well-known/agent.json公开一个AI代理的能力说明,方便安全地检索和连接 。
  • 任务生命周期与长时协作: 考虑到有些任务可能很复杂,甚至需要人类介入,A2A设计了任务的完整生命周期管理 。代理之间可以发送任务对象,任务可以即时完成也可以长时间挂起。对于耗时的任务,双方能够一直用A2A沟通状态进展、部分结果、通知等,不会因为一次请求就中断协作 。这就像项目管理一样,任务从创建、进行到完成都有迹可循,而不是“一锤子买卖”。
  • 多模态消息和UI协商: A2A的信息交换不局限于文本,可以包括图像、音频、视频等多种内容 。消息被拆分成不同的部分(parts),每个部分标明内容类型,比如一句话、一张图或一个表格 。这样代理之间可以协商用什么格式呈现给用户,比如如果用户界面能显示富文本、表单甚至嵌入网页,代理就可以直接传相应格式的数据 。这一点可以确保最终用户体验更友好——两个AI不会一个给纯文本、一个给HTML乱炖,而是事先说好用哪种格式交流。想必大家之前肯定有被AI生成的格式折磨的时候吧

A2A的工作机制

A2A的核心在于让一个“客户端代理”去委托一个“远程代理”完成任务 。为了实现这一点,A2A包括了几项关键能力:

  • 能力发现(Discovery): 一个代理需要知道别的代理能干啥,才能决定“找谁帮忙”。A2A通过Agent Card(代理名片)的方式,让代理公开自己的技能清单和接口 。这通常是一个JSON文件(如前述的agent.json),里面写明代理的名称、描述、擅长领域、支持的输入输出模态等。就好比AI代理在网上挂了份“简历”,别的AI可以检索这些简历来找到合适的合作伙伴。
  • 任务委派与生命周期管理: 当客户端代理选定了一个远程代理后,它可以通过A2A发起一个任务(Task)请求,描述想让对方做什么 **。远程代理接到任务后,会尝试执行并不断通过消息反馈进展,最后产出结果产物(称为**artifact) 。如果任务很快完成,那artifact直接随回复返回;如果是长期任务,比如等待一个外部事件或人工确认,那么双方会保持通讯,期间远程代理可以发送中间状态更新,客户端代理也可以询问进度 。任务完成后,artifact作为最终成果交付给客户端代理。这个过程类似于项目外包:甲方(客户端代理)下需求给乙方(远程代理),乙方汇报进度,最终交付成果。
  • 协作对话: 在任务执行过程中,代理之间可以随时交换消息来共享上下文或提问澄清 。比如远程代理可能问:“你要我查找的报告具体是哪一年?”——这在A2A里就是一个消息往返。通过这样的对话机制,代理协作可以变得更加灵活,不一定非“一次性把信息都给全”才能开始任务。
  • 用户体验协商: 如前所述,消息可以包含不同类型内容。如果远程代理能生成图片而本地客户端无法展示,那么双方需要降级协商格式。A2A允许代理明确说明自己支持的UI呈现能力,然后在消息交流时协商出双方都接受的内容形式 。比如,远程代理本想发一段视频,但发现客户端只能显示文本,那它可能退而求其次发送一个视频链接或描述。这有点像两个应用在协商数据格式以兼容对方的播放能力。

综合起来,A2A建立了一套完整的多智能体合作框架。引入一个类比的话:如果MCP让每个AI都装备了各种工具,那么A2A就是建立了一支“AI联盟通信网”,让每个全副武装的AI战士能够通过无线电一起打团队战。而且这通信网还是加密安全、秩序井然的,保证“友军”才能接入,“敌军”和闲杂人等进不来捣乱 。

A2A实例:AI代理组团作战

为了更形象地理解A2A的作用,默子来给大家来看一个应用场景的小故事:

场景1:AI旅游团策划

默子对他的AI助理说:“帮我计划一趟从杭州到云南大理的旅行,订高铁票,在车站附近找家酒店,还要安排当地交通。” 这个任务其实包含了交通住宿市内出行三个子任务,一个AI未必全都精通。于是助理通过A2A召集“小队”:

  • 助理首先发现一个火车预订AI(代理A)擅长购票,于是发任务请它订北京到云南大理的高铁;
  • 同时还找到一个酒店预订AI(代理B)熟悉各类酒店信息,请它选车站附近性价比高的酒店;
  • 最后还有一个出行规划AI(代理C),擅长本地交通和导航,委托它安排从酒店到目的地的出行方案,比如叫车或公交路线。(这个现在高德的MCP就可以实现)

这三位代理各司其职,通过A2A汇报进展:火车票订好了【“已订XX次列车,出发时间…”】、酒店锁定了【“预订了XX酒店,两晚…”】、出行方案也有了【“建议使用滴滴打车,大约¥XX”】。最后,助理代理汇总各路信息,给默子呈现一份完整的旅行计划。整个过程中,多个AI代理临时组队,各显神通,最终完成了复杂任务。这正体现了A2A带来的模块化、多智能协同优势 。

在这个例子里,我们看到A2A和MCP是如何配合的:A2A负责让多个Agent交流、分工,而每个Agent完成自己任务时,往往又需要通过MCP去调外部工具或数据(比如查询数据库、调用搜索API)。正如开发者所说:“A2A负责Agent之间的对话,而MCP负责连接Agent和应用” 。二者结合,真正形成了一个强大的AI代理网络:既能接通外部世界,又能相互协同合作。

虽然现在这些协议还不太成熟,但这个我们这个畅想不是已经有了吗?哈哈哈

A2A特别好玩的例子还不太多。默子下次多体验几个再给大家说说,今天先来看MCP实力精选!

三、MCP实例精选:让AI插上工具的翅膀

理论讲了这么多,让我们看看在现实中,哪些项目已经用上了MCP,将其威力发挥得淋漓尽致。下面通过几个国内外知名的案例,来体会MCP是如何赋能各种应用场景的,每个案例我们都会简要介绍项目本身,以及使用MCP带来的改变和好处。

高德地图 Amap Maps MCP:AI的实时导航助手

项目简介: 高德地图是中国最流行的数字地图和导航服务之一,而Amap Maps MCP是高德官方推出的MCP服务器(插件),旨在让AI能直接访问其地图服务功能。通过这个插件,AI助手相当于有了高德地图的“超级账号”,可以使用地图API提供的各种能力,包括坐标转换、地点搜索、路线规划等 。

img

默子这里给出在Cursor里配置amap-amap-sse服务器、调用不同MCP工具来查询交通和天气的实际例子

以图中示例为例,高德地图开放了一个MCP服务器(amap-amap-sse),将原本复杂的高德API统一封装成了一组标准化工具,供AI直接调用。 这些工具包括但不限于:

  • maps_regoecode:根据地名查询经纬度;
  • maps_around_search:根据关键词搜索周边地点;
  • maps_direction_transit_integrated:规划跨城市的公共交通路线;
  • maps_weather:查询实时天气信息;
  • maps_direction_driving:规划驾车导航路径;
  • maps_distance:计算两地之间的直线或驾车距离。

比如在图中,用户询问“从杭州到昆明坐火车要多久,明天天气如何”,AI不需要自己拼HTTP请求,而是直接调用了:

  • maps_direction_transit_integrated 工具查询火车路线时间;
  • 两次 maps_weather 工具分别查询杭州和昆明的天气。

MCP服务器负责帮AI隐藏底层复杂的HTTP调用、API鉴权、参数拼接细节。AI只需用标准的MCP RPC格式发送请求,几秒钟内就能收到结构化的返回结果。

image-20250428224021179

带来的变化和好处: 以前,聊天机器人如果被问到“附近哪里有奶茶店?” 这种问题,要么老老实实回答“对不起我不能访问地图”,要么胡乱编造一个(结果常常不靠谱)。现在,有了高德MCP接口,AI助理可以实时查询最新的地图数据并给出准确答案。例如默子问:“从我现在的位置到最近的地铁站怎么走?” AI借助MCP立即调用高德的路线规划,一次对话就可以反馈具体步行路径和所需时间,让回答像导航仪一样精确。对于出行导航、位置查询这类强依赖实时数据的场景,这无疑是革命性的提升。

从开发者角度看,这也节省了大量工作——不用再针对每个AI单独对接高德API,只要AI支持MCP,它就能用上高德地图。一位社区开发者已实现了这样一个插件,并指出其功能覆盖了地点搜索、路径规划等常见场景

如何使用呢

大家要先去高德开放平台申请一个Key,也就是告诉高德一声,我要来用你的服务了,相当于注册了一个MCP高德的账号,然后你可以像默子这样在Cursor中添进去这四五行代码,就可以直接使用了**(具体教程默子后面会出一个更全面的,适配更多IDE的版本,不要忘了关注我哦!)**

image-20250428224525239

EdgeOne Pages MCP:一键部署网页,AI秒变站长

项目简介: EdgeOne Pages是腾讯云旗下的边缘网页托管平台,类似于Netlify或Cloudflare Pages,方便开发者快速部署静态网站。EdgeOne Pages MCP则是腾讯云团队提供的一个MCP服务器,专为将HTML内容部署到EdgeOne Pages而设计 。简单来说,它让AI可以自己当站长,实时发布网页并获得一个可访问的URL链接。

就还是默子的杭州到昆明旅游指南嘛,直接让他发布分享到网页去(方便给小伙伴查看嘛)

那我们就可以直接对他说:帮我生成一个从杭州到昆明的五一旅游指南,并直接部署到html

image-20250428225106457

使用MCP的方式: EdgeOne Pages MCP提供了一个关键工具,比如deploy_html。AI可以将一段HTML内容打包,通过MCP请求发送给EdgeOne服务端。服务器收到后,会自动将该内容部署到边缘节点,生成一个公开的URL返回给AI 。这个过程包括:将HTML推送到EdgeOne的边缘函数执行环境,内容存储到KV存储以便快速分发 ,然后返回一个地址。整个流程对AI来说透明且高效,从提交到拿到URL往往只需几秒。

我们来看一下效果:⬇️

image-20250428225301274

还是蛮不错的吧!

虽然只是一个简单的小网页,但是用对了可以节省非常多的精力和时间!

默子畅想一下,这个可以带来的变化和好处: 想象一下,你让AI助手写一篇产品更新公告博客,以往它只能把Markdown或HTML文本抛给你,然后你还得手动上传发布。有了EdgeOne Pages MCP,AI写完后可以直接帮你发布!它会告诉你:“我已经替您生成了网页,您可以在这个链接查看。” 点开链接,更新公告网页已经上线。

对于内容创作和分享来说,这是质的飞跃——AI不仅能生成内容,还能自动“交付”内容,省去了人工上传、托管的步骤。

从此AI可以胜任简单的前端发布工作,比如帮企业快速生成活动页面、把分析报告变成网页分享给同事等等。效率提升显而易见:过去从内容到上线可能要几个人协作半天,现在AI几秒钟自助搞定。

正如官方所言,这是利用MCP实现HTML内容的快速上线和公开访问 。

对于希望将AI输出无缝融入业务流程的场景,这种一键发布能力意义重大。

当然,从安全角度看,部署网页也需要谨慎控制,但EdgeOne MCP通常会部署在受信环境下,加上内容多为静态页面风险较低。在实际应用中,我们大可以放心地让AI去当它的小站长——说不定以后连公司内部wiki、知识库的更新都交给AI自动完成了呢!

MiniMax MCP:多模态创作的AI百宝箱

项目简介: MiniMax是一家新锐的AI创业公司,以提供多模态AI能力闻名(如文本生成、语音合成、图像视频生成等)。社区开发者构建了MiniMax MCP服务器,其特点是集成了强大的文本转语音、图像生成和视频生成API,为AI助手打开了通往多媒体世界的大门。

image-20250428225711541

使用MCP的方式: MiniMax MCP向AI暴露了一系列创作类工具。例如:

  • text_to_audio:给定一段文字,调用高品质语音合成引擎,将文本转换为音频文件,让AI能“开口说话”。
  • text_to_image:提供一段描述,调用图像生成模型(类似Stable Diffusion或DALL·E),返回对应的图片。
  • generate_video:输入脚本或主题,调用视频生成服务,生成一小段短视频片段。

AI助手可以根据对话需要随时调用这些工具。由于MCP的接口是统一的,AI并不需要了解每个工具背后的复杂模型或第三方API,它只管提出需求参数,MiniMax MCP服务器就会负责与实际的AI创作服务交互,并把结果交给AI。

带来的变化和好处: 在传统模式下,如果想让聊天机器人输出图片或语音,往往需要开发者额外集成那些服务,再在对话逻辑里“插入”结果。而通过MCP,这种多模态输出变得更加自主和灵活。举例来说:

  • 当默子问AI“这段文字念起来是什么感觉?” —— 过去AI只能回答“我想象可能语气如何”,现在它可以直接调用text_to_audio,回复一段真人语音,让默子亲耳听见。
  • 默子请求“描述一只穿着宇航服的猫,并给我看看它的样子”,AI除了文字描述外,还能调用text_to_image生成一张插图,真正做到图文并茂。
  • 甚至默子说“给我讲个笑话并配上相应的视频”,AI也可以先产生日志台词,然后调用generate_video制作一个简短搞笑视频,一气呵成。

这些能力的获得都归功于MiniMax MCP提供的工具接口。对于默子而言,聊天体验从单一的文字对答升级成了视听丰富的互动;对于AI而言,它仿佛从一个纸上谈兵的军师变成了多才多艺的全能艺人,会说会画还会导演小视频。

这背后实际上体现了MCP扩展AI能力的强大之处:模块组合。MiniMax MCP本身可能内部对接了多个不同的第三方服务(语音由某云服务提供,图像由某生成模型提供,视频又是另一套引擎),但AI不用关心这些“幕后乐队”成员,它看到的只是统一的指挥入口。这样高度的解耦,使得开发者可以不断升级每个子能力而不影响AI使用。

Perplexity Ask MCP:内置搜索达人,信息检索一步到位

项目简介: Perplexity.ai是国外知名的即时问答搜索引擎,它能结合大语言模型与网上搜索结果,为用户问答提供精准且附带引用来源的答案。Perplexity Ask MCP则是一个将Perplexity的能力封装为MCP服务器的项目,相当于给AI助手内置了一个**“小佩搜搜”**搜索助手,能在对话中直接进行网络信息检索和问答。

image-20250428230234386

Perplexity MCP连接的是Perplexity提供的Sonar模型家族,包括 sonar-pro、sonar-deep-research 和 sonar-reasoning-pro,通过MCP协议统一暴露出三个专用工具:

  • perplexity_ask:面向一般网络搜索,快速回答常规查询;
  • perplexity_research:面向深入调研,生成更全面、详细的搜索结果;
  • perplexity_reason:面向复杂推理类问题,专注于深度逻辑分析和综合推理。

AI在调用这些工具时,不需要直接操作底层API。只需向MCP服务器发送标准格式的调用请求(如提问、关键词搜索、研究主题),服务器自动转发到Perplexity的后端系统,执行联网搜索与推理,并将生成的结果(通常包含引用来源)打包返回给AI。

从用户视角来看,整个联网搜索过程是完全无感的,体验上就是——AI突然具备了实时获取最新信息、引用来源的能力

引入Perplexity MCP后,AI助手的知识广度、时效性与事实准确性得到了极大提升:

  • 打破知识截止日期
    传统大语言模型(如GPT)通常有固定的训练数据截止点,无法了解之后发生的事件。有了Perplexity接口,即使是最新的新闻、科研成果也能即时掌握。

  • 标准化联网搜索能力
    过去如果想让AI“上网查资料”,需要专门开发爬虫、解析网页,非常复杂。而MCP机制让联网搜索标准化、模块化,几分钟内就能扩展到新的搜索源。

  • 提升事实可靠性
    每次搜索返回的结果,通常都会包含明确的引用链接,极大增强了AI回答的可验证性和可信度。

举例:

  • 用户问:“2023年诺贝尔化学奖得主都有谁?”
    ➔ AI调用 perplexity_ask 快速搜索最新名单,返回正确答案并附带新闻来源。

  • 用户咨询:“苹果(Apple Inc.)当前股价是多少?值得买入吗?”
    ➔ AI调用 perplexity_research 获取实时股价和专业分析摘要,再结合自身理解给出回答。

  • 用户提出:“帮我找几篇关于2024年量子计算进展的最新研究论文。”
    ➔ AI调用 perplexity_research 执行深度文献检索,汇总相关论文并逐条概述。

  • 用户提出更复杂的问题,比如:“列举三家在量子加密领域快速发展的初创公司,并分析他们的优势。”
    ➔ AI则可能调用 perplexity_reason,进行综合推理式搜索,得出更具洞察力的总结。

用户提问 ➔ MCP请求 ➔ Perplexity执行搜索 ➔ AI收到结构化答案 ➔ 呈现给用户

Perplexity MCP相当于给AI助手安了一个即时搜索引擎的大脑。它带来的好处首先是准确性提升:AI不再凭记忆硬凑答案,可以查证后再答复,减少了胡扯的概率。其次是时效性:无论今天发生了什么新事,只要能搜到新闻,AI立马就知道 。最后对用户来说,引用来源也增加了可信度——这一点Perplexity一直很重视,也延续到了MCP的使用中。

可以想见,有了这样的检索能力,AI助手开始真正变成了“百科全书 + 新闻频道 + 智能分析师”的合体,几乎无所不知。

当然,凡事有度,我们还是得注意AI给出的信息真实性,不过至少现在它有途径去获取真资料了,而不是闭门造车(AI,无限幻觉启动!)

总结

以上这些案例只是冰山一角。除了上述提到的地图导航、内容发布、内容生成、信息检索等场景,社区和企业还开发了许多其他类型的MCP集成:

比如控制Github仓库的版本管理MCP、远程执行代码的沙箱MCP、查询天气和日历的MCP,

甚至连接IoT设备、调用金融交易接口的都有出现。

可以说,哪里有工具需求,哪里就有人尝试用MCP去打通。

AI的触角,正通过一个个MCP插件,延伸进各行各业的角落。

四、未来展望:当AI拥有“协作网络”

看完了MCP和A2A,你可能会想象未来的AI系统会是什么样子?让我们大胆畅想一下:

1. AI App Store和Agent网络的崛起: MCP的出现有望催生一个繁荣的AI技能商店生态。开发者可以发布各种MCP模块,供用户的AI助手下载使用;用户则可以根据自己的需要,像给手机装App一样给AI加能力。而A2A则把这些“装备了不同App”的AI连接成网络。也许不久的将来,我们每个人都会有一个主AI助手,根据任务需要去调用无数专业小Agent的服务。那个场景有点像漫威的复仇者联盟——需要打怪时,钢铁侠招呼一下,身边瞬间围过来雷神、绿巨人等各路英雄助阵,各显其能。这次AI版“复联”,靠的正是A2A的通信号角,把英雄们唤到一起,再加上MCP提供的各类“超能力”,最终完成任务。

2. 无缝的跨平台AI协作: 有了A2A,不同公司的AI不再是信息孤岛,而更像加入了同一个互联网。试想一下,也许你的Slack聊天机器人很快就能直接呼叫你的微软小娜开会助手,让它在Outlook日历上安排会议;或者你的手机语音助手可以与汽车的导航AI对话,提前设置好路线和车内空调温度。这种跨平台协作以前难以实现,但A2A提供了标准的沟通管道,AI代理将可以跨越应用和设备边界合作。这对企业尤为重要——他们可以部署各部门专用的AI,又能确保这些AI通过A2A无缝协同,提高整个业务流程的自动化和效率 。

3. 更复杂任务的自治代理团队: 随着A2A的发展,未来可能出现自治的AI团队来处理超复杂的项目。比如一个大型工程项目,主AI负责总体协调,它可以动态发现和雇佣多个专长Agent:法律Agent审合同、财务Agent管预算、工程Agent监控进度、营销Agent筹划发布…这些Agent彼此交流进展、共享信息,各自完成自己的子任务,偶尔还集体开个“AI会议”讨论下一步方案。这听起来像科幻,但技术上并非不可及——A2A已经定义了任务生命周期、消息协作等机制 ,唯一要解决的是让AI懂得更高层面的规划和自我组织。不过以当前LLM的推进速度,也许在特定垂直领域先实现这样的Agent团队不是难事。

4. 人在回路的协同共生: AI代理网络并不意味着人被排除在外。相反,A2A非常注重Human-in-the-loop(人的介入) 。未来我们可能会看到一种新工作模式:人类主管多个AI代理,每个代理负责不同模块工作。A2A让人类可以方便地在一个界面下监控所有代理的对话和任务进展,必要时通过某个代理插入自己的指令或修改决策。这有点类似现在项目经理管理团队,只不过团队成员里有不少AI。通过这样人机协作的方式,AI网络将变成我们强大的助手,而人仍负责掌控方向和关键判断。理想情况下,这种协作会产生一种“1+1>2”的效应:AI提供效率和专业扩展,人提供创意和最终把关。

当然,未来并非没有挑战。首先是标准竞争与融合的问题——目前Anthropic的MCP和Google的A2A可以说各司其职,但难保不会出现其他竞争标准或变种。如果每家公司又搞一套不兼容的协议,那就重回碎片化老路。不过鉴于双方都开源开放了规范,又定位明确互补(MCP侧重工具接入,A2A侧重代理协同 ),业界大概率会选择兼容并蓄,而不是另起炉灶。或许将来我们会看到一些统一的更高层框架,把MCP和A2A打包起来供开发者直接用,就像今天的web框架封装了底层协议细节一样。

另一个挑战是安全与治理。当AI能调用各种工具、还能彼此联手行动时,确保它们“不作恶”就更重要了。所幸MCP和A2A一开始就在规范中嵌入了安全机制,如授权、沙盒和用户确认 。未来还需要建立更完善的信任体系:比如某个第三方提供的MCP插件是否安全可靠、代理声称的能力是否属实(Agent Card可能需要类似数字签名的认证),等等。我们人类或许需要为AI代理制定一些**“社交规则”“法律法规”**,以防出现AI作弊、滥用资源甚至结伙干坏事的情况——听上去有点科幻阴谋论,但未雨绸缪总是好的。

总的来说,MCP和A2A的出现标志着AI从单机走向网络化的起点。模型不再是封闭运行在自己CPU上的过程,而是逐渐成为网络中可以交互的节点:既能访问别的节点资源,又能和别的节点对话协作。有人将这种趋势称为*“AI应用的互联网时刻”*——就像计算机互联产生了互联网一样,AI代理互联也会产生一个全新的智能网络 。在这个网络中,AI不再孤单,每个AI都是更大系统的一部分,可以共享知识、互补长短。

对于我们普通用户来说,这一切技术进步最终体现为更贴心、更强大的数字助手。未来的AI助手也许同时是你的管家、秘书、司机、翻译、医生、老师……他背后是无数专业“小助手”在协同配合,通过标准协议各尽其职。你只需要面对这一个AI,就像只需要和一个团队领导沟通,他自会安排手下的一群专家为你服务。这幅美好的图景,正随着MCP和A2A从科幻走向现实。

最后用一句轻松的话收尾:当我们的AI既能拿起MCP这把瑞士军刀,又能吹响A2A的集结号角时,曾经那个两眼一抹黑只会聊天的“小憨憨”,终将成长为上知天文下晓地理、呼朋引伴、无所不能的“智慧管家”。

也许再过些年,我们每天的日常都将在一张庞大的AI代理人网络中高效运转,而我们要做的,就是放心地把繁琐事务交给这群不会抱怨加班的AI伙伴们,然后安心去享受更有创造力和乐趣的生活了!

默子今日睡了,大家晚安~

更多内容请关注默子⬇️

相关文章:

  • 【学习笔记】RL4LLM(三)
  • BeeWorks企业内部即时通讯软件支持国产化,已在鸿蒙系统上稳定运行
  • 云原生--核心组件-容器篇-7-Docker私有镜像仓库--Harbor
  • Linux中的计划任务
  • 第1篇:Egg.js框架入门与项目初始化
  • go语言八股文(五)
  • el-Input输入数字自动转千分位进行展示
  • LeetCode 1482. 制作 m 束花所需的最少天数
  • 机器学习-入门-线性模型(2)
  • 【时间之外】软件管理如何避免人浮于事
  • Fiddler+Yakit实现手机流量抓包和小程序抓包
  • Nacos 3.0 上线 MCP Registry,支持 MCP 服务注册到发现全流程管理
  • Android平台Unity引擎的Mono JIT机制分析
  • Android WebRTC回声消除
  • 向量数据库Milvus的部署与使用
  • quickbi finebi 测评(案例讲解)
  • OpenCV 图形API(70)图像与通道拼接函数-----创建一个图像或矩阵(GMat)的副本的操作函数copy()
  • 应用在通信网络设备的爱普生晶振SG2016CBN
  • DeepSeek创始人梁文峰是个什么样的人?
  • Linux调试器 - gdb使用指南
  • 纪录电影《中国有戏:天幕计划》启动,有望太空播放
  • 传智教育连续3个交易日跌停:去年净利润由盈转亏
  • 体坛联播|利物浦提前4轮夺冠,安切洛蒂已向皇马更衣室告别
  • 伊朗爆炸港口已恢复货物进出口工作
  • 首映|《人生开门红》:段子背后都是案子
  • 独家丨申万宏源研究所将迎来新所长:首席策略分析师王胜升任