LLMind:利用大型语言模型协调人工智能与物联网以执行复杂任务
中文标题: LLMind:利用大型语言模型协调人工智能与物联网以执行复杂任务
英文标题: LLMind: Orchestrating AI and IoT with LLM for Complex Task Execution
作者信息
Hongwei Cui, Yuyang Du, Qun Yang, Yulin Shao, Soung Chang Liew
Hongwei Cui, Yuyang Du, Qun Yang, 和 Soung Chang Liew(通讯作者)来自香港中文大学;Yulin Shao 来自澳门大学。
论文出处
IEEE Communications Magazine,2025年4月,第214-220页。DOI: 10.1109/MCOM.002.2400106
摘要
本文介绍了LLMind,这是一个基于大型语言模型(LLM)的任务导向型人工智能代理框架,旨在通过LLM实现物联网设备与人类之间的高效协作,以完成复杂任务。该框架受到大脑功能分区理论的启发,将LLM与特定领域的AI模块相结合,通过语言描述转化为代码的方式生成控制脚本,从而实现复杂任务的执行。此外,LLMind还引入了一种新颖的经验积累机制,通过用户与机器的持续交互提升响应速度和效果,推动系统不断进化。
引言
任务导向型通信和执行框架是利用人工智能使物联网系统能够与人类交互以执行复杂任务的重要趋势。LLMind框架通过LLM实现人类与物联网设备之间的无缝意图导向通信,使物联网设备能够通过人类的高级指令协作完成复杂任务。该框架不仅展示了LLM在语言能力和逻辑推理方面的优势,还通过整合特定领域的AI模块,解决了LLM在处理特定任务(如目标检测或人脸识别)时的不足。此外,LLMind还通过一种新颖的有限状态机(FSM)方法将语言描述转化为代码,提高了任务执行的准确性和成功率。
框架设计
LLMind框架包含五个组件:用户界面、LLM、协调器、AI模块和物联网设备。用户可以通过社交媒体软件发送文本消息与系统交互。对于特定请求和命令,系统会首先在协调器的经验档案中搜索已验证的历史脚本。如果找到匹配的脚本,则直接执行;否则,LLM将生成新的控制脚本以调用AI模块和物联网设备。系统对新生成的脚本进行初步可行性验证,并在执行失败时更新上下文并重新生成脚本。成功执行后,系统会根据用户指令生成适当的响应。
LLM
LLM在框架中承担两项关键功能:与用户进行对话并生成任务计划。LLM通过角色扮演技术(如扮演管家)与用户进行自然对话,并根据用户指令生成控制脚本。这些脚本通过网络连接调用AI模块和物联网设备,而无需直接与它们交互,从而提高了系统的可扩展性和互操作性。
FSM基础的语言-代码转换
LLMind提出了一种基于有限状态机(FSM)的语言-代码转换方案。该方案首先将用户任务分解为子任务,并将这些子任务表示为FSM中的状态。然后,LLM将每个子任务转换为可执行代码,最后通过合并每个状态的代码描述并加入状态转换条件,生成最终的任务代码。这种方法通过FSM的结构化表示,解决了从自然语言到代码的直接转换中存在的复杂性和信息丢失问题。
协调器
协调器作为系统的中心枢纽,包含上下文存储库、经验档案和脚本执行器。上下文存储库为LLM提供对话和代码生成所需的上下文信息,包括环境信息、API描述、聊天历史和执行结果及错误报告。经验档案存储已验证的脚本,以便在用户发出类似指令时快速重用。脚本执行器为脚本提供运行时环境,并监控硬件状态、处理运行时数据、生成执行报告,并更新上下文存储库和经验档案。
AI模块
LLMind整合了特定领域的AI模块,以增强系统在处理特定任务时的性能。这些模块可以是计算机视觉、自然语言处理、语音识别等领域的专家,通过与LLM的协作,实现更高效的任务执行。新模块可以随时添加到系统中,以扩展其功能并适应不断变化的AI技术。
物联网设备
为了确保物联网设备的有效控制,制造商需要提供详细的API函数,以便AI代理能够通过网络连接触发特定动作或检索设备信息。安全性是暴露API函数时的重要考虑因素,以防止未经授权的访问或篡改。
用户界面
LLMind支持多种交互方式,包括社交媒体软件,为用户提供自然的交互体验。
实验
实验验证了LLMind框架的可行性。用户通过文本消息向AI代理发送指令,代理根据用户命令和系统资源生成解决方案,并执行脚本以响应用户请求。实验中,协调器和AI模块部署在边缘服务器上,物联网设备通过WiFi连接到同一本地网络。实验中使用的物联网设备包括安全摄像头、TurtleBot移动机器人和WiFi路由器,AI模块包括目标检测和人脸识别。
场景1:签到与安全
用户请求AI代理统计房间内人数并识别身份。LLM生成的脚本利用天花板上的安全摄像头进行人员统计,如果因照片分辨率低或面部信息不完整而无法识别人员,则AI代理会指示TurtleBot移动到未知人员位置拍摄特写照片以进一步确认。脚本执行完成后,LLM将结果报告给用户。
场景2:网络管理
用户请求提高网络速度以改善电影播放的流畅度。LLM根据WiFi路由器的API生成FSM,并生成可执行脚本以调整网络速度。如果用户再次请求提高速度,系统会从经验档案中调用已有的脚本进行执行,但如果超出共享网络的总带宽限制,则会终止执行并向用户解释原因。
结论
LLMind通过将LLM的语言技能、推理能力和上下文学习与特定领域的AI模块相结合,扩展了物联网系统的多功能性和灵活性。提出的FSM基础的控制脚本生成、用户交互和历史脚本检索机制,有助于提升用户体验和系统效率,使系统在与LLM、人类、AI模块和物联网设备的交互中不断学习并变得更加智能。未来的工作将探索使用本地运行的开源基础模型(如Llama)进行控制脚本生成,以提高响应速度并增强隐私和安全措施。此外,研究团队还计划将多模态LLM应用于语音、视频和虚拟现实,以增强人机交互体验。