当前位置: 首页 > news >正文

【Agent】AI智能体评测基座AgentCLUE-General

note

  • AgentCLUE-General将题目划分为“联网检索”、“数据分析”、“多模态理解”和“多场景组合”任务
  • AgentCLUE-General为每个题目都提供一个标准答案,将Agent智能体的答案与标准答案进行规则匹配判断对错

文章目录

  • note
  • 一、任务划分和场景划分
  • 二、答案提取的prompt
  • 三、评估样例
  • Reference

一、任务划分和场景划分

在这里插入图片描述

场景划分:
在这里插入图片描述
等级划分:
在这里插入图片描述
AgentCLUE-General借鉴了GAIA基准(https://huggingface.co/spaces/gaia-benchmark/leaderboard)对难度等级的定义,来定义难度等级:

  • 1 级问题通常只考察一个任务场景,解题所需要的步骤不超过 5 个。
  • 2 级问题通常只考察一个任务场景,解题需要 5 个以上的步骤(通常是6-10个)。如果是考察多个任务场景的“多场景组合”任务,解题步数一般也在6-10步。
  • 3 级问题通常是多个任务场景的组合,要求通用AI Agent能够支持足够长的系列动作(一般是10个以上),完成较为复杂的人类日常可能遇到的任务。

二、答案提取的prompt

你是一名通用的人工智能助手。我会问你一个问题。请将你的最终答案使用如下格式展示:
最终答案:[[你的最终答案]]。对“[[ ]]”中的最终答案的要求如下:
你的最终答案应该是一个数字,或者尽可能少的单词,或者一个逗号分隔的数字和/或字符串列表。如果你被要求输出一个数字,除非另有说明,否则最终答案不要在数字中包含逗号,也不要使用 $ 或百分号等单位,只需要给一个数字作为最终答案即可。如果要求你输出一个字符串,除非另有说明,否则最终答案不要使用缩写(例如回答是城市时,请写城市的全名),并以纯文本形式写出如果要求你输入一个逗号分隔的列表,请根据要放入列表中的元素是数字还是字符串来应用上述规则。下面是你要回答的问题:

评估流程:
1.获得问题、模型答案和标准答案–>
2.依据评分标准评价每一题是否得分–>
3.计算模型最终得分

三、评估样例

影视作品数据分析:
【Manus的解题轨迹(访问链接可查看Manus的动态解题过程)】:https://manus.im/share/UOjrxmmv7meAP4RgzrOSsr?replay=1

Reference

[1] www.SuperCLUEai.com

相关文章:

  • python解压复制文件
  • Python多进程并发编程:深入理解Lock与Semaphore的实战应用与避坑指南
  • 【每日八股】复习 Redis Day1:Redis 的持久化(上)
  • 力扣DAY60-61 | 热100 | 回溯:单词搜索、分割回文串
  • 二、在springboot 中使用 AIService
  • 第38讲|AI + 农业病虫害预测建模
  • 2025-04-20 李沐深度学习4 —— 自动求导
  • 【Linux】清晰思路讲解:POSIX信号量、基于环形队列的生产消费模型、线程池。
  • 基于 Elasticsearch 8.12.0 集群热词实现
  • Hello, Dirty page
  • LabVIEW发电机励磁系统远程诊断
  • P8512 [Ynoi Easy Round 2021] TEST_152 Solution
  • conda环境独立管理cudatoolkit
  • vulnhub five86系列靶机合集
  • HTTP:十.cookie机制
  • 2000-2017年各省城市液化石油气供气总量数据
  • 硬件工程师笔记——电子器件汇总大全
  • HTML — 总结
  • LeetCode[225]用队列实现栈
  • LeetCode 每日一题 2563. 统计公平数对的数目
  • 上海举行金融服务企业“走出去”推进大会
  • 生于1982年,孙晋出任共青团广西壮族自治区委员会书记
  • 嫦娥八号任务合作项目,这十个入选
  • 天问三号开放20千克质量资源,邀国际合作开展火星探测研究
  • 中纪报刊文:新时代反腐败斗争为党赢得历史主动
  • 宁德时代与广汽等五车企发布10款巧克力换电新车型:年内将将完成30城1000站计划