【Agent】AI智能体评测基座AgentCLUE-General
note
- AgentCLUE-General将题目划分为“联网检索”、“数据分析”、“多模态理解”和“多场景组合”任务
- AgentCLUE-General为每个题目都提供一个标准答案,将Agent智能体的答案与标准答案进行规则匹配判断对错
文章目录
- note
- 一、任务划分和场景划分
- 二、答案提取的prompt
- 三、评估样例
- Reference
一、任务划分和场景划分
场景划分:
等级划分:
AgentCLUE-General借鉴了GAIA基准(https://huggingface.co/spaces/gaia-benchmark/leaderboard)对难度等级的定义,来定义难度等级:
- 1 级问题通常只考察一个任务场景,解题所需要的步骤不超过 5 个。
- 2 级问题通常只考察一个任务场景,解题需要 5 个以上的步骤(通常是6-10个)。如果是考察多个任务场景的“多场景组合”任务,解题步数一般也在6-10步。
- 3 级问题通常是多个任务场景的组合,要求通用AI Agent能够支持足够长的系列动作(一般是10个以上),完成较为复杂的人类日常可能遇到的任务。
二、答案提取的prompt
你是一名通用的人工智能助手。我会问你一个问题。请将你的最终答案使用如下格式展示:
最终答案:[[你的最终答案]]。对“[[ ]]”中的最终答案的要求如下:
你的最终答案应该是一个数字,或者尽可能少的单词,或者一个逗号分隔的数字和/或字符串列表。如果你被要求输出一个数字,除非另有说明,否则最终答案不要在数字中包含逗号,也不要使用 $ 或百分号等单位,只需要给一个数字作为最终答案即可。如果要求你输出一个字符串,除非另有说明,否则最终答案不要使用缩写(例如回答是城市时,请写城市的全名),并以纯文本形式写出如果要求你输入一个逗号分隔的列表,请根据要放入列表中的元素是数字还是字符串来应用上述规则。下面是你要回答的问题:
评估流程:
1.获得问题、模型答案和标准答案–>
2.依据评分标准评价每一题是否得分–>
3.计算模型最终得分
三、评估样例
影视作品数据分析:
【Manus的解题轨迹(访问链接可查看Manus的动态解题过程)】:https://manus.im/share/UOjrxmmv7meAP4RgzrOSsr?replay=1
Reference
[1] www.SuperCLUEai.com