【阿里云大模型高级工程师ACP习题集】2.4 自动化评测答疑机器人的表现(⭐️⭐️⭐️ 重点章节!!!)
习题集:
-
【单选题】在使用Ragas评估RAG应用时,Answer Correctness指标计算中,语义相似度是通过以下哪种方式得到的?( )
A. 大模型直接判断
B. 计算文本向量的余弦相似度
C. 对比文本词汇重合度
D. 统计文本字数差异 -
【多选题】当Context recall指标得分较低时,可采取的优化措施有( )。
A. 检查知识库内容是否完备
B. 更换性能更强的大模型
C. 更换embedding模型
D. 改写query -
【单选题】在评估RAG应用检索召回效果时,Context precision指标侧重评估的是( )。
A. 检索到的参考信息与问题的相关性
B. 检索到的参考信息中与准确答案相关条目的排名和占比
C. 有多少相关参考资料被检索到
D. 生成的答案与检索到的参考资料的事实一致性 -
【多选题】以下哪些是Ragas中用于评估生成环节的指标?( )
A. Answer Correctness
B. Answer Relevancy
C. Faithfulness
D. Context Recall -
【单选题】在计算Answer Correctness指标的事实准确度时,Ragas通过大模型将answer与ground_truth分别生成各自的观点列表,对于生成的观点,若在对方观点列表中找不到依据,会被添加到( )。
A. TP列表
B. FP列表或FN列表
C. 仅FP列表
D. 仅FN列表 -
【多选题】关于自动化测试机制,以下说法正确的有( )。
A. 可以完全替代人工评估
B. 大模型可用于检测答疑机器人的回复是否准确回答了问题
C. 目前已有的简单测试方法能完美检测大模型的幻觉问题
D. 可通过建立测试机制自动对一批问题进行测试 -
【单选题】在使用Ragas计算Context recall指标时,其计算过程中由大模型将ground_truth分解成观点列表,若ground_truth为“张伟是教研部的成员且负责大数据课程”,可能生成的观点列表是( )。
A. [“张伟是教研部的成员且负责大数据课程”]
B. [“张伟是教研部的成员”, “负责大数据课程”]
C. [“张伟”, “教研部”, “大数据课程”]
D. [“张伟是教研部的”, “张伟负责大数据课程”] -
【多选题】在基于Ragas指标的优化策略中,当Answer correctness指标得分较低,而Context recall和Context precision分数较高时,可尝试的优化方法有( )。