中科院:LRM在简单问题上缺失快思考能力
📖标题:S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models
🌐来源:arXiv, 2504.10368
🌟摘要
🔸我们介绍了S1-Bench,这是一种新的基准测试,旨在评估大型推理模型(LRM)在简单任务上的性能,这些任务更倾向于直觉系统1思维,而不是审议系统2推理。虽然LRM通过明确的思维链在复杂的推理任务中取得了重大突破,但它们对深度分析思维的依赖可能会限制它们的系统1思维能力。此外,目前缺乏基准来评估LRM在需要此类能力的任务中的性能。为了填补这一空白,S1-Bench提出了一组跨多个领域和语言的简单、多样、自然清晰的问题,专门用于评估LRM在此类任务中的表现。
🔸我们对22个LRM的综合评估显示,效率明显降低,平均输出比传统小型LLM长15.5倍。此外,LRM经常很早就确定正确的答案,但会继续进行不必要的审议,一些模型甚至会产生许多错误。这些发现突显了当前LRM的僵化推理模式,并强调了实现能够适当适应任务复杂性的平衡双系统思维能力所需的实质性发展1。详见https://github.com /WYRipple/S1_Bench.
🛎️文章简介
🔸研究问题:如何评估大型推理模型(LRM)在简单任务上的系统1思维能力?
🔸主要贡献:论文提出了S1-Bench基准,专门用于评估LRM在简单问题上的表现,填补了现有研究的空白。
📝重点思路
🔸设计了简单且适合系统1思维的问题,确保问题的可理解性和易回答性。
🔸构建了S1-Bench数据集,包含多种简单问题,并确保问题的多样性和唯一性。
🔸评估了22种不同的LRM,采用不同的生成配置(贪婪采样和top-p采样)进行对比。
🔸引入了多种评估指标,包括格式正确性、效率和准确性,来评估LRMs的表现。
🔎分析总结
🔸实验结果显示,LRMs在简单问题上的表现普遍低于预期,尤其是在top-p采样中准确率显著低于贪婪采样。
🔸较小的LRM在准确性上表现较差,存在过度思考和生成冗余信息的问题。
🔸引入的简单性约束和后期验证措施有效提升了问题的简单性和可回答性。
🔸LRM在思考过程中的冗余信息随着推理步骤的增加而增加,反映出模型在处理简单问题时的效率低下。
💡个人观点
论文提出了简单问题基准和评估指标,旨在分析LRM的系统1思维能力,体现出了长链思考的过拟合。
🧩附录