当前位置：首页 > news >正文

PHYBench:首个大规模物理场景下的复杂推理能力评估基准

news 来源：原创 2025/4/25 9:28:34

2025-04-23, 由北京大学物理学院和人工智能研究所等机构共同创建的 PHYBench 数据集，这是一个专门用于评估大型语言模型在物理场景下的复杂推理能力的高质量基准。该数据集包含 500 道精心策划的物理问题，覆盖力学、电磁学、热力学、光学、现代物理和高级物理等多个领域，难度从高中练习题到本科习题和物理奥林匹克竞赛挑战不等。此外，研究者们还提出了基于数学表达式编辑距离的 EED 评分，这是一种能够有效捕捉模型推理过程和结果差异的新型评估指标，超越了传统的二元评分方法。通过在 PHYBench 上对各种 LLMs 进行评估并与人类专家的表现进行比较，结果显示即使是最先进的推理模型也远远落后于人类专家，这突显了它们在复杂物理推理场景中的局限性以及改进的必要性。该数据集及其结果公开可用，为未来的研究和模型改进提供了宝贵的资源。

一、研究背景

近年来，大型语言模型在复杂推理能力方面取得了显著进展，能够在奥林匹克级别的数学问题上表现出色。然而，现有的评估基准在准确评估模型对物理世界的感知和推理能力方面仍然存在严重不足。尽管一些高质量的推理基准推动了 LLMs 推理能力的评估和改进，但随着模型性能的不断提高，现有基准已无法满足需求。

目前遇到的困难和挑战:

1、推理任务过于简化：现有的推理基准大多基于抽象的数学问题或高度专业化的领域，缺乏对物理现实和现实世界应用的结合。这使得模型在处理实际物理场景时的能力无法得到准确评估。

2、缺乏精确的评估指标：目前的自动化评估方法无法捕捉复杂推理的细微差别，而手动评估则成本高昂且难以大规模应用。现有的自动化方法大多依赖于多项选择题，这限制了对模型真实推理能力的评估。此外，现有的评估方法大多采用二元评分（正确/错误），无法区分推理质量的不同程度或部分理解。

3、数据集难度分布不合理：现有基准中，问题往往集中在高难度水平，导致模型在这些问题上的表现接近于零，降低了评估的区分能力和样本效率。

数据集地址：PHYBench|物理教育数据集|自然语言处理数据集

二、让我们一起来看一下PHYBench

PHYBench 是一个包含 500 道物理问题的高质量基准，用于评估大型语言模型在物理场景下的复杂推理能力。

每个问题都围绕一个具体的物理场景构建，要求模型根据给定条件推导出关键物理量的符号表达式。这些问题不仅考验模型对物理概念的理解，还涉及复杂的数学运算和逻辑推理。

数据集构建过程：

1、数据来源：

从非公开和公开的物理练习题中选取问题。

这些问题无法通过简单的网络搜索或标准参考资料找到。

2、学生参与：

北京大学物理学院的178名学生参与问题的贡献和精炼。

3、问题优化：

每个问题都经过多轮审查、过滤和优化。

确保问题符合以下要求：文本描述清晰、有严格的符号答案、表述明确。

4、专家评估：

邀请109名人类专家对问题进行解答。

通过专家的解答进一步评估问题的表述是否恰当。

5、最终优化：根据人类专家的反馈，对问题进行最终优化。

数据集特点：

1、全面性：覆盖多个物理领域，包括力学、电磁学、热力学、光学、现代物理和高级物理。

2、难度多样性：问题难度从高中练习题到本科习题和物理奥林匹克竞赛挑战不等，能够全面评估模型的推理能力。

3、符号表达式答案：所有问题的答案都是符号表达式，允许不同的等价形式，但不允许方程或浮点近似。

4、文本描述：所有问题仅通过文本描述，不依赖多模态输入。

5、精确表述：问题陈述严格精确，避免任何歧义。

基准测试：

在 PHYBench 上的基准测试结果显示，即使是最先进的推理模型 Gemini 2.5 Pro，其准确率也仅为 36.9%，远低于人类专家的 61.9%。

展示了一个来自PHYBench的示例问题，用于评估模型性能。图中使用了两个主要指标：表达式编辑距离（EED）得分和准确性。

一、展示了示例问题的物理情境。

问题背景：三个小球通过三个轻质不可伸缩的绳子连接成一条直线，绳子的一端悬挂在天花板上。每个小球的质量为m，绳子的长度为l。系统最初是静止的，垂直方向。

问题情境：一个锤子水平击打其中一个小球，使其获得瞬时速度v0。需要确定当最上面的球被击中时，中间绳子的瞬时张力T2。

已知条件：重力加速度为g。

二、评估指标：展示了模型生成的表达式与正确答案之间的差异。

1、EED（Expression Edit Distance）得分：

定义：EED得分用于衡量模型生成的表达式与正确表达式之间的差异。得分越低，表示模型生成的表达式越接近正确答案。

2、Accuracy（准确性）：

定义：准确性用于衡量模型生成的答案是否正确。正确答案得100分，错误答案得0分。

三、结论

Model Answer 1：生成的表达式与正确答案的差异较大，EED得分为47，准确性得分为0。

Model Answer 2：生成的表达式与正确答案的差异较小，EED得分为13，准确性得分为0。

总结：Model Answer 2在EED得分上表现更好，但两个模型在准确性上都未能正确解答问题。

PHYBench与其他推理基准的比较。对于难度等级，COMP：奥林匹克竞赛级别；COL：大学级别；GS：小学；ES：小学；HS：高中

PHYBench数据整理的流程。

在 PHYBench 上的模型性能。我们展示了推理模型和通用语言模型在 PHYBench 上的性能。对于每个模型，我们报告两项指标，包括准确率和 EED 分数。这两项指标均在 PHYBench 的所有样本上进行了平均计算。

按模型在不同领域的原始平均分数。

不同问题中的模型优势

示例问题及错误。这些错误来自 DeepSeek-R1 生成的解答。这里我们展示了主要的参数和物理过程。关于完整的问题文本，请参阅附录D。

三、展望PHYBench 的应用场景

以前，物理老师在讲解力学中的碰撞问题时，通常会先在黑板上画出简单的示意图，比如两个小球相撞的场景，然后列出相关的物理公式：

如动量守恒定律：

添加图片注释，不超过 140 字（可选）

和能量守恒定律：

添加图片注释，不超过 140 字（可选）

接着，老师会出一些类似的练习题，让学生代入具体数值进行计算。

但这种方式存在一些局限性。首先，学生可能只是机械地套用公式，而没有真正理解碰撞过程中物理量的变化和相互作用。其次，题目相对单一，缺乏多样性和复杂性，无法全面考察学生对物理概念的深入理解和综合运用能力。最后，老师很难通过学生的计算结果，精准地判断出学生在推理过程中具体哪里出了问题，只能大致知道学生是否掌握了公式。

现在有了PHYBench后的变化

现在有了PHYBench数据集，情况就大不相同了。PHYBench中有这样一个问题：“三个小球用三根不可伸长的轻绳串联成一条直线，一端悬挂在天花板上。每根绳子的长度为 l，每个小球的质量为 m。初始时，系统处于静止且垂直状态。一个锤子水平方向击打其中一个球，使该球瞬间获得速度 v0。求当最上面的球被击打时，中间绳子的瞬时张力是多少？”。

老师可以将这个问题直接拿给学生做。学生在解答时，需要先理解整个系统的初始状态和受力情况，分析每个小球的运动状态和相互作用力，然后运用牛顿第二定律、动量定理等知识，逐步推导出中间绳子的张力表达式。这个过程不仅考察了学生对物理概念的理解，还涉及到了复杂的数学运算和逻辑推理。

通过学生对这个问题的解答，老师可以更清楚地看到学生在推理过程中遇到的问题。比如，有的学生可能在理解小球的运动状态时出错，错误地认为中间绳子的张力只与被击打的小球有关，而忽略了其他小球的相互作用；或者在运用公式时，没有正确地考虑各个物理量之间的关系，导致计算结果错误。

有了PHYBench后，老师可以根据这些问题，更有针对性地给学生讲解。比如，针对学生在理解小球运动状态上的问题，老师可以详细讲解每个小球在不同瞬间的受力情况和运动趋势；针对学生在运用公式上的问题，老师可以引导学生一步步分析各个物理量之间的关系，帮助学生真正掌握物理知识，而不是只会套公式。

此外，PHYBench中的问题更加丰富多样，涵盖了力学、电磁学、热力学等多个物理领域，难度也从高中练习题到本科习题和物理奥林匹克竞赛挑战不等。这不仅能够激发学生的学习兴趣，还能让学生在解决不同类型和难度的问题中，不断提高物理推理能力。