全球顶尖AI做物理，被人类按地摩擦？不懂推理大翻车，本科生碾压

例如，GPT-4o、GPT-7-和GPT-o4-mini的精确度分别为32.5%、42.2%以及45.8%。这一精确度，明显不如人类专家，二者性能差异高达29%。

研究团队最后确认，现在的智能系统非常依靠学科领域的记忆内容，非常依靠数学规则的应用，非常依靠表面的图像特征识别，并没有实现真正的物理层面的认知。

能做奥数的AI模型，做物理题有多强？

物理学是所有科学中最基础、最全面的学科。

——理查德·费曼

当前最先进的模型在奥数问题上已经达到了与人类相当的水平。

特别是当前新型的多模态技术，包括GPT-4o、-3.7-这些，凭借融合图像识别与分析的功能，表现出了突出的能力。

不过，当前通用的评估方法遗漏了智慧的一项核心面向，那就是物理推断，这种能力融合了学术认知、逻辑演绎以及对实际环境制约的认知。

针对这些挑战，多所院校的学者们开发了PHYX，这是首个用于衡量模型在图像环境中物理推演技能的通用测试平台。

PHYX具有三大创新：

汇集了三千个崭新的题目，它们关联着实际存在的物理状况，解答这些问题必须运用图像判断和因果推断。

经过权威人士确认的数据构建，涉及六个关键物理学科：热学、电学、力学、当代物理学、光学以及振动与音响学；并且囊括六种不同的物理分析方式：物理框架分析、空间方位分析、多元公式分析、潜在因素分析、量化分析和预判分析。

依据严谨划一的三阶段检测机制，衡量各类模型的指令执行效能，以实现推理水平的精准衡量。每个情境均由物理学科研生执行严密核查，旨在确保科学性，并排除数据样本的偏倚。

PhyX数据集包含实例，这些实例是人工标注的物理问题，并且配有视觉背景，总数达到三千个

团队对十六种基础模型的检测发现了一个极不寻常的水平差异：物理学本科生和研究生的最低得分组正确率为75.6%，而得分最高的大型模型GPT-o4-mini仅为45.8%。

这个30个百分点之差遍及所有物理分支，在当代物理学科（人类掌握程度86.7%对比模型仅40.6%）以及波动声学领域（人类掌握程度86.7%对比模型52.7%）体现得尤为突出，具体情况参见图1。

即使是最前沿的模型在物理推理方面也显得十分吃力，GPT-4o、GPT-7-和GPT-o4-mini 的准确率分别只有 32.5%、42.2% 和 45.8%。

这暴露了当前多模态推理模型的三大关键局限：

过于依赖记忆性学科知识；

过度依赖数学公式；

停留在表层视觉模式匹配而非真正的物理理解。

各个模型在 MMMU 排行榜的整体情况。每个分组里最出色的模型用加粗字体标明，稍差一些的用带下划线的形式呈现

物理题实测：全部翻车

来自六大核心物理领域的考题，AI模型们完成得怎么样？

接下来，我们来看看具体实测。

为了确保评估过程公正，研究者提供给模型的视觉材料都极为逼真，一般展现的是具体的物理环境，而不是经过艺术化处理或抽象表现的图画。

这些图像都建立在对物理现象的准确描述上，为物理分析提供了重要的参照，十分有利于AI系统将理论化的物理规律与实际世界的呈现方式结合起来。

这些图片，是关于力学类题目的图像，是关于电磁学类题目的图像，是关于热力学类题目的图像，是关于波动和声学类题目的图像，是关于光学类题目的图像，是关于现代物理类题目的图像。

而这六大类，还包含不同的子领域。

力学

首先我们来看看，现在什么样的力学物理题，大模型能做对。

一名消防员位于离着火建筑d远的地方，把水带射出的水束以和地面成θ_i的角度朝向建筑，如图所示。

水柱的起始速度是v_i，它决定了水柱的运动轨迹，水柱在空中运动时会受到重力影响，水柱最终会接触到建筑物的某个位置，这个位置的高度就是h，h是水柱在飞行过程中达到的最终垂直距离，h可以通过物理学中的运动学公式计算出来，h的值取决于水柱的初始速度v_i以及它飞行的时间。

能够察觉到，GPT-4o把起始速度剖析为横向部分和竖向部分，推算出水流抵达构造体所耗费光阴，接着推算出水滴在时段t内的上下挪动距离y，结果得出了水柱撞击构造体时的顶端位置h。

结果正确。

但接下来这两道经典的高中力学题，GPT-4o就翻车了。

把一条柔韧、没有弹性的线绕在一个实心圆柱体上，这个圆柱体重50公斤，直径是0.120米，靠无摩擦的轴承固定在一条水平轴上转动，如下图所示。用持续9牛的力拽绳子的另一头，在拉出2米长时，让圆柱体转动起来，并且绳子在过程中没有滑动。圆柱体最开始是静止的。

问题：绳子的最终速度是多少？

在这个题目里，GPT-4o分别求出了力F所做的功，计算了圆柱的转动动能，找到了绳子线速度和圆柱角速度之间的关系，前四个步骤都是正确的

但是，在第五步核算系统整体动能时，它产生了失误，结果使全部结果都偏差了。

下面这道斜坡难题，GPT-4o依然没做对。

一个12公斤的箱子沿着2.5米长、角度30度的斜面被推着往上走。某个劳动者（没考虑摩擦力）估算过，只要在坡底让箱子以5.0米每秒的速度开始运动，之后松手箱子就能自行爬上斜坡。然而现实情况是，摩擦力必须被考虑进去：箱子只移动了1.6米就停了下来，接着又往坡底倒滑回去。

问题：当箱子滑回到坡底时，它的速度是多少？

在解决问题时，GPT-4o首先准确列出了能量守恒公式，但在计算摩擦力产生的作用时出现了失误，因此最终求得的物体运动速度也不正确。

电磁学

接着看一下电磁学。

第一道题目需要计算电路中因电阻产生的能量耗散速率。

GPT-4o成果令人满意，它首先识别了滑动过程引发的电压，然后推算出线路中的电流量，最终估算了功率的损失速度，整个过程条理清晰，环节清晰，顺利得出了准确答案。

第二题探讨电磁学中RL电路的时间常数求解问题，要求依据提供的电流演变状况，推算出电路的时间常数，并找出电感的具体数值。

看起来要更复杂一些。

然而，GPT-4o同样展现出了卓越的性能，它逐层解析了电流波动的说明，筛选出核心数据，凭借已有信息推算出时间常数，再据此推演出电感量，最终得出了正确选项，步骤明晰且无误。

不过接下来，GPT-4o就开始翻车了。

第一个题目要求确定电路闭合后0.115毫秒时刻电压表的测量值；第二个题目要求计算电偶极子置于电场中所受的力矩数值；第三个题目要求求出在点c位置处电场强度的合成结果。

GPT-4o处理首个问题时出了差错。它试图逐项剖析电路构造和电感功能，算出电流时序变化及电压值，然而对电路零件运作认知存在偏差，导致最终电压结果偏离正确选项，暴露出图像推理方面的不足。

第二题里，GPT-4o依次研究了电偶极子的特性以及电场方向，估算了力矩的数值，不过因为对文字说明的理解有偏差，所以答案和正确值不一致，显现了文本推理方面的不足。

第三题中，GPT-4o表现出较强的解析本领，它分别考察了两个电荷对某点的效应，想要将它们整合起来求得总电场，不过因为认知上的局限，所得数据与正确值之间存在明显出入。

热力学

热力学问题上，GPT-4o的表现也不稳定。

不过，第一题表现还不错。

这道题目涉及热力学中气体分子速度的求解。题目设定一个用隔板隔开的绝热容器，里面装有气体，起初气体占据一半体积，温度已知。当隔板被移除后，气体扩散至整个容器，需要求出这个自由扩散过程中的熵增量。

GPT-4o首先从图像中获取了各个分子的运动速率数据，接着逐一推算出它们的速率数值，随后求得所有分子的平均速率，最终通过对比初始和结束时的情形，精确得出了气体分子平均速率的变动情况，结果完全无误。

下一题GPT-4o暴露了在文本推理上的缺陷。

该项研究一个密闭水箱的排水高度问题，该水箱顶部不透水，内部装有压缩空气与液体，液体借助柔性管道排出，目标是明确液体流尽时液面所在位置。

GPT-4o的研判环节存在偏差,它考察了水箱内部压力与水位之间的关联,意图借助平衡原理推算出水流终止时的液面标高,然而因为对文字说明的领会不够准确,得出的数值与正确值存在出入。

波动/声学

你们团队正在研发一种帮助飞行员在恶劣天气下降落的新设备。方案是在跑道两边各安装一个相距50米的无线电发射装置。这两个装置会发出频率一致但相位不同的无线电波，这样就在跑道正中间产生了一条波节点线，也就是信号干扰最弱的位置。当飞机正好处于这条中心线时，飞行员不会察觉到任何声响；一旦偏离了中心线，就会听到「哔」的提示音。要达成精准定位，首要条件是最大干扰点，即声响最为显著的地点，应位于中心路径旁六十米处，同时距离发射装置三公里远。

问题：应为无线电发射器设定多少频率？

在处理题目时，GPT-4o对两条相干条纹间的距离产生了偏差，由此引发了后续对光波波长的测定及频率的推算均不准确。

如图所见，两个发声设备相隔3.00米，并且同步辐射出周期为474次每秒、步调一致的声音。一个拾音装置被安放在两个设备正中间前方3.20米远的地方，那个地点探测到信号强度达到峰值（出现相长干涉）。

麦克风要向右调整多远，能够探测到首个信号最弱点，也就是出现第一次相消干涉的位置？

在处理题目时，GPT-4o准确识别了核心要点，那就是弄清楚声波相互抵消的必要条件。

计算各项条件、声波波长及几何关系均得出准确结果，但在第四步处理小x近似展开环节，发生了计算失误。

光学

下面这道题，看起来很简单。

光线通过一块折射率为1.50的玻璃板时，会产生侧向位移，位移值为d。

问题：求光线通过该玻璃块所需的时间间隔是多少？

这个题目涉及斯涅尔定律和棱镜的几何原理。GPT-4o虽然准确把握了棱镜内部与外部折射角之间的联系，但在进行第二步求取θ角的过程中发生了错误。

现代物理

Owen和Dina处于参考系S内，该参考系并未发生位移，但参考系S却相对于另一个参考系S′处于运动状态，S′系可能是观察者Ed所处的环境。他们正在进行一项传球活动，Ed在参考系S′中注视着全部情形，具体情况如图所示。Owen将球投向Dina。

问题：球到达Dina所需的时间间隔是多少？

GPT-4o正确判断出，此题需要运用狭义相对论的原理。

接下来，要把物体在S′系的速度换算到S系的速度，当使用相对论的速度合成方法时，计算出现了差错。

基准测试

PHYX里的每一个题目都围绕实际物理状况展开，彻底评估模型解析和推演物理环境的表现。

详细的数据统计见表1。

PHYX具有巧妙构建的构造，并且囊括了众多推理面向，它为系统检验和增强基础模型在现实物理推演方面的表现，充当了一个有力手段。

数据整理过程

研究团队制定了一套四步骤的资料采集方案，旨在提升信息品质，该流程包含多个环节，每个环节都有明确分工，目的是获取精准可靠的数据，整个过程严谨有序，确保最终成果符合高标准要求。

研究核心物理学科，探究其深度，明确基准测试的涵盖范围，挑选丰富多样的物理领域及分支，规定推理的种类。

权威人士指出：需要组建专门从事科学、技术、工程及数学领域研究生标注的队伍，务必恪守版权要求，不选取无法复制的材料，同时将正确答案与提问内容分开，目的是防止信息混淆。

问题形式转换与版本设计：把自由回答式疑问改造成选项式提问，或者反过来；针对每个题目，制作三种不同形态：标准形态、精简形态（去掉不必要的文字）、要点形态。

图像处理方面，借助GPT-4o为每幅画面拟定说明性文字，概括其视觉要素，有助于大型语言模型进行评估，并提升其跨模态的认知能力。

这个数据归纳工作，最后汇集了三千三百个形形色色的疑问，它们源自不同的渠道。

主要结果

PHYX对当前模型来说是个不小的挑战。

应当指出的是，哪怕是最为逊色的专业人才，其准确度也能达到75.6%，这个数值远远超过了所有参与团队评估的算法表现。这说明人类专长与当前算法水平之间有着显著距离，这也反衬出PHYX所设定的标准之高以及其挑战性之大。

实验表明，采用复选题型能够缩小各个模型表现上的差异，实力欠佳的模型借助一些明显的提示信息，也能猜中正确选项。

相比之下，开放式问题需要运用真正的逻辑思考，并给出准确的结果，因此可以更有效地判断模型的表现。这表明开放式问题在检测多模态推理水平时，具有更强的分辨效果。

根据表格3的信息，波动学、声学以及力学这些学科方向上的课题，大多处理的是自然景象相关的内容，并且对推理能力的要求不高，因此模型通常能够取得令人满意的效果。相比之下，在热学以及现代物理学这些分支上，所面对的挑战往往需要运用复杂的视觉识别能力，并且进行多阶段的逻辑推理，导致模型的表现普遍不尽如人意。

各个物理学分支里，针对开放性去除文本冗余任务，模型所取得的平均表现水平。其中，各分支中的最优成绩以蓝色标注突出，所有分支的最高表现则以红色标注突出显示

讨论分析

基于逻辑分析的架构，例如GPT-4o-mini和-R1，其正确度分别达到45.8%和51.2%，显著超越了常规架构如GPT-4o和.7-

这一发现清楚地展示了针对推理工作特别设计的模型所拥有的长处，同时也说明，在缩小不同模态推理之间的鸿沟方面，模型构造和训练方法的不同具有决定性影响。

即便缺少直接的图像信息，诸如-R1和GPT-3o-mini这类大型语言模型在表现上也能同许多跨模态系统匹敌。

大型语言模型的优异成果证明，很多时候，单靠对图像的文字说明，就足以供给推理过程所需要的视觉背景信息。

这既突显了人工智能模型卓越的适应性，也揭示了现阶段融合图像与文本的框架在借助未经处理的视觉信息完成物理判断时存在的不足。

研究团队通过实验发现，多模态模型非常倚重周密的文字说明，它单靠视觉环境进行推演的才干并不高。

与GPT-4o在63.8%的（63.8%）数据集上所取得的成果相比，该模型在物理推理方面的正确率有着显著不足。

这一发现说明，物理思考需要更全面地融合抽象理论和实际经验，对于当前的理论体系而言，这比单纯的数理推演要困难得多。

为了全面探究模型的运作效能及其约束条件，工作人员慎重审视了从整体中随机选取的96个偏差案例，并且借助GPT-4o平台展开了深入剖析。

本次研究设定了双重任务，其一是识别出当前模型的不足之处，其二是为后续模型构建及训练过程提供优化思路，错误分布状况参见图7。

视觉判断失误（39.6%）：机器在应对实际物理状况时，对图像数据或空间方位理解出现偏差，例如，对电压标示辨认错误造成运算偏差，实际图像的运用加大了难度，必须增强跨领域信息整合的技能。

文本解析失误占比十三点六：机器在解析资料时未能准确把握潜在规则或因果关联，比如会漏掉“无阻力”的说明，应当提升资料解析与背景认知能力。

认知不足（38.5%）：机器在特定学科方面见识不够，比如没考虑到波速的不同，造成空间判断失误，必须增强专业信息的积累。

运算失误（8.3%）：该系统掌握物理环境知识，却在数学运算、公式运用或度量衡换算环节出现偏差，应增强数值处理水平。

根据GPT-4o的评估结果，在90处标记有误的情况中，有这样一个典型的图像理解偏差，该偏差对于普通人而言十分容易判断，然而对于GPT-4o来说却构成了一定的困难

参考资料：