智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


京公网安备11010602202532号 刚刚,GPT-5.2刷新了一项新纪录!OpenAI联合创始人Greg Brockman发帖称使用GPT-5.2在ARC-AGI-2基准测试上,表现超过了人类基线水平。
在基准测试时技能爆表,但一到实际应用就“掉链子”,OpenAI前首席科学家Ilya Sutskever提到的这种大模型“性能悖论”我们并不陌生。这也是AGI评估领域一个长期存在的难题——如何区分大模型“真正的推理能力”与“刷题型能力”。
而ARC-AGI-2的出现正好打破了这一难题。ARC-AGI-2的全称为“Abstraction and Reasoning Corpus for Artificial General Intelligence 2”,旨在评估AI系统是否具备类人抽象与推理能力,而非仅靠记忆或模式匹配完成任务。
ARC-AGI-2是一套专为衡量通用人工智能(AGI)能力而设计的基准测试集。它要求模型在未见过的任务中进行抽象、归纳和泛化,而非依赖训练数据中的重复模式。因此,该测试被认为是更接近人类智能本质的评估方式。
尽管GPT-5.2在ARC-AGI-2上超越人类,OpenAI却发出警告:当前大模型的能力可能已经“过剩”。这意味着模型在特定任务上的表现虽强,但在真实世界复杂场景中的泛化能力仍有限。真正的AGI不应只是“高分低能”的刷题机器。
“真正的推理能力”与“刷题型能力”的区别,是通往AGI的关键门槛。
业内专家指出,当前AI发展的瓶颈并非技术本身,而是缺乏有效的评估体系。ARC-AGI-2等新基准的出现,或许能推动行业从“参数竞赛”转向“能力验证”,从而更接近通用人工智能的目标。
