GPT-5.2考赢人类 OpenAI警告大模型能力已过剩

GPT-5.2考赢人类 OpenAI警告：大模型能力已过剩，AGI天花板不是AI

　　刚刚，GPT-5.2刷新了一项新纪录！OpenAI联合创始人Greg Brockman发帖称使用GPT-5.2在ARC-AGI-2基准测试上，表现超过了人类基线水平。

　　在基准测试时技能爆表，但一到实际应用就“掉链子”，OpenAI前首席科学家Ilya Sutskever提到的这种大模型“性能悖论”我们并不陌生。这也是AGI评估领域一个长期存在的难题——如何区分大模型“真正的推理能力”与“刷题型能力”。

　　而ARC-AGI-2的出现正好打破了这一难题。ARC-AGI-2的全称为“Abstraction and Reasoning Corpus for Artificial General Intelligence 2”，旨在评估AI系统是否具备类人抽象与推理能力，而非仅靠记忆或模式匹配完成任务。

什么是ARC-AGI-2？

　　ARC-AGI-2是一套专为衡量通用人工智能（AGI）能力而设计的基准测试集。它要求模型在未见过的任务中进行抽象、归纳和泛化，而非依赖训练数据中的重复模式。因此，该测试被认为是更接近人类智能本质的评估方式。

OpenAI的警示：能力已过剩

　　尽管GPT-5.2在ARC-AGI-2上超越人类，OpenAI却发出警告：当前大模型的能力可能已经“过剩”。这意味着模型在特定任务上的表现虽强，但在真实世界复杂场景中的泛化能力仍有限。真正的AGI不应只是“高分低能”的刷题机器。

“真正的推理能力”与“刷题型能力”的区别，是通往AGI的关键门槛。

AGI的天花板不是AI，而是评估标准

　　业内专家指出，当前AI发展的瓶颈并非技术本身，而是缺乏有效的评估体系。ARC-AGI-2等新基准的出现，或许能推动行业从“参数竞赛”转向“能力验证”，从而更接近通用人工智能的目标。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号