首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

GPT-5.2考赢人类 OpenAI警告大模型能力已过剩

发布日期:2026-05-23 来源:cnBeta/新智元作者:cnBeta/新智元浏览:2

GPT-5.2考赢人类 OpenAI警告:大模型能力已过剩,AGI天花板不是AI

  刚刚,GPT-5.2刷新了一项新纪录!OpenAI联合创始人Greg Brockman发帖称使用GPT-5.2在ARC-AGI-2基准测试上,表现超过了人类基线水平。

  在基准测试时技能爆表,但一到实际应用就“掉链子”,OpenAI前首席科学家Ilya Sutskever提到的这种大模型“性能悖论”我们并不陌生。这也是AGI评估领域一个长期存在的难题——如何区分大模型“真正的推理能力”与“刷题型能力”。

  而ARC-AGI-2的出现正好打破了这一难题。ARC-AGI-2的全称为“Abstraction and Reasoning Corpus for Artificial General Intelligence 2”,旨在评估AI系统是否具备类人抽象与推理能力,而非仅靠记忆或模式匹配完成任务。

GPT-5.2相关新闻配图
GPT-5.2相关新闻配图

什么是ARC-AGI-2?

  ARC-AGI-2是一套专为衡量通用人工智能(AGI)能力而设计的基准测试集。它要求模型在未见过的任务中进行抽象、归纳和泛化,而非依赖训练数据中的重复模式。因此,该测试被认为是更接近人类智能本质的评估方式。

OpenAI的警示:能力已过剩

  尽管GPT-5.2在ARC-AGI-2上超越人类,OpenAI却发出警告:当前大模型的能力可能已经“过剩”。这意味着模型在特定任务上的表现虽强,但在真实世界复杂场景中的泛化能力仍有限。真正的AGI不应只是“高分低能”的刷题机器。

“真正的推理能力”与“刷题型能力”的区别,是通往AGI的关键门槛。

AGI的天花板不是AI,而是评估标准

  业内专家指出,当前AI发展的瓶颈并非技术本身,而是缺乏有效的评估体系。ARC-AGI-2等新基准的出现,或许能推动行业从“参数竞赛”转向“能力验证”,从而更接近通用人工智能的目标。

本文转载自cnBeta/新智元, 作者:cnBeta/新智元, 原文标题:《 GPT-5.2考赢人类 OpenAI警告大模型能力已过剩 》, 原文链接: https://www.tg-me.com/cn/telegram/com.AI_News_CN/28800。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅