当前位置: 首页 > 行业资讯 > 资讯详情

Claude Opus 4.8发布72小时独立评测：编程碾压全科第四

发布日期：2026-06-02 来源：新浪财经/市场资讯作者：新浪财经/市场资讯

Claude Opus 4.8 第三方评测数据解析

　　Claude Opus 4.8 上线 72 小时，独立评测机构的成绩单陆续出炉。Artificial Analysis 综合智能指数第一，LiveBench 全科排名第四。同一个模型，两份榜单，不同的故事。

编程领域：统治力显著但存在分歧

　　Claude Opus 4.8 在编程领域的统治力，没有争议。

　　SWE-Bench Pro 69.2%，GPT-5.5 58.6%，Gemini 3.1 Pro 54.2%。超过 10 个百分点的差距，在这种难度的基准里，基本等于代差。

　　不过 LiveBench 的编程子项，画面稍有不同。Coding Average 上 GPT-5.5 82.47，Claude Opus 4.8 79.27，OpenAI 反而领先。Agentic Coding 子项里 Claude 拿了 60 分，赢了 GPT-5.5 的 56.67，但落后于 GPT-5.4（70）和 Gemini 3.1 Pro（65）。

真实工作场景表现：效率与质量双提升

　　Artificial Analysis 的 GDPval-AA 真实工作评测给出了更极端的数据。1890 Elo 分，领先 GPT-5.5 121 分。换算成胜率，大约 67% 的概率赢 GPT-5.5。而且完成同等任务，Opus 4.8 比 4.7 少用了 35% 的输出 token，对话轮次也减少了 15%。

　　干活更快，还更省。

全科综合能力：LiveBench 排名第四

　　但全科排名，故事就不一样了。

　　LiveBench 是一套专门针对「数据污染」设计的评测。题目定期更新，答案可验证，不需要 LLM 当裁判。入选了 ICLR 2025 Spotlight Paper，最近一次题库更新是 2026 年 1 月 8 日。

　　在 LiveBench 全科排名里，Claude Opus 4.8 Thinking xHigh Effort 综合得分 77.22。

　　排在它前面的有三个模型。

GPT-5.5 Thinking xHigh Effort，80.71。第一。
GPT-5.4 Thinking xHigh Effort，80.28。第二。
Gemini 3.1 Pro Preview High，79.93。第三。

　　Claude Opus 4.8，第四。

　　和第一名 GPT-5.5 差了 3.49 分，和第三名 Gemini 3.1 Pro 差了 2.71 分。

　　数学（Mathematics Average），GPT-5.5 96.32，Claude Opus 4.8 84.32。差了 12 分。GPT-5.4 和 Gemini 3.1 Pro 分别是 94.15 和 91.04，都在 Claude 前面。

　　指令遵循（IF Average），Gemini 3.1 Pro 79.10，GPT-5.5 73.04，Claude Opus 4.8 67.45。Claude 在这项上的差距更大。

　　推理（Reasoning Average）是 Claude 的强项。Claude Opus 4.8 89.71，仅次于 GPT-5.4 的 88.12，超过了 GPT-5.5 的 87.71。

　　编程（Coding Average）GPT-5.5 82.47，Claude Opus 4.8 79.27。LiveBench 的编程测试里 GPT-5.5 更强。这和 SWE-Bench Pro 的结果不完全一致。

Artificial Analysis 综合智能指数：登顶第一

　　Artificial Analysis 则给出了一个不同的全科排名。

　　在他们的综合智能指数（Intelligence Index）里，Claude Opus 4.8 拿下 61.4 分，超过 GPT-5.5 的 60.2 分，登顶第一。比上一代 Opus 4.7 提升了 4.1 分。

　　这个指数覆盖 GDPval-AA、Humanity's Last Exam、Terminal-Bench、SciCode 等多个维度。Claude 在 GDPval-AA（真实工作任务）和 HLE（跨学科极难题）上的优势太大，拉高了总分。

　　Humanity's Last Exam，Claude Opus 4.8 领先一个百分点。这个基准包括全球专家出的 2500 道题，三家跑出来差距只有 1-2 个百分点，可以算是贴身肉搏。

　　科学推理也有进步。在 CritPt（物理学前沿评测）上超过了 Gemini 3.1 Pro，但仍然落后于 GPT-5.4 Pro（30.0%）和 GPT-5.5 Pro（30.6%）。

　　幻觉率维持在 35.9%，在「诚实、不瞎编」这件事上 Claude Opus 4.8 做得确实不错。

其他基准与社区反馈

　　LMArena 目前还没有 Opus 4.8 的排名数据。毕竟模型上线才 72 小时，投票样本还不够。上一代 Opus 4.7 Thinking 在 Coding Arena 排第一，Text Arena 排第二（低于上上代的 Opus 4.6 Thinking）。Opus 4.8 的具体数据大概率还要等一到两周。

　　Terminal-Bench 2.1，GPT-5.5 78.2%，Claude Opus 4.8 74.6%。命令行操作这个场景，OpenAI 还是第一。但比 Opus 4.7 的 66.1% 进步了 8.5 个百分点，差距在缩小。

　　GPQA Diamond（研究生级别科学推理），御三家都在 93-94% 区间。这个榜单快饱和了，拉不开差距。

结论

　　编程和 Agent 方向，Claude Opus 4.8 理论上是当前最强，但 GPT-5.5 和它相比，差距不算大。

　　如果看全科综合能力，LiveBench 的数据更为客观。GPT-5.5 各方面更均衡，Gemini 3.1 Pro 在语言和指令遵循上更强。

　　Claude Opus 4.8 还是那个偏科生。

　　Opus 4.8 上线当天，就有用户发现通过 API 调用时，模型会自称「通义千问」或「DeepSeek」。

　　三个月前，Anthropic 公开指控 DeepSeek、月之暗面和 MiniMax 对 Claude 发起「工业规模的蒸馏攻击」，声称有 2.4 万个虚假账户进行了超过 1600 万次交互。

　　三个月后，自家新模型在中文场景下「自曝」了。

　　Anthropic 官方至今没有回应。

　　不管是什么原因，这件事和成绩本身无关。但它给「反蒸馏」叙事增添了一丝尴尬。你指控别人偷你的数据，结果你的新模型开口第一句就是别人的名字。

　　a16z 联合创始人 Marc Andreessen 在社交媒体上吐槽，「如果蒸馏算犯罪，那人类历史上每一次师徒传承、每一场学术研讨会，是不是都该被起诉？」

　　42 天出一代新模型，编程能力甩开第二名 10 个百分点，真实工作评测登顶。

　　代价是全科排名第四，语言、数学和指令遵循的短板还没补上来。

本文转载自新浪财经/市场资讯，作者：新浪财经/市场资讯，原文标题：《 Claude Opus 4.8发布72小时独立评测：编程碾压全科第四》，原文链接： http://m.163.com/dy/article/KUCLDNAL05568W0A.html。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号