首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

Claude Opus 4.8发布72小时独立评测:编程碾压全科第四

发布日期:2026-06-02 来源:新浪财经/市场资讯作者:新浪财经/市场资讯

Claude Opus 4.8 第三方评测数据解析

  Claude Opus 4.8 上线 72 小时,独立评测机构的成绩单陆续出炉。Artificial Analysis 综合智能指数第一,LiveBench 全科排名第四。同一个模型,两份榜单,不同的故事。

编程领域:统治力显著但存在分歧

  Claude Opus 4.8 在编程领域的统治力,没有争议。

  SWE-Bench Pro 69.2%,GPT-5.5 58.6%,Gemini 3.1 Pro 54.2%。超过 10 个百分点的差距,在这种难度的基准里,基本等于代差。

  不过 LiveBench 的编程子项,画面稍有不同。Coding Average 上 GPT-5.5 82.47,Claude Opus 4.8 79.27,OpenAI 反而领先。Agentic Coding 子项里 Claude 拿了 60 分,赢了 GPT-5.5 的 56.67,但落后于 GPT-5.4(70)和 Gemini 3.1 Pro(65)。

真实工作场景表现:效率与质量双提升

  Artificial Analysis 的 GDPval-AA 真实工作评测给出了更极端的数据。1890 Elo 分,领先 GPT-5.5 121 分。换算成胜率,大约 67% 的概率赢 GPT-5.5。而且完成同等任务,Opus 4.8 比 4.7 少用了 35% 的输出 token,对话轮次也减少了 15%。

  干活更快,还更省。

全科综合能力:LiveBench 排名第四

  但全科排名,故事就不一样了。

  LiveBench 是一套专门针对「数据污染」设计的评测。题目定期更新,答案可验证,不需要 LLM 当裁判。入选了 ICLR 2025 Spotlight Paper,最近一次题库更新是 2026 年 1 月 8 日。

  在 LiveBench 全科排名里,Claude Opus 4.8 Thinking xHigh Effort 综合得分 77.22。

  排在它前面的有三个模型。

  • GPT-5.5 Thinking xHigh Effort,80.71。第一。
  • GPT-5.4 Thinking xHigh Effort,80.28。第二。
  • Gemini 3.1 Pro Preview High,79.93。第三。

  Claude Opus 4.8,第四。

  和第一名 GPT-5.5 差了 3.49 分,和第三名 Gemini 3.1 Pro 差了 2.71 分。

  数学(Mathematics Average),GPT-5.5 96.32,Claude Opus 4.8 84.32。差了 12 分。GPT-5.4 和 Gemini 3.1 Pro 分别是 94.15 和 91.04,都在 Claude 前面。

  指令遵循(IF Average),Gemini 3.1 Pro 79.10,GPT-5.5 73.04,Claude Opus 4.8 67.45。Claude 在这项上的差距更大。

  推理(Reasoning Average)是 Claude 的强项。Claude Opus 4.8 89.71,仅次于 GPT-5.4 的 88.12,超过了 GPT-5.5 的 87.71。

  编程(Coding Average)GPT-5.5 82.47,Claude Opus 4.8 79.27。LiveBench 的编程测试里 GPT-5.5 更强。这和 SWE-Bench Pro 的结果不完全一致。

Artificial Analysis 综合智能指数:登顶第一

  Artificial Analysis 则给出了一个不同的全科排名。

  在他们的综合智能指数(Intelligence Index)里,Claude Opus 4.8 拿下 61.4 分,超过 GPT-5.5 的 60.2 分,登顶第一。比上一代 Opus 4.7 提升了 4.1 分。

  这个指数覆盖 GDPval-AA、Humanity's Last Exam、Terminal-Bench、SciCode 等多个维度。Claude 在 GDPval-AA(真实工作任务)和 HLE(跨学科极难题)上的优势太大,拉高了总分。

  Humanity's Last Exam,Claude Opus 4.8 领先一个百分点。这个基准包括全球专家出的 2500 道题,三家跑出来差距只有 1-2 个百分点,可以算是贴身肉搏。

  科学推理也有进步。在 CritPt(物理学前沿评测)上超过了 Gemini 3.1 Pro,但仍然落后于 GPT-5.4 Pro(30.0%)和 GPT-5.5 Pro(30.6%)。

  幻觉率维持在 35.9%,在「诚实、不瞎编」这件事上 Claude Opus 4.8 做得确实不错。

其他基准与社区反馈

  LMArena 目前还没有 Opus 4.8 的排名数据。毕竟模型上线才 72 小时,投票样本还不够。上一代 Opus 4.7 Thinking 在 Coding Arena 排第一,Text Arena 排第二(低于上上代的 Opus 4.6 Thinking)。Opus 4.8 的具体数据大概率还要等一到两周。

  Terminal-Bench 2.1,GPT-5.5 78.2%,Claude Opus 4.8 74.6%。命令行操作这个场景,OpenAI 还是第一。但比 Opus 4.7 的 66.1% 进步了 8.5 个百分点,差距在缩小。

  GPQA Diamond(研究生级别科学推理),御三家都在 93-94% 区间。这个榜单快饱和了,拉不开差距。

结论

  编程和 Agent 方向,Claude Opus 4.8 理论上是当前最强,但 GPT-5.5 和它相比,差距不算大。

  如果看全科综合能力,LiveBench 的数据更为客观。GPT-5.5 各方面更均衡,Gemini 3.1 Pro 在语言和指令遵循上更强。

  Claude Opus 4.8 还是那个偏科生。

  Opus 4.8 上线当天,就有用户发现通过 API 调用时,模型会自称「通义千问」或「DeepSeek」。

  三个月前,Anthropic 公开指控 DeepSeek、月之暗面和 MiniMax 对 Claude 发起「工业规模的蒸馏攻击」,声称有 2.4 万个虚假账户进行了超过 1600 万次交互。

  三个月后,自家新模型在中文场景下「自曝」了。

  Anthropic 官方至今没有回应。

  不管是什么原因,这件事和成绩本身无关。但它给「反蒸馏」叙事增添了一丝尴尬。你指控别人偷你的数据,结果你的新模型开口第一句就是别人的名字。

  a16z 联合创始人 Marc Andreessen 在社交媒体上吐槽,「如果蒸馏算犯罪,那人类历史上每一次师徒传承、每一场学术研讨会,是不是都该被起诉?」

  42 天出一代新模型,编程能力甩开第二名 10 个百分点,真实工作评测登顶。

  代价是全科排名第四,语言、数学和指令遵循的短板还没补上来。

本文转载自新浪财经/市场资讯, 作者:新浪财经/市场资讯, 原文标题:《 Claude Opus 4.8发布72小时独立评测:编程碾压全科第四 》, 原文链接: http://m.163.com/dy/article/KUCLDNAL05568W0A.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅