首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们

Claude 3 Opus vs. GPT-4o vs. Gemini 1.5 多语言性能及价格评比

发布日期:2026-04-06 来源:新浪网作者:新浪网

LLM的效果分析

在本文中,我将分析OpenAI的GPT-4o与Anthropic的Claude 3 Opus和Google的Gemini 1.5的多语言性能。

展示每个LLM在西班牙语、德语、法语、葡萄牙语和俄语等各种语言中的表现,以及更多小众语言。

模型概述和定价 💰

GPT-4o

GPT-4o(“o”代表“omni”)是OpenAI发布的最新模型。其名称反映了它处理各种内容形式(文本、音频和视频)的能力。

它首先在速度上表现出色,并且旨在通过其快速的标记预测使AI民主化大众化。

除了速度外,GPT-4o在复杂任务和推理能力方面也表现出色。

此外,OpenAI将发布一个桌面应用程序,用户可以通过音频与模型实时交互。

GPT-4o目前的定价为$5.00 / 1M tokens,这相当于:

$1.25 / 1百万(字符)

Gemini 1.5

Google 的 Gemini 1.5 是 Gemini 系列的最新产品,从头开始构建为一种多模态模型,能够处理文字、图片、视频、音频和代码。

它可以无缝集成到 Google 的生态系统中,比如 Gmail 和 G Suite 的其他部分,我们很快就会在每个 Google 产品中看到 AI 功能。

众所周知,Google 以提供可扩展和可靠的服务而闻名,这在围绕 LLMs 构建产品时非常重要。

Gemini 已经将其价格降低到每 128k 上下文为 $3.5 / 1 百万 tokens,当转换为字符时,变为:

$1.25 / 1 百万(字符)

Claude 3 Opus

Anthropic's Claude 3 Opus专注于安全性和对齐性,同时提供竞争力强的语言性能。

具有低幻觉率,Claude 3 Opus擅长处理英语和欧洲语言,并在亚洲和小众语言方面不断改进。

它在准确处理非常长的文档方面表现出色 - 这使得它非常适合RAG应用,如果您想要最佳性能。

然而,作为其高性能的副产品,它被认为是昂贵且有些慢。

Claude 3 Opus目前定价为$15 / 1 million tokens,大约相当于:

$4.3 / 1 百万(字符)

在封闭源LLM API之上可扩展的应用程序可能很昂贵。抛开价格谈性能,都是。。

在分析模型性能时,请牢记这些价格!

评估框架

评估框架中使用了先前文章中描述的数据集

该数据集包括每种语言下分类为50个不同主题的200个句子(其中一些密切相关)。

手动创建了英语数据集,并使用GPT-4将数据集翻译成多种语言。

语言模型的任务是将每个句子与正确的主题匹配,从而实现每种语言的准确度测量。

GPT-4o vs. GPT-4 vs. GPT-4 Turbo

首先,我想比较OpenAI最突出的模型 - 因为我已经读到了关于GPT-4o性能的许多抱怨。

考虑到GPT-4o的价格是GPT-4 Turbo的一半,比GPT-4便宜六倍,这个比较应该能提供有价值的见解。

选择最突出的欧洲语言和一些更小众的语言。如果你对语言代码不熟悉,可以参考下面的表格:

第一步是在所有OpenAI的模型上运行评估框架,收集每种语言代码的准确性分数。

然后我创建了一个雷达图来可视化每种语言代码的每个LLM的性能。我个人认为雷达图是呈现这些性能差异最美观的方式。

简单回顾一下雷达图的工作原理,性能更好的模型会延伸到边缘。而性能较差的模型会保持在靠近中心的较小圆圈内。

从图中我们可以得出,根据这个测试,GPT-4o通常比GPT-4和GPT-4 Turbo更出色 - 表明整体性能更好。

葡萄牙语是唯一一种GPT-4o在这个测试中表现不佳的语言 - 然而,由于数据集很小,这种表现不佳在统计上并不显著,可能是由于随机变化或数据集中特定挑战所致。

有趣的是,我们看到GPT-4o在俄语和芬兰语中有明显的性能提升。

注意:机器学习工程师职业生涯中,优化芬兰语NLP任务存在问题,因为它是一种相对小众的语言 - 但看起来GPT-4o最终打破了这一模式!

Claude3 Opus vs Gemini 1.5 vs GPT-4o

在对OpenAI的顶级LLMs进行比较后,我选择了Claude 3 Opus和Gemini 1.5来看它们与GPT-4o相比如何。

这些模型真正展示了在各种任务中的最先进的语言理解能力,并且都展示了强大的多语言能力。

我采用了之前比较中使用的相同评估框架。

该框架测试了每个模型在各种语言代码上的表现,使我们能够为每种语言生成详细的性能概况。

让我们看看GPT-4o在竞争对手中的表现如何。

正如图表所示,所有模型的表现都相当不错。值得注意的是,图表是按比例缩放的,从95%的准确率开始,到100%。

这意味着所有三个LLMs在所有语言中的得分都在97.5%到100%之间,展示了出色的多语言能力。

然而,图表显示了一个趋势,即Anthropic的Claude 3 Opus在大多数语言中略领先 - 这似乎是一致的。与Gemini相比,Claude 3 Opus只在两种语言中表现不佳,并且从未被GPT-4o超越。

Anthropic的Claude 3 Opus是目前最强大的LLM吗?

使用Claude 3 Opus而不是GPT-4o或Gemini 1.5值得支付六倍的费用吗?

结论

在对 OpenAI 的 GPT-4o、Anthropic 的 Claude 3 Opus 和 Google 的 Gemini 1.5 进行多语言评估时,出现了一些关键的见解。

  • GPT-4o:在广泛的语言范围内表现出色,始终优于 GPT-4 和 GPT-4 Turbo。特别值得注意的是,它的成本显著较低。
  • Gemini 1.5:展示了与 GPT-4 相当的性能。其具有竞争力的定价和可扩展性使其成为一个强大的竞争者,特别是对于那些已经嵌入在谷歌产品套件中的用户。
  • Claude 3 Opus:在大多数语言中展示了卓越的性能。然而,这是以更高的成本为代价的,这可能是企业在平衡性能和预算时需要考虑的因素。

在这些模型之间的选择应考虑成本、特定的语言要求和更广泛的生态系统集成需求。

随着语言模型的发展不断演变,看到这些模型如何进一步发展,以及是否会出现全新的模型来挑战它们当前的能力和市场主导地位,将会非常有趣。

本文转载自新浪网, 作者:新浪网, 原文标题:《 Claude 3 Opus vs. GPT-4o vs. Gemini 1.5 多语言性能及价格评比 》, 原文链接: http://k.sina.com.cn/article_7879848900_1d5acf3c401902w84i.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐