当前位置: 首页 > 政策资讯 > 资讯详情

Claude 3 Opus vs. GPT-4o vs. Gemini 1.5 多语言性能及价格评比

发布日期：2026-04-06 来源：新浪网作者：新浪网

LLM的效果分析

在本文中，我将分析OpenAI的GPT-4o与Anthropic的Claude 3 Opus和Google的Gemini 1.5的多语言性能。

展示每个LLM在西班牙语、德语、法语、葡萄牙语和俄语等各种语言中的表现，以及更多小众语言。

模型概述和定价 💰

GPT-4o

GPT-4o（“o”代表“omni”）是OpenAI发布的最新模型。其名称反映了它处理各种内容形式（文本、音频和视频）的能力。

它首先在速度上表现出色，并且旨在通过其快速的标记预测使AI民主化大众化。

除了速度外，GPT-4o在复杂任务和推理能力方面也表现出色。

此外，OpenAI将发布一个桌面应用程序，用户可以通过音频与模型实时交互。

GPT-4o目前的定价为$5.00 / 1M tokens，这相当于：

$1.25 / 1百万（字符）

Gemini 1.5

Google 的 Gemini 1.5 是 Gemini 系列的最新产品，从头开始构建为一种多模态模型，能够处理文字、图片、视频、音频和代码。

它可以无缝集成到 Google 的生态系统中，比如 Gmail 和 G Suite 的其他部分，我们很快就会在每个 Google 产品中看到 AI 功能。

众所周知，Google 以提供可扩展和可靠的服务而闻名，这在围绕 LLMs 构建产品时非常重要。

Gemini 已经将其价格降低到每 128k 上下文为 $3.5 / 1 百万 tokens，当转换为字符时，变为：

$1.25 / 1 百万（字符）

Claude 3 Opus

Anthropic's Claude 3 Opus专注于安全性和对齐性，同时提供竞争力强的语言性能。

具有低幻觉率，Claude 3 Opus擅长处理英语和欧洲语言，并在亚洲和小众语言方面不断改进。

它在准确处理非常长的文档方面表现出色 - 这使得它非常适合RAG应用，如果您想要最佳性能。

然而，作为其高性能的副产品，它被认为是昂贵且有些慢。

Claude 3 Opus目前定价为$15 / 1 million tokens，大约相当于：

$4.3 / 1 百万（字符）

在封闭源LLM API之上可扩展的应用程序可能很昂贵。抛开价格谈性能，都是。。

在分析模型性能时，请牢记这些价格！

评估框架

评估框架中使用了先前文章中描述的数据集

该数据集包括每种语言下分类为50个不同主题的200个句子（其中一些密切相关）。

手动创建了英语数据集，并使用GPT-4将数据集翻译成多种语言。

语言模型的任务是将每个句子与正确的主题匹配，从而实现每种语言的准确度测量。

GPT-4o vs. GPT-4 vs. GPT-4 Turbo

首先，我想比较OpenAI最突出的模型 - 因为我已经读到了关于GPT-4o性能的许多抱怨。

考虑到GPT-4o的价格是GPT-4 Turbo的一半，比GPT-4便宜六倍，这个比较应该能提供有价值的见解。

选择最突出的欧洲语言和一些更小众的语言。如果你对语言代码不熟悉，可以参考下面的表格：

第一步是在所有OpenAI的模型上运行评估框架，收集每种语言代码的准确性分数。

然后我创建了一个雷达图来可视化每种语言代码的每个LLM的性能。我个人认为雷达图是呈现这些性能差异最美观的方式。

简单回顾一下雷达图的工作原理，性能更好的模型会延伸到边缘。而性能较差的模型会保持在靠近中心的较小圆圈内。

从图中我们可以得出，根据这个测试，GPT-4o通常比GPT-4和GPT-4 Turbo更出色 - 表明整体性能更好。

葡萄牙语是唯一一种GPT-4o在这个测试中表现不佳的语言 - 然而，由于数据集很小，这种表现不佳在统计上并不显著，可能是由于随机变化或数据集中特定挑战所致。

有趣的是，我们看到GPT-4o在俄语和芬兰语中有明显的性能提升。

注意：机器学习工程师职业生涯中，优化芬兰语NLP任务存在问题，因为它是一种相对小众的语言 - 但看起来GPT-4o最终打破了这一模式！

Claude3 Opus vs Gemini 1.5 vs GPT-4o

在对OpenAI的顶级LLMs进行比较后，我选择了Claude 3 Opus和Gemini 1.5来看它们与GPT-4o相比如何。

这些模型真正展示了在各种任务中的最先进的语言理解能力，并且都展示了强大的多语言能力。

我采用了之前比较中使用的相同评估框架。

该框架测试了每个模型在各种语言代码上的表现，使我们能够为每种语言生成详细的性能概况。

让我们看看GPT-4o在竞争对手中的表现如何。

正如图表所示，所有模型的表现都相当不错。值得注意的是，图表是按比例缩放的，从95%的准确率开始，到100%。

这意味着所有三个LLMs在所有语言中的得分都在97.5%到100%之间，展示了出色的多语言能力。

然而，图表显示了一个趋势，即Anthropic的Claude 3 Opus在大多数语言中略领先 - 这似乎是一致的。与Gemini相比，Claude 3 Opus只在两种语言中表现不佳，并且从未被GPT-4o超越。

Anthropic的Claude 3 Opus是目前最强大的LLM吗？

使用Claude 3 Opus而不是GPT-4o或Gemini 1.5值得支付六倍的费用吗？

结论

在对 OpenAI 的 GPT-4o、Anthropic 的 Claude 3 Opus 和 Google 的 Gemini 1.5 进行多语言评估时，出现了一些关键的见解。

GPT-4o：在广泛的语言范围内表现出色，始终优于 GPT-4 和 GPT-4 Turbo。特别值得注意的是，它的成本显著较低。
Gemini 1.5：展示了与 GPT-4 相当的性能。其具有竞争力的定价和可扩展性使其成为一个强大的竞争者，特别是对于那些已经嵌入在谷歌产品套件中的用户。
Claude 3 Opus：在大多数语言中展示了卓越的性能。然而，这是以更高的成本为代价的，这可能是企业在平衡性能和预算时需要考虑的因素。

在这些模型之间的选择应考虑成本、特定的语言要求和更广泛的生态系统集成需求。

随着语言模型的发展不断演变，看到这些模型如何进一步发展，以及是否会出现全新的模型来挑战它们当前的能力和市场主导地位，将会非常有趣。

本文转载自新浪网，作者：新浪网，原文标题：《 Claude 3 Opus vs. GPT-4o vs. Gemini 1.5 多语言性能及价格评比》，原文链接： http://k.sina.com.cn/article_7879848900_1d5acf3c401902w84i.html。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议