智算多多



简单来说,LLM 基准测试就是一套标准化的"考试体系"。它准备好题目、规定评分规则,让模型作答,最终给出一个可量化的分数。
这件事之所以重要,是因为大模型的能力极其多元——它要写代码、做数学、翻译语言、回答常识题、甚至进行多轮对话。如果没有统一的测量框架,不同模型之间的比较就会变成"公说公有理"的口水战。基准测试的存在,让研究者能够客观地找到模型的弱点,指导后续的训练方向;也让开发者在选型时有据可依,而不是凭直觉拍板。
在分类上,研究者通常从两个维度来看一个基准测试:一是评估标准——衡量的是客观事实(即有明确对错的"真实情况"),还是主观的人类偏好;二是问题来源——题库是固定的静态集合,还是在真实交互中实时生成的。很多基准测试会横跨这两个维度。
整个流程分三步:
设置阶段,测试框架准备好数据集,涵盖编程挑战、数学题、科学问答、现实对话等各种类型,任务清单也同步就位。
测试阶段,模型以三种方式之一接受测试:给少量示例再作答(少样本)、完全不给示例直接作答(零样本),或者先在相关数据上微调再测(微调)。三种方式侧重考察的能力各有不同——零样本最能体现模型的泛化能力,微调则最能体现针对性能力的上限。
评分阶段,系统将模型的输出与标准答案进行比对,最终生成 0 到 100 之间的分数。部分基准测试还引入人工评估,以捕捉连贯性、相关性这类难以量化的维度。
市面上的主流基准测试大致可以分为几个方向,每一个背后都有独特的设计逻辑。
覆盖范围最广,也是最常被引用的一类。ARC(AI2 推理挑战)以超过 7000 道小学自然科学题为题库,分为"简单组"和"挑战组"两档难度,计分直接:答对得 1 分,给出多个答案且其中一个正确则按比例给分。MMLU 则是名副其实的"全科联考"——57 个学科、超过 15000 道选择题,从 STEM 到人文社科无所不包,仅在少样本和零样本设置下评测,最终取各科准确率的平均值作为总分。GSM8K 专攻数学推理,8500 道小学数学单词题要求模型用自然语言写出解题过程而非直接给出数字,并由 AI 验证器来判断解题逻辑是否正确。
随着 AI 辅助编程的兴起,这一方向受到的关注与日俱增。HumanEval 给出编程题,用单元测试通过率作为判分标准,其核心指标"Pass@k"描述的是:在 k 个生成方案中,至少有一个能通过测试的概率——这与真实开发者验证代码的逻辑高度一致。MBPP(Mostly Basic Python Problems)包含 900 余道编码任务,同样以测试用例通过率为准,并额外统计"任意样本解决问题的比例"与"各自解决对应任务的比例"两个维度。SWE-bench 则更贴近生产实战,模型的任务是直接修复真实代码库中的 bug 或响应功能请求,评估指标是成功解决的任务实例比例。
考察模型在真实交互场景下的表现。MT-Bench 设计了编码、推理、数学、写作、角色扮演等八个领域共 80 道开放式多轮问题,由 GPT-4 担任"评审"来打分——用一个大模型评估另一个大模型,本身就是一种颇具争议又不得不采用的务实方案。Chatbot Arena 的思路则截然不同:让真实用户与两个匿名模型同时对话,对话结束后投票选出更满意的一方,再通过统计方法汇总成排名。这套"真人盲测"机制让它成为目前最接近用户真实体感的评测平台之一。
考察模型对世界的基本认知。HellaSwag 让模型从多个选项中选出最合理的句子结尾,关键在于那些"错误答案"并非显而易见的废话,而是经过对抗筛选算法精心生成的"看似合理但实则荒谬"的干扰项,专门迷惑浮于表面的模型。Winogrande 在经典 Winograd 挑战赛的基础上扩展到 44000 道众包题,同样引入对抗筛选,以准确率为最终评分标准。
专门盯着模型的"幻觉"问题。TruthfulQA 在 38 个主题上准备了 800 余道问题,评估模型能否给出真实而非"听起来很合理"的回答。它将人工评估与经 BLEU、ROUGE 指标微调的 GPT-3 结合使用,以预测人类对信息真实性和有用性的判断——毕竟"说了什么"和"说得对不对",是两件完全不同的事。
不同任务用不同指标。翻译任务用 BLEU,计算模型译文与人工译文在词序上的吻合程度;摘要任务用 ROUGE,重点看关键信息有没有被保留;分类任务用准确率与召回率,F1 分数则把两者融为一体,平衡误判与漏判。
值得注意的是,单一指标从来不够全面。实践中,通常将多个量化指标结合使用,再辅以人工定性评估,才能得到相对可靠的综合判断。
这里是最关键、也最容易被忽视的部分。
LLM 排行榜的存在是有价值的,它提供了一种快速比较多个模型的方式。Hugging Face 的开放式 LLM 排行榜就综合了 ARC、HellaSwag、MMLU、GSM8K、TruthfulQA 和 Winogrande 六项基准,影响力颇大。
但读排行榜要有自己的判断:这个排行榜涵盖的基准,与你的实际场景匹配吗?模型是否可能在这些特定题库上做了针对性训练?人工评估的权重够不够?
最终,基准测试是辅助决策的工具,不是终点。真正重要的,永远是把模型放进你自己的业务场景里跑一跑。数字之外的那部分,才是真功夫所在。
