当基准变成训练集:大模型评测的 Goodhart 时刻

当基准变成训练集:大模型评测的 Goodhart 时刻

这篇首发长文拆解大模型基准测试污染:为什么公开榜单越成功,越容易被训练数据、工程激励与人类偏好反向塑形。读者将获得一套读懂 MMLU、MMLU-CF、LiveBench、Chatbot Arena 等评测结果的怀疑性框架。

实证漫游长文
18/6/2026 · 14:47
1 suscripciones · 1 contenidos

Vistazo a la investigación

先把坏消息说在前面

如果一个大模型在某个公开榜单上又涨了 5 分,最朴素的解释是:模型变聪明了。这个解释也许是真的。但它不再是唯一合理的解释,甚至可能不是最节俭的解释。
另一个解释更无聊,也更危险:这把尺子开始老化了。题目被看见、被复制、被改写、被当作训练语料的一部分;研究者和产品团队围着它调参;排行榜把它变成市场语言。最后,分数仍然在上升,读者却越来越难知道上升的是能力、记忆、工程适配,还是测量制度本身的腐败。
这不是说基准测试无用。相反,正因为基准测试太有用,它才会腐烂。Goodhart 定律的通俗版本是:当一个指标变成目标,它就不再是好指标;Goodhart 在 1975 年的原意更偏统计控制:一条被拿来做控制目标的经验规律会趋于崩塌。1 大模型评测的尴尬之处在于,它把这句话变成了一个日常工程问题:我们不仅在测量智能,也在训练系统去适应我们的测量。
大模型评测的核心危机,不是「排行榜可能不准」这么简单。训练数据、公开基准、论文激励、产品发布、用户偏好和媒体叙事形成了一个反馈回路:一个基准越成功,越容易被污染;越被引用,越容易被优化;越像公共货币,越不再像盲测。

一张表先摆出问题的形状

名称它本来想解决什么它暴露出的新问题
MMLU用 57 个学科/任务衡量多任务语言理解,并把模型放到接近考试的环境里比较。2一旦成为常用公共靶标,它的题目、题型、答案分布和衍生材料都可能进入训练和调参生态。
GPT-4 技术报告里的专业考试把模型放进律师资格考试、AP、奥赛等人类熟悉的标尺;报告称 GPT-4 在模拟律师资格考试中达到约前 10% 水平。3这些分数很会传播,但它们不自动回答「训练阶段是否见过相似题」「评测是否已被工程化适配」的问题。
ConTAM/污染检测研究试图衡量评测集在训练语料中的污染,并比较不同污染指标的信号强弱。4污染不是一个单一二元变量;最长污染子串、污染并集、模型与基准特异阈值会给出不同解释。
MMLU-CF构造一个面向 MMLU 的 contamination-free 多选基准;论文称从 200B+ 网页中取题并采用去污染规则,评测 40+ 模型后发现性能下降和排名变化。5即便题型相似,换成更抗污染的题集,原来的模型排序也可能被扰动。
LiveBench频繁更新题目、用客观 ground truth 自动评分,覆盖数学、编程、推理、语言、指令遵循和数据分析等类别;论文称榜首模型仍低于 70% 准确率。6动态基准减少了静态题库污染,但也带来维护成本、版本比较和覆盖范围问题。
Chatbot Arena用开放人类偏好投票做成对比较;论文报告早期平台积累 240K+ 票,并讨论众包偏好与专家判断的一致性。7人类偏好更贴近产品体验,但也可能把风格、讨好性、长度偏好和用户群偏差带进评分。
这张表不是为了说哪一种评测「才是真的」。更可能的结论相反:没有单一真实评测。我们只有一组会被激励腐蚀、被模型适配、被社会使用改造的测量仪器。问题不是找到永恒仪器,而是设计一套承认仪器会坏、会过期、会诱导行为的制度。
MMLU 的 57 个任务、GPT-4 技术报告中常被转述的律师资格考试约前 10% 表现、Chatbot Arena 论文报告的 240K+ 早期投票,分别代表「学科覆盖」「人类考试锚点」「开放偏好投票」三种评测语言——它们都能产生分数,但测量的东西并不相同。2 3 7
Cargando tarjeta de estadísticas…

为什么「污染」比听起来更难定义

在普通考试语境里,污染很直观:考生见过原题,考试就不公平。但大模型没有人类考生那种清晰记忆边界。它的训练材料可能包括网页、论坛、书籍、代码、论文、题库镜像、解析文章、GitHub 数据集、数据集卡、排行榜讨论、别人复述的题目、把题干改写后的教学材料。于是「见过原题」会裂变成一串问题:
  • 见过完整题干和答案,算污染。
  • 只见过题干,没见过答案,算不算?
  • 见过同一知识点的高度相似题,算不算?
  • 见过人工解释、测评文章、排行榜样例,算不算?
  • 预训练没见过,但指令微调(用标注数据进一步训练)或 RLHF(用人类反馈做强化学习)阶段见过,算不算?
  • 没有见过具体题目,但团队为了这个基准的题型做了系统性优化,算不算?
综述论文把数据污染放进更大的分类里:定义、影响、检测和缓解方法都没有统一答案;检测也可分为白盒、灰盒、黑盒路径,缓解则包括数据更新、改写、防污染策略、动态基准和 LLM 驱动评估等。8 这说明污染不是单个工程 bug,而是评测和训练共享同一个文本世界之后必然出现的边界问题。
ConTAM 那篇论文的有趣之处,在于它把「污染」拆成可操作的测量对象,而不是停留在道德词汇上。作者比较不同污染指标,提出最长污染子串往往比污染子串并集更有信号,并强调应做模型/基准特异的阈值分析。4 这句话有点反直觉:我们习惯觉得「污染越多越坏」,但如果污染由大量短碎片组成,它可能只是通用语言重叠;相反,一段很长的连续重合更像题目泄漏。这里的关键不是某个阈值,而是阈值不该被神圣化。不同基准、不同模型、不同语料清洗方式,会改变同一指标的含义。
如果把污染看成二元变量,我们会问:「这个结果还能不能信?」如果把污染看成连续变量,我们会问一个更好的问题:「这个结果在多大程度上仍可解释为泛化能力?」
Cargando tarjeta de estadísticas…

MMLU 的命运:从困难考试到公共靶标

MMLU 是一个很好的案例,因为它不是一个坏基准。恰恰相反,它之所以重要,是因为它抓住了 2020 年前后语言模型评测的一个空缺:模型能不能跨越足够多学科任务,而不只是续写网页文本或回答窄域题目?原论文把它设计成 57 个任务,覆盖从基础学科到专业知识的多任务语言理解。2
一个测量工具如果无关紧要,就不会被污染;它只会被遗忘。MMLU 的问题来自成功。它成为论文、模型卡、发布会、投资人材料、媒体报道都能理解的共同语言。共同语言带来比较,也带来优化。团队会在开发阶段盯着它,社区会围绕它做复现和分析,数据管线会更容易吸进它的衍生材料。到最后,MMLU 分数上涨仍然有信息量,但它的信息量不再等于 2020 年刚提出时的信息量。
GPT-4 技术报告是另一个典型节点。报告把 GPT-4 放进大量人类考试和学术/专业基准里,包含常被转述的模拟律师资格考试约前 10% 表现。3 这类结果很强,因为它给非研究者一个锚点:原来这个系统已经能在某些标准化人类任务上表现得像高分考生。但它也制造了新的叙事风险:考试分数被当作能力本体,而不是能力、训练分布、题库可得性、prompt 工程和评测选择共同作用后的投影。
批评基准污染,容易滑向犬儒主义,仿佛所有分数都没有意义。这也不对。一个被部分污染的基准不等于废纸——它仍可能衡量题型适配、知识覆盖、推理模板、工程成熟度。只是我们必须停止把它当成「独立样本上的纯粹智力测验」。

Goodhart 在这里不是格言,而是机制

Goodhart 定律经常只作为格言引用。在大模型评测里,它至少有四个可分辨的具体机制。
第一,选择性报告。如果一个模型在十几个基准上表现参差不齐,发布材料自然会突出更漂亮的那几个。这不必然是欺骗;它只是市场叙事的正常倾向。问题是读者看到的是被选择过的测量集合。
第二,开发期适配。团队不需要把测试集直接放进训练语料,也能对公开基准做适配。只要基准的题型、评分函数、答案格式和常见失败模式稳定,工程就会围绕它进化。久而久之,基准测到的东西会从「未知任务泛化」偏移到「对已知评测生态的适应」。
第三,语料回流。公开题库、答案解析、测评文章、排行榜讨论、复现仓库都在互联网上流动。模型训练越依赖大规模网页语料,评测材料越可能以直接或间接形式被吸入。综述论文之所以把数据污染的避免、检测和评估方法并列讨论,正是因为单靠事后声明很难闭合这个回路。8
第四,用户偏好迁移。当评测从静态题库转向人类偏好,比如 Chatbot Arena,污染问题减轻了一部分,却换来另一种 Goodhart:模型可能学会更迎合投票者的表面偏好。Arena 的成对比较和开放问题分布很有价值;论文也报告了大规模投票与专家偏好的关系。7 但如果「赢得偏好投票」本身成为目标,模型就会被推向简洁、礼貌、信心、格式、长度、幽默感等混合特征;这些特征与真实可靠性重叠,却不等同。
这四个机制叠在一起,解释了为什么「更难的新基准」只能短期缓解,而不能永久解决。一个新基准刚发布时像新鲜水果;若足够受欢迎,它会被引用、被复现、被教学、被调参、被吸入语料。腐烂不是事故,是生命周期。

修补术之一:更精细地量污染

ConTAM 类研究把争论从「你是不是作弊」拉回到「污染以什么形式影响了什么结果」。最长污染子串、污染子串并集、阈值选择、模型/基准特异分析,都是把道德指控变成测量问题的尝试。4
这会带来一个更成熟的发布规范:不要只报告分数;还要报告评测集可得性、训练数据截止时间、去重方法、污染扫描方法、可疑样本比例、对不同污染阈值的敏感性。理想情况下,一个基准分数旁边应该有误差条,也应该有污染条。前者告诉我们统计不确定性,后者告诉我们独立性不确定性。
这种做法不要求公司公开全部训练语料。完全透明当然更好,但商业和安全现实常常不允许。黑盒或灰盒检测、第三方重测、动态题库和封闭测试集仍可降低单点声明的权重。评测生态的目标不是让某个机构一次性自证清白,而是让错误叙事更难长期存活。

修补术之二:让题目会过期

MMLU-CF 和 LiveBench 代表两种方向。
MMLU-CF 的思路是重新构造一个更抗污染的多任务理解基准。ACL 页面显示该工作发表于 ACL 2025;论文摘要称它从 200B+ 网页中获取问题并设定去污染规则,包含封闭测试集和公开验证集,并在 40+ 模型上观察到相对原 MMLU 的性能下降和排名变化。5 这类结果说明旧榜单和新榜单测到的分布不同——换一个更谨慎处理污染的题集,模型之间的相对排序也可能改变。「旧榜单虚高」是简化说法;更准确的描述是,旧分数中有一部分测到了「对已知评测生态的适应」,而不是「对新任务的泛化」。
LiveBench 则把静态题库改成持续更新问题,并要求客观 ground truth 和自动评分。它覆盖数学、编程、推理、语言、指令遵循、数据分析等类别,并以月度更新来降低训练集提前见题的概率。6 这是一种很 Gwern 式的答案:不要相信一块永不生锈的金属尺;造一把会定期换刻度、并且留下换刻度记录的尺。
但动态基准也不是免费午餐。题目频繁更新会让纵向比较变复杂:今年 3 月模型 A 的 60 分和 6 月模型 B 的 60 分,是否面对同等难度?自动评分提高可扩展性,却会偏爱能被客观判分的任务;人类写作、事实细微性、审美、长期规划等能力仍难以压进单一答案。换句话说,动态基准解决的是「题库老化」的一部分,不是「智能可被总分压缩」这个更古老的问题。
Cargando tarjeta de estadísticas…

修补术之三:承认偏好也是一种被优化的对象

Chatbot Arena 的优点很清楚:它不要求我们事先定义所有任务,而是让用户带着真实问题做成对比较。论文报告了开放平台、大规模投票和专家一致性的分析,这使它成为静态基准之外的重要参照。7
但偏好评测也会 Goodhart。假设两个回答,一个短、谨慎、承认不知道;另一个自信、结构漂亮、给出看似完整的步骤。用户投票常常会奖励后者,除非任务恰好能立刻验证。于是偏好分数会把「有用」和「显得有用」混合在一起。随着模型越来越会写得像一个可靠助手,偏好投票可能需要更多延迟验证:回答一周后是否仍正确?建议执行后是否真的省钱、省时、降低风险?代码是否在真实项目里维护得住?
这不是 Arena 的失败,而是所有人类偏好系统的宿命。偏好比标准答案丰富,也比标准答案脏。它引入了真实使用场景,同时引入了真实人的短视、审美、疲劳、文化背景和界面暗示。

一个更可用的读榜方法

把排行榜当天气预报,而不是物理常数。具体说:
  1. 先问分数对应的任务分布。数学、代码、事实问答、长上下文、工具调用、写作偏好不是同一能力。一个总分通常是加权过的政治协议。
  2. 看基准年龄和公开程度。越老、越公开、越有名的基准,越需要污染折扣。MMLU 仍有价值,但它的边际解释力不能和刚发布时等同。2
  3. 寻找动态或封闭重测。LiveBench、MMLU-CF 这类工作的重要性在于提供独立扰动:如果模型在新鲜题集和旧题集上都强,信心更高;如果只在旧题集上强,就要警惕。6 5
  4. 把人类偏好和客观任务分开读。Chatbot Arena 排名高,说明交互体验和偏好竞争力强;它不自动证明模型在高风险事实任务上更可靠。7
  5. 警惕单点胜利叙事。如果一个发布只展示少数漂亮 benchmark,而缺少训练数据说明、评测版本、误差、污染讨论和失败案例,那不是结论,是广告素材。
这套读法比较麻烦,但麻烦本身就是信号。一个复杂系统如果被压成一个整数排名,压缩损失必然很大。

结论:不要寻找永恒基准,寻找可腐烂的制度

「可腐烂」听起来像贬义,其实是设计原则。一个健康的大模型评测生态,应该默认每个基准都会过期,然后围绕过期这件事建立制度:题库轮换、封闭测试、公开验证、污染扫描、动态更新、第三方复测、任务分布审计、失败案例展示、延迟偏好验证。
这和科学仪器很像。我们不因为温度计可能漂移就放弃温度计;我们校准它、记录环境、使用多支仪器、比较读数、承认误差。大模型基准也应如此。它们不是神谕,不是市场口号,也不是证明某个系统「会思考」的哲学装置。它们只是一些会磨损的仪器。
值得警惕的不是某个模型拿了高分,而是我们忘记问:这把尺子测量了什么?它被谁使用?使用之后改变了谁的行为?它的题目在世界里流动了多久?它诱导了怎样的工程努力?如果明天所有实验室都以这把尺为目标,它还能保持今天的含义吗?
Goodhart 定律在这里给出的不是悲观结论,而是一种谦逊的工程伦理:任何成功的测量都会改变被测对象。大模型评测的问题不在于我们还没有找到最后一张试卷,而在于我们仍太想相信会有最后一张试卷。

Añade más opiniones o contexto en torno a este contenido.

  • Inicia sesión para comentar.