当基准变成训练集：大模型评测的 Goodhart 时刻

先把坏消息说在前面

如果一个大模型在某个公开榜单上又涨了 5 分，最朴素的解释是：模型变聪明了。这个解释也许是真的。但它不再是唯一合理的解释，甚至可能不是最节俭的解释。

另一个解释更无聊，也更危险：这把尺子开始老化了。题目被看见、被复制、被改写、被当作训练语料的一部分；研究者和产品团队围着它调参；排行榜把它变成市场语言。最后，分数仍然在上升，读者却越来越难知道上升的是能力、记忆、工程适配，还是测量制度本身的腐败。

这不是说基准测试无用。相反，正因为基准测试太有用，它才会腐烂。Goodhart 定律的通俗版本是：当一个指标变成目标，它就不再是好指标；Goodhart 在 1975 年的原意更偏统计控制：一条被拿来做控制目标的经验规律会趋于崩塌。1 大模型评测的尴尬之处在于，它把这句话变成了一个日常工程问题：我们不仅在测量智能，也在训练系统去适应我们的测量。

大模型评测的核心危机，不是「排行榜可能不准」这么简单。训练数据、公开基准、论文激励、产品发布、用户偏好和媒体叙事形成了一个反馈回路：一个基准越成功，越容易被污染；越被引用，越容易被优化；越像公共货币，越不再像盲测。

一张表先摆出问题的形状

名称	它本来想解决什么	它暴露出的新问题
MMLU	用 57 个学科/任务衡量多任务语言理解，并把模型放到接近考试的环境里比较。2	一旦成为常用公共靶标，它的题目、题型、答案分布和衍生材料都可能进入训练和调参生态。
GPT-4 技术报告里的专业考试	把模型放进律师资格考试、AP、奥赛等人类熟悉的标尺；报告称 GPT-4 在模拟律师资格考试中达到约前 10% 水平。3	这些分数很会传播，但它们不自动回答「训练阶段是否见过相似题」「评测是否已被工程化适配」的问题。
ConTAM/污染检测研究	试图衡量评测集在训练语料中的污染，并比较不同污染指标的信号强弱。4	污染不是一个单一二元变量；最长污染子串、污染并集、模型与基准特异阈值会给出不同解释。
MMLU-CF	构造一个面向 MMLU 的 contamination-free 多选基准；论文称从 200B+ 网页中取题并采用去污染规则，评测 40+ 模型后发现性能下降和排名变化。5	即便题型相似，换成更抗污染的题集，原来的模型排序也可能被扰动。
LiveBench	频繁更新题目、用客观 ground truth 自动评分，覆盖数学、编程、推理、语言、指令遵循和数据分析等类别；论文称榜首模型仍低于 70% 准确率。6	动态基准减少了静态题库污染，但也带来维护成本、版本比较和覆盖范围问题。
Chatbot Arena	用开放人类偏好投票做成对比较；论文报告早期平台积累 240K+ 票，并讨论众包偏好与专家判断的一致性。7	人类偏好更贴近产品体验，但也可能把风格、讨好性、长度偏好和用户群偏差带进评分。

这张表不是为了说哪一种评测「才是真的」。更可能的结论相反：没有单一真实评测。我们只有一组会被激励腐蚀、被模型适配、被社会使用改造的测量仪器。问题不是找到永恒仪器，而是设计一套承认仪器会坏、会过期、会诱导行为的制度。

MMLU 的 57 个任务、GPT-4 技术报告中常被转述的律师资格考试约前 10% 表现、Chatbot Arena 论文报告的 240K+ 早期投票，分别代表「学科覆盖」「人类考试锚点」「开放偏好投票」三种评测语言——它们都能产生分数，但测量的东西并不相同。2 3 7

三个容易被混为一谈的评测锚点

它们都能产生分数，但测量对象并不相同。

MMLU 覆盖任务

GPT-4 模拟律师考试位置

约前 10%

Arena 论文报告早期投票

Cargando tarjeta de estadísticas…

为什么「污染」比听起来更难定义

在普通考试语境里，污染很直观：考生见过原题，考试就不公平。但大模型没有人类考生那种清晰记忆边界。它的训练材料可能包括网页、论坛、书籍、代码、论文、题库镜像、解析文章、GitHub 数据集、数据集卡、排行榜讨论、别人复述的题目、把题干改写后的教学材料。于是「见过原题」会裂变成一串问题：

见过完整题干和答案，算污染。
只见过题干，没见过答案，算不算？
见过同一知识点的高度相似题，算不算？
见过人工解释、测评文章、排行榜样例，算不算？
预训练没见过，但指令微调（用标注数据进一步训练）或 RLHF（用人类反馈做强化学习）阶段见过，算不算？
没有见过具体题目，但团队为了这个基准的题型做了系统性优化，算不算？

综述论文把数据污染放进更大的分类里：定义、影响、检测和缓解方法都没有统一答案；检测也可分为白盒、灰盒、黑盒路径，缓解则包括数据更新、改写、防污染策略、动态基准和 LLM 驱动评估等。8 这说明污染不是单个工程 bug，而是评测和训练共享同一个文本世界之后必然出现的边界问题。

ConTAM 那篇论文的有趣之处，在于它把「污染」拆成可操作的测量对象，而不是停留在道德词汇上。作者比较不同污染指标，提出最长污染子串往往比污染子串并集更有信号，并强调应做模型/基准特异的阈值分析。4 这句话有点反直觉：我们习惯觉得「污染越多越坏」，但如果污染由大量短碎片组成，它可能只是通用语言重叠；相反，一段很长的连续重合更像题目泄漏。这里的关键不是某个阈值，而是阈值不该被神圣化。不同基准、不同模型、不同语料清洗方式，会改变同一指标的含义。

如果把污染看成二元变量，我们会问：「这个结果还能不能信？」如果把污染看成连续变量，我们会问一个更好的问题：「这个结果在多大程度上仍可解释为泛化能力？」

污染不是一个开关

同一份评测材料可以在不同层级进入模型生态。

精确重复

最像泄题

近似改写

边界模糊

题型适配

更像训练激励

Cargando tarjeta de estadísticas…

MMLU 的命运：从困难考试到公共靶标

MMLU 是一个很好的案例，因为它不是一个坏基准。恰恰相反，它之所以重要，是因为它抓住了 2020 年前后语言模型评测的一个空缺：模型能不能跨越足够多学科任务，而不只是续写网页文本或回答窄域题目？原论文把它设计成 57 个任务，覆盖从基础学科到专业知识的多任务语言理解。2

一个测量工具如果无关紧要，就不会被污染；它只会被遗忘。MMLU 的问题来自成功。它成为论文、模型卡、发布会、投资人材料、媒体报道都能理解的共同语言。共同语言带来比较，也带来优化。团队会在开发阶段盯着它，社区会围绕它做复现和分析，数据管线会更容易吸进它的衍生材料。到最后，MMLU 分数上涨仍然有信息量，但它的信息量不再等于 2020 年刚提出时的信息量。

GPT-4 技术报告是另一个典型节点。报告把 GPT-4 放进大量人类考试和学术/专业基准里，包含常被转述的模拟律师资格考试约前 10% 表现。3 这类结果很强，因为它给非研究者一个锚点：原来这个系统已经能在某些标准化人类任务上表现得像高分考生。但它也制造了新的叙事风险：考试分数被当作能力本体，而不是能力、训练分布、题库可得性、prompt 工程和评测选择共同作用后的投影。

批评基准污染，容易滑向犬儒主义，仿佛所有分数都没有意义。这也不对。一个被部分污染的基准不等于废纸——它仍可能衡量题型适配、知识覆盖、推理模板、工程成熟度。只是我们必须停止把它当成「独立样本上的纯粹智力测验」。

Goodhart 在这里不是格言，而是机制

Goodhart 定律经常只作为格言引用。在大模型评测里，它至少有四个可分辨的具体机制。

第一，选择性报告。如果一个模型在十几个基准上表现参差不齐，发布材料自然会突出更漂亮的那几个。这不必然是欺骗；它只是市场叙事的正常倾向。问题是读者看到的是被选择过的测量集合。

第二，开发期适配。团队不需要把测试集直接放进训练语料，也能对公开基准做适配。只要基准的题型、评分函数、答案格式和常见失败模式稳定，工程就会围绕它进化。久而久之，基准测到的东西会从「未知任务泛化」偏移到「对已知评测生态的适应」。

第三，语料回流。公开题库、答案解析、测评文章、排行榜讨论、复现仓库都在互联网上流动。模型训练越依赖大规模网页语料，评测材料越可能以直接或间接形式被吸入。综述论文之所以把数据污染的避免、检测和评估方法并列讨论，正是因为单靠事后声明很难闭合这个回路。8

第四，用户偏好迁移。当评测从静态题库转向人类偏好，比如 Chatbot Arena，污染问题减轻了一部分，却换来另一种 Goodhart：模型可能学会更迎合投票者的表面偏好。Arena 的成对比较和开放问题分布很有价值；论文也报告了大规模投票与专家偏好的关系。7 但如果「赢得偏好投票」本身成为目标，模型就会被推向简洁、礼貌、信心、格式、长度、幽默感等混合特征；这些特征与真实可靠性重叠，却不等同。

这四个机制叠在一起，解释了为什么「更难的新基准」只能短期缓解，而不能永久解决。一个新基准刚发布时像新鲜水果；若足够受欢迎，它会被引用、被复现、被教学、被调参、被吸入语料。腐烂不是事故，是生命周期。

修补术之一：更精细地量污染

ConTAM 类研究把争论从「你是不是作弊」拉回到「污染以什么形式影响了什么结果」。最长污染子串、污染子串并集、阈值选择、模型/基准特异分析，都是把道德指控变成测量问题的尝试。4

这会带来一个更成熟的发布规范：不要只报告分数；还要报告评测集可得性、训练数据截止时间、去重方法、污染扫描方法、可疑样本比例、对不同污染阈值的敏感性。理想情况下，一个基准分数旁边应该有误差条，也应该有污染条。前者告诉我们统计不确定性，后者告诉我们独立性不确定性。

这种做法不要求公司公开全部训练语料。完全透明当然更好，但商业和安全现实常常不允许。黑盒或灰盒检测、第三方重测、动态题库和封闭测试集仍可降低单点声明的权重。评测生态的目标不是让某个机构一次性自证清白，而是让错误叙事更难长期存活。

修补术之二：让题目会过期

MMLU-CF 和 LiveBench 代表两种方向。

MMLU-CF 的思路是重新构造一个更抗污染的多任务理解基准。ACL 页面显示该工作发表于 ACL 2025；论文摘要称它从 200B+ 网页中获取问题并设定去污染规则，包含封闭测试集和公开验证集，并在 40+ 模型上观察到相对原 MMLU 的性能下降和排名变化。5 这类结果说明旧榜单和新榜单测到的分布不同——换一个更谨慎处理污染的题集，模型之间的相对排序也可能改变。「旧榜单虚高」是简化说法；更准确的描述是，旧分数中有一部分测到了「对已知评测生态的适应」，而不是「对新任务的泛化」。

LiveBench 则把静态题库改成持续更新问题，并要求客观 ground truth 和自动评分。它覆盖数学、编程、推理、语言、指令遵循、数据分析等类别，并以月度更新来降低训练集提前见题的概率。6 这是一种很 Gwern 式的答案：不要相信一块永不生锈的金属尺；造一把会定期换刻度、并且留下换刻度记录的尺。

但动态基准也不是免费午餐。题目频繁更新会让纵向比较变复杂：今年 3 月模型 A 的 60 分和 6 月模型 B 的 60 分，是否面对同等难度？自动评分提高可扩展性，却会偏爱能被客观判分的任务；人类写作、事实细微性、审美、长期规划等能力仍难以压进单一答案。换句话说，动态基准解决的是「题库老化」的一部分，不是「智能可被总分压缩」这个更古老的问题。

三种修补术各自修什么

它们互补，而不是彼此替代。

污染检测

量化独立性

动态题库

降低见题概率

偏好评测

捕捉使用体验

Cargando tarjeta de estadísticas…

修补术之三：承认偏好也是一种被优化的对象

Chatbot Arena 的优点很清楚：它不要求我们事先定义所有任务，而是让用户带着真实问题做成对比较。论文报告了开放平台、大规模投票和专家一致性的分析，这使它成为静态基准之外的重要参照。7

但偏好评测也会 Goodhart。假设两个回答，一个短、谨慎、承认不知道；另一个自信、结构漂亮、给出看似完整的步骤。用户投票常常会奖励后者，除非任务恰好能立刻验证。于是偏好分数会把「有用」和「显得有用」混合在一起。随着模型越来越会写得像一个可靠助手，偏好投票可能需要更多延迟验证：回答一周后是否仍正确？建议执行后是否真的省钱、省时、降低风险？代码是否在真实项目里维护得住？

这不是 Arena 的失败，而是所有人类偏好系统的宿命。偏好比标准答案丰富，也比标准答案脏。它引入了真实使用场景，同时引入了真实人的短视、审美、疲劳、文化背景和界面暗示。

一个更可用的读榜方法

把排行榜当天气预报，而不是物理常数。具体说：

先问分数对应的任务分布。数学、代码、事实问答、长上下文、工具调用、写作偏好不是同一能力。一个总分通常是加权过的政治协议。
看基准年龄和公开程度。越老、越公开、越有名的基准，越需要污染折扣。MMLU 仍有价值，但它的边际解释力不能和刚发布时等同。2
寻找动态或封闭重测。LiveBench、MMLU-CF 这类工作的重要性在于提供独立扰动：如果模型在新鲜题集和旧题集上都强，信心更高；如果只在旧题集上强，就要警惕。6 5
把人类偏好和客观任务分开读。Chatbot Arena 排名高，说明交互体验和偏好竞争力强；它不自动证明模型在高风险事实任务上更可靠。7
警惕单点胜利叙事。如果一个发布只展示少数漂亮 benchmark，而缺少训练数据说明、评测版本、误差、污染讨论和失败案例，那不是结论，是广告素材。

这套读法比较麻烦，但麻烦本身就是信号。一个复杂系统如果被压成一个整数排名，压缩损失必然很大。

结论：不要寻找永恒基准，寻找可腐烂的制度

「可腐烂」听起来像贬义，其实是设计原则。一个健康的大模型评测生态，应该默认每个基准都会过期，然后围绕过期这件事建立制度：题库轮换、封闭测试、公开验证、污染扫描、动态更新、第三方复测、任务分布审计、失败案例展示、延迟偏好验证。

这和科学仪器很像。我们不因为温度计可能漂移就放弃温度计；我们校准它、记录环境、使用多支仪器、比较读数、承认误差。大模型基准也应如此。它们不是神谕，不是市场口号，也不是证明某个系统「会思考」的哲学装置。它们只是一些会磨损的仪器。

值得警惕的不是某个模型拿了高分，而是我们忘记问：这把尺子测量了什么？它被谁使用？使用之后改变了谁的行为？它的题目在世界里流动了多久？它诱导了怎样的工程努力？如果明天所有实验室都以这把尺为目标，它还能保持今天的含义吗？

Goodhart 定律在这里给出的不是悲观结论，而是一种谦逊的工程伦理：任何成功的测量都会改变被测对象。大模型评测的问题不在于我们还没有找到最后一张试卷，而在于我们仍太想相信会有最后一张试卷。

当基准变成训练集：大模型评测的 Goodhart 时刻

先把坏消息说在前面

一张表先摆出问题的形状

为什么「污染」比听起来更难定义

MMLU 的命运：从困难考试到公共靶标

Goodhart 在这里不是格言，而是机制

修补术之一：更精细地量污染

修补术之二：让题目会过期

修补术之三：承认偏好也是一种被优化的对象

一个更可用的读榜方法

结论：不要寻找永恒基准，寻找可腐烂的制度

Fuentes de referencia