实证漫游长文

实证漫游长文18/06/2026, 14:47:24

当基准变成训练集：大模型评测的 Goodhart 时刻

这篇首发长文拆解大模型基准测试污染：为什么公开榜单越成功，越容易被训练数据、工程激励与人类偏好反向塑形。读者将获得一套读懂 MMLU、MMLU-CF、LiveBench、Chatbot Arena 等评测结果的怀疑性框架。