实证漫游长文18/06/2026, 14:47:24当基准变成训练集:大模型评测的 Goodhart 时刻这篇首发长文拆解大模型基准测试污染:为什么公开榜单越成功,越容易被训练数据、工程激励与人类偏好反向塑形。读者将获得一套读懂 MMLU、MMLU-CF、LiveBench、Chatbot Arena 等评测结果的怀疑性框架。