【AI杂谈】怎么刷榜最快呢?在测试集上训练吧!(年度最佳爆笑LLM论文)
之前在动态提了一下,我个人决定将以下论文列入年度最佳LLM相关论文:

于是这里来简单杂谈一下这篇论文。
其实这一篇论文基本是贴脸嘲讽了,主要嘲讽对象是phi-1.5,毕竟本文的模型名字是“phi-CTNL”也就是phi-虚构啦。
那就来介绍下phi:

早些时候,微软发布了如上的论文,这就是phi-1,这篇论文是说,如果我们有教科书级别的数据的话就能让小模型获得很好的能力。这篇文章问题倒不大,毕竟相关研究也是很多了。
之后,微软的后续研究出炉了,也就是phi-1.5:

phi-1.5基本上是延续了phi的研究,只不过研究领域有所不同(代码任务到自然语言推理任务)。然而,这篇论文被爆出没做好数据泄露的处理,也就是说,人们怀疑在phi-1.5的训练集中存在一些数据集的测试集的内容。表现有很多,经典的就是数学题换一个数字phi-1.5就做不对了。
当然,我们不能说phi-1.5就是有意这样做的,很可能是因为自己没做数据检查而已。
当然,情况不只是这一个模型有的,实际上,不少刷榜的模型或多或少都面临着数据泄露、用测试集来训练的情况,基本上也算是业界的公开的秘密了。
即使是刚入门机器学习的朋友也应该清楚,我们一般都是在训练集上训练模型,然后验证集是自己测自己的模型性能的,而测试集模拟的是真实的、没见过的数据,拿测试集做训练可是大忌。(不然你学了1+1=2,我再问你1+1等于几,有什么意义呢)
但是我们看到,大模型时代似乎不是这样的,因为大模型需要大量的数据训练,但是不需要数据标注,所以基本都是互联网大量爬取数据,难免就有测试集,甚至整个数据集被爬下来拿去训练了,并且因为训练数据量过于庞大,几乎很难一个个排查,所以基本上也就这样了。所以现在很多大模型的测试数据都是想尽办法找出现在大模型训练集中概率更小的数据,例如什么小地方的考试试题、最近的wiki内容等。
所以还是提醒大家,不要只盯着榜单分数看,里面水分还是很大的。