#金石焕新程# 垃圾数据比没有数据更可怕

现在人人都谈大模型,谈算力,但有个东西,如果出了问题,再强的算力、再牛的算法也救不回来,那就是数据质量。在AI行业,数据质量第一,算力第二,算法第三。垃圾数据就像是喂给AI的垃圾食品,它会让模型产生自己很牛的幻觉,而实际上,可能是在原地踏步甚至倒退。

想象一下,一个团队花了半年时间训练模型,看到评估指标节节攀升,结果最后发现,无论是训练数据还是评估数据都是一坨屎。这半年的所谓进展,全是假象。

在某些排行榜上,有时候模型排名高,不是因为它更聪明,可能只是因为它学会了用更多表情包、写更长的废话来讨好人类投票者。并且,很多所谓的AI数据公司,本质上只是人体作坊,他们没有任何技术去衡量和保证数据的质量,只是把招来的人直接打包卖给客户,这在训练模型的人看来,简直是灾难。
展开
不摸鱼的老陈于2025-08-20 02:01发布的图片
评论