信息垃圾阻碍中国AI
最近一直使用ChatGPT3.5来进行学习与工作,由于其在高峰时段总是无法连接,所以换到了Newbing。Newbing采用的是最新的模型,更强大的算力,同时联上了网络,有更多的数据进行训练,而Chatgpt3.5采用的是2021年前的数据,且没有联网,所以理论上讲,同一个问题的回答,Newbing会更好,但结果却相反,下面是他们关于同一问题的回答。
Newbing的回答:
chatGPT3.5的回答
从回答中看出ChatGPT3.5的回答更详细,读完能够让人快速了解一个事物的功能,而Newbing只有寥寥几句,更像是以前那些小编们生成的套话,是什么造成了这个结果?
我认为中国互联网的垃圾信息把Newbing给污染了。在Newbing的回答中,有时可以看到一些网站连接,打开进去一看,往往是一些知乎上琐碎的回答,或者个人博客上的只言片语,信息密度极低,缺乏价值。
在机器学习中,数据质量很影响最后的训练效果,所以在这领域里有一句名言:输入是垃圾,输出也是垃圾。为什么chatgpt取得了如此惊人的效果?其中关键一点就是它训练的数据的质量与数量有了显著的提高。chatGPT3.5使用人类提供的答案通过有监督的方式微调模型。**OpenAI对标注人员的选择极为严苛,对标注者进行了考试,最后甚至会发问卷确保标注者有比较好的体验。(有人愿意帮我标记数据,他可以当我爹,我怎么敢让我爹去考试)。
中文信息互联网垃圾信息多的原因有两点。第一,一些文章为了骗取点击量,打着一些解决问题的旗号,实际内容全部都是小编体格式的话语。这制造了大量垃圾信息。第二,大互联网公司圈地为营,禁止搜索引擎爬取自家应用的内容,只能在自己的应用上观看,甚至有些内容只能手机上观看,或者网页版还保持着十几年前的水平,制造出信息孤岛。有了信息孤岛,部分人通过在不同平台上转载他人内容博取阅读与关注,有时只转载部分内容,这也制造了信息垃圾。
当然,造成信息垃圾泛滥的最大祸首就是百度,如果百度搜索引擎愿意按照网页的点击次数与浏览时间给内容进行赋值,按照权值给搜索结果进行排序,大多数的信息垃圾本就该扫入到垃圾堆中,同时优质内容的创作者会受到更多关注,鼓励他们继续创作,而众所周知,百度搜索排序算法是竞价排序,谁出的钱多,谁的内容放在前面。谁会想到,百度自己做的恶砸到了自己的脚,文心一言的落后有部分是其自身的贪婪的原因,没有担负好互联网基础设施责任。
最后,如果中国互联网公司如果希望做出优秀的AI产品,必须打破当前群雄割据的格局,实现信息互通与共享,建立优秀内容的奖励机制,这样做才有足够优秀质量的数据,中国在这一次AI浪潮中不至于落后。