探索DeepSeek时无意中发现两个“小插曲”,这也让我有所感悟:人是被环境塑造的,模型是被数据塑造的。
插曲一,我不知道和我对话的是DeepSeek的哪个版本,于是问了一句,然后模型回答它是GPT-4。???当时有点懵,DeepSeek和GPT是一家吗?于是到网上一搜,发现有不少人遇到了这个问题,可能是DeepSeek使用了GPT产出的数据来训练的原因。
插曲二,看到一个人在社交平台上的分享,他向DeepSeek陈述代码问题时,模型不耐烦了:“你说的俺明白,不用重复给我看了OK?”...... 有网友蛮幽默地说可能模型训练使用了Stack Overflow评论区的数据。
市场调研机构Gartner预计到2025年由AI生成的数据将占所有数据的10%!有90%的在线数据由AI生成。
所以,我们要更加注意AI训练数据的问题,比如,用AI产生的数据来训练AI 会有什么结果?