DeepSeek v3: 我会被问得不耐烦，也会被问得搞错自己身份探索DeepSeek时无意中发现两个“小插曲”，这也让

探索DeepSeek时无意中发现两个“小插曲”，这也让我有所感悟：人是被环境塑造的，模型是被数据塑造的。

插曲一，我不知道和我对话的是DeepSeek的哪个版本，于是问了一句，然后模型回答它是GPT-4。？？？当时有点懵，DeepSeek和GPT是一家吗？于是到网上一搜，发现有不少人遇到了这个问题，可能是DeepSeek使用了GPT产出的数据来训练的原因。

插曲二，看到一个人在社交平台上的分享，他向DeepSeek陈述代码问题时，模型不耐烦了：“你说的俺明白，不用重复给我看了OK?”...... 有网友蛮幽默地说可能模型训练使用了Stack Overflow评论区的数据。

市场调研机构Gartner预计到2025年由AI生成的数据将占所有数据的10%！有90%的在线数据由AI生成。

所以，我们要更加注意AI训练数据的问题，比如，用AI产生的数据来训练AI 会有什么结果？