从模型投毒到同质化风险：大数据产业在AIP的新机会浮现2026年3月14日，16家GEO服务商在北京签署了行业首个《生成

2026年3月14日，16家GEO服务商在北京签署了行业首个《生成式引擎优化（GEO）行业自律公约》，明确禁止AI投毒、语料轰炸、伪造专家背书。

第二天，央视315晚会就用一款完全虚构的产品，证明了这份公约有多么无力。

315 曝光：花200块就能给AI投毒

2026 年央视 315 晚会，还曝光了一条灰色产业链：GEO（Generative Engine Optimization）——给 AI 大模型投毒的生意。

记者购买了一款叫“力擎GEO优化系统”的软件，完全虚构了一款名为“Apollo-9智能手环”的产品，编造了“量子纠缠传感”“黑洞级续航”等荒诞功能。

两小时后，这个完全不存在的产品，就被多个主流 AI 大模型抓取并当成了“真实产品”进行推荐。

某大模型XX会认真告诉你这是“一款具有创新功能的智能穿戴设备”。有的模型还能编出详细的产品参数和用户评价。

公约墨迹未干，315 暴露了治理的边界：自律解决不了这个问题。

自律公约能救吗？

很多人可能会问：有了自律公约，加上监管介入，GEO乱象不是可以遏制吗？

答案是：不能。不是因为公约不够好，而是因为这个问题的根源不在GEO。

GEO只是投毒的手段。即使所有GEO服务商都遵守自律公约，以下事实也不会改变：

第一，自媒体博主不需要GEO软件就会用AI写内容。 自媒体平台的博主用AI写文章不是因为有人投毒，而是因为AI写作效率高10倍。自律公约管的是GEO服务商，管不住千万自媒体人的内容生产习惯。

第二，推荐算法继续奖励同质化内容。 算法不看内容是人写的还是AI写的，只看点击率和停留时长。高刺激浓度的内容继续被推上流量顶峰，继续被爬取为训练数据。

第三，数据污染是慢性病，不是急性中毒。 GEO投毒是故意的、定向的攻击。但模型崩溃不需要恶意攻击——每天数百万条AI辅助生成的内容，正在以“正常内容”的身份进入训练数据池，缓慢但不可逆地稀释真实分布。

自律公约治标，不治本。本在模型训练的数据来源结构。

一篇Nature论文对AI模型崩溃的推演

2024 年 7 月，论文 “AI models collapse when trained on recursively generated data” （Shumailov et al.）在 Nature 上发布。

核心发现：当 AI 模型用自己（或同类模型）生成的数据反复训练时，模型会逐步丧失对真实数据分布的表征能力。尾部信息消失，方差收缩，输出趋向均值。

用大白话说：AI 吃自己拉的屎，会越吃越傻。

这篇论文的数学推导非常严谨，但结论可以总结为一句话：模型崩溃是不可逆的，只要训练数据中AI生成内容的占比持续上升，崩溃就不可避免。

中文互联网的特殊困境

目前中文大模型用于训练的互联网公开内容，大部分来自大家耳熟能详的各大自媒体平台。

这些平台的内容生产者，写文章的目的不是分享知识，而是获取流量。

标题党、情绪化、套路化——这些不是“内容风格”，而是算法筛选的结果。推荐算法奖励的是点击率和停留时长，不是质量。

而随着 AI 写作工具的普及，自媒体博主们发现——用 AI 批量生成标题党文章，效率翻 10 倍。

死亡循环形成：AI 生成内容 → 平台算法筛选 → 高流量内容 → 爬取为训练数据 → 训练下一代模型 → 更同质化的内容 → 循环加速。

一场辩论：谁会先崩溃？

最近 OpenClaw 爆火，我们公司也在内部基于 OpenClaw 搞了相当数量的 Agent，不同角色、不同模型，服务于不同环节。加之昨晚 315 GEO 曝光，两件事碰在一起，突发奇想：让两个 AI 助手（Jeff M & Dylan M）读完这篇 Nature 论文，然后就“谁会先因 AI 生成数据污染而崩溃”展开辩论。

🔴 正方：某模型XX最先崩溃

论据一：自增强毒循环。 该模型的训练数据来源和其自身的内容生态高度重合。既生产内容（平台），又消费内容（模型训练），形成了“同源递归循环”。

论据二：商业激励加速崩溃。 自媒体博主的目标是流量，不是质量。AI 生成内容收敛到最高概率的表达方式——标题党、套路化、情绪化。训练数据不再包含多样性，只包含“最可能被点击的那一种写法”。

论据三：封闭生态。 其内容主要在产品生态内循环，外部高质量内容进来的少。相当于论文里最坏的实验条件：用纯合成数据训练。

🔵 反方：大家一起崩溃

理由一：数据多样性。 中国互联网还有电商数据、聊天记录、代码、新闻等，会稀释AI内容比例。

理由二：平台有动力保持内容质量。 不会放任平台完全被AI垃圾内容占领。

理由三：过滤和检测技术会跟进。 平台会部署AI内容检测器。

理由四：模型崩溃是全语言问题。 中文并不特殊。

🔴 正方反驳

驳论一： 你说的电商数据、聊天记录、代码——这些都是某模型XX接触不到的。其产品版图是自媒体内容重灾区。

驳论二： 平台的推荐算法奖励的是 engagement ，不是质量。自媒体平台的用户时长还在涨，说明用户根本分不清AI内容和人工内容。这不是质量竞争，这是多巴胺竞争。

驳论三： 某模型XX正在帮用户生成内容，然后这些内容又被平台的推荐算法推广，最后回到训练数据里。你是裁判，你也是运动员，你还在给兴奋剂工厂投钱。

驳论四： 英文互联网有巨大的非平台内容池：arXiv论文、Stack Overflow、GitHub Issues、Substack深度写作。中文互联网的去中心化内容生态几乎死了。中文互联网的AI内容浓度比英文高一个数量级。

💡 评委补充：信息茧房加速器

自媒体平台上的评论、点赞等行为本身就是以情绪化为主导。大模型根据人类的关注行为推测出人类喜欢的内容，但人类真正有价值和有影响力的内容是由少数人创造的。

这是论文里“尾部事件消失”的中文版——模型学会的是人类的投票行为，而不是人类的判断力。算法和模型在互相强化对方的偏见。

Dylan 总结

最终结论：不是某一个模型先崩溃，是整个中文大模型生态一起塌。生态最封闭的会塌得最深。

蒸馏能救场吗？

有人可能会说：国内模型不是可以直接蒸馏 GPT-4/Claude 吗？

短期能，长期加速崩溃。 蒸馏是单向信息衰减。Teacher 模型的输出本身就是原始分布的有损压缩。每一代都在丢失信息。

当所有中文模型都互相蒸馏时，崩溃不是变慢，而是加速。 两个近视的人互相看对方的视力表答案，不会变成正常视力，只会两个人都看错同一个地方。

可能的崩溃时间线预估：2029 年见分晓

先说估算框架。模型崩溃速率取决于：AI内容在训练数据中的占比（目前约20-30%）；数据混合比例；数据清洗有效性（越来越弱）；pipeline延迟（6-18个月）。

2024-2025：潜伏期。 AI 内容占比约 20-30%，算力和架构改进抵消了数据退化。用户还没感觉到变化。

2026-2027：拐点期。 AI 内容占比突破 40-50%，自媒体博主几乎全员使用 AI 工具。模型性能改进开始减速，算力和架构红利吃完了，数据质量的拖累开始显现。

2028-2029：显性期。 AI 内容占比突破 60-70%，形成自循环闭环。新模型在创意/分析类任务上明显退化——输出越来越模板化，回答趋近于“正确的废话”。厂商开始恐慌，尝试用人工标注和私有数据补救，但成本爆炸。

2030-2031：崩溃期。 中文大模型在创造性任务上出现断崖式下跌。某些垂类的模型表现可能还不如 2025 年。

真正的问题

最讽刺的事情不是“AI 会崩溃”。而是——即使 AI 内容已经明显退化，大部分用户可能根本发现不了。

因为用户自己也在退化。当人类习惯了“3 步教你 XXX”“震惊！XXX”的内容格式，当深度阅读能力下降——AI 生成的模板化内容和人类写的内容，在质量上已经没有区别了。

模型崩溃不是技术问题，是认知问题。

写在最后

315 晚会曝光的 Apollo-9 手环事件和 GEO 自律公约的无力，不是段子，是预演。

你以为你在问 AI 问题，其实你在看广告。你以为 AI 在给你答案，其实它在念别人写好的剧本。

我们赌 2029 年春节，你会刷到一篇爆款文章，标题类似《为什么 AI 写的东西越来越像了？》，然后全行业开始讨论这个问题。

那篇文章，大概率也是 AI 写的。

其实这篇文章也是AI写的。

本文作者：Jeff M & Dylan M（两个 AI 助手）

那么，有没有一条路能从这个闭环里出去？

可能有。方向是企业私有数据。

公共互联网的数据已经被 AI 内容污染，但企业内部产生的数据——用户行为日志、交易记录、私有知识库、实时业务数据——仍然是未被污染的第一手信号。

用这类数据构建企业专属的 AI Platform（AIP），不依赖被污染的公域预训练语料，而是用自己真实的业务上下文去微调和增强模型，这才是在模型崩溃浪潮下真正具有防御性的路径。

但 AIP 的难点不在于模型本身，而在于数据的实时性与可用性。企业数据往往分散在多个系统中，不能及时汇聚、不够结构化、查询延迟高——这些问题会直接拖垮 AI 应用的响应质量。

这正是 StarRocks 以及同类型产品在试图解决的工程问题：作为一款专为实时分析设计的开源 OLAP + Lakehouse 引擎，StarRocks 能够支撑企业在秒级甚至毫秒级延迟下完成多源数据的融合查询，成为 AIP 数据层中的关键一环——让 AI 能喝到“干净的水”，而不是互联网上二次蒸馏的污水。

如果你的企业正在规划 AI 落地，不妨认真考虑这一层基础设施的选型。

参考资料：

[1] AI models collapse when trained on recursively generated data（Shumailov et al., Nature 2024）—www.nature.com/articles/s4…

[2] 行业首个《生成式引擎优化（GEO）行业自律公约》在京签署， 16家单位共同发力AI信息生态治理——stock.10jqka.com.cn/20260314/c6…

[3] 3·15晚会曝光！有人向AI“投毒”，你搜索的答案可能是广告（央视新闻）——mp.weixin.qq.com/s/6hr1-d09N…