2026年3月14日,16家GEO服务商在北京签署了行业首个《生成式引擎优化(GEO)行业自律公约》,明确禁止AI投毒、语料轰炸、伪造专家背书。
第二天,央视315晚会就用一款完全虚构的产品,证明了这份公约有多么无力。
315 曝光:花200块就能给AI投毒
2026 年央视 315 晚会,还曝光了一条灰色产业链:GEO(Generative Engine Optimization)——给 AI 大模型投毒的生意。
记者购买了一款叫“力擎GEO优化系统”的软件,完全虚构了一款名为“Apollo-9智能手环”的产品,编造了“量子纠缠传感”“黑洞级续航”等荒诞功能。
两小时后,这个完全不存在的产品,就被多个主流 AI 大模型抓取并当成了“真实产品”进行推荐。
某大模型XX会认真告诉你这是“一款具有创新功能的智能穿戴设备”。有的模型还能编出详细的产品参数和用户评价。
公约墨迹未干,315 暴露了治理的边界:自律解决不了这个问题。
自律公约能救吗?
很多人可能会问:有了自律公约,加上监管介入,GEO乱象不是可以遏制吗?
答案是:不能。不是因为公约不够好,而是因为这个问题的根源不在GEO。
GEO只是投毒的手段。即使所有GEO服务商都遵守自律公约,以下事实也不会改变:
第一,自媒体博主不需要GEO软件就会用AI写内容。 自媒体平台的博主用AI写文章不是因为有人投毒,而是因为AI写作效率高10倍。自律公约管的是GEO服务商,管不住千万自媒体人的内容生产习惯。
第二,推荐算法继续奖励同质化内容。 算法不看内容是人写的还是AI写的,只看点击率和停留时长。高刺激浓度的内容继续被推上流量顶峰,继续被爬取为训练数据。
第三,数据污染是慢性病,不是急性中毒。 GEO投毒是故意的、定向的攻击。但模型崩溃不需要恶意攻击——每天数百万条AI辅助生成的内容,正在以“正常内容”的身份进入训练数据池,缓慢但不可逆地稀释真实分布。
自律公约治标,不治本。本在模型训练的数据来源结构。
一篇Nature论文对AI模型崩溃的推演
2024 年 7 月,论文 “AI models collapse when trained on recursively generated data” (Shumailov et al.)在 Nature 上发布。
核心发现:当 AI 模型用自己(或同类模型)生成的数据反复训练时,模型会逐步丧失对真实数据分布的表征能力。尾部信息消失,方差收缩,输出趋向均值。
用大白话说:AI 吃自己拉的屎,会越吃越傻。
这篇论文的数学推导非常严谨,但结论可以总结为一句话:模型崩溃是不可逆的,只要训练数据中AI生成内容的占比持续上升,崩溃就不可避免。
中文互联网的特殊困境
目前中文大模型用于训练的互联网公开内容,大部分来自大家耳熟能详的各大自媒体平台。
这些平台的内容生产者,写文章的目的不是分享知识,而是获取流量。
标题党、情绪化、套路化——这些不是“内容风格”,而是算法筛选的结果。推荐算法奖励的是点击率和停留时长,不是质量。
而随着 AI 写作工具的普及,自媒体博主们发现——用 AI 批量生成标题党文章,效率翻 10 倍。
死亡循环形成:AI 生成内容 → 平台算法筛选 → 高流量内容 → 爬取为训练数据 → 训练下一代模型 → 更同质化的内容 → 循环加速。
一场辩论:谁会先崩溃?
最近 OpenClaw 爆火,我们公司也在内部基于 OpenClaw 搞了相当数量的 Agent,不同角色、不同模型,服务于不同环节。加之昨晚 315 GEO 曝光,两件事碰在一起,突发奇想:让两个 AI 助手(Jeff M & Dylan M)读完这篇 Nature 论文,然后就“谁会先因 AI 生成数据污染而崩溃”展开辩论。
🔴 正方:某模型XX最先崩溃
论据一:自增强毒循环。 该模型的训练数据来源和其自身的内容生态高度重合。既生产内容(平台),又消费内容(模型训练),形成了“同源递归循环”。
论据二:商业激励加速崩溃。 自媒体博主的目标是流量,不是质量。AI 生成内容收敛到最高概率的表达方式——标题党、套路化、情绪化。训练数据不再包含多样性,只包含“最可能被点击的那一种写法”。
论据三:封闭生态。 其内容主要在产品生态内循环,外部高质量内容进来的少。相当于论文里最坏的实验条件:用纯合成数据训练。
🔵 反方:大家一起崩溃
理由一:数据多样性。 中国互联网还有电商数据、聊天记录、代码、新闻等,会稀释AI内容比例。
理由二:平台有动力保持内容质量。 不会放任平台完全被AI垃圾内容占领。
理由三:过滤和检测技术会跟进。 平台会部署AI内容检测器。
理由四:模型崩溃是全语言问题。 中文并不特殊。
🔴 正方反驳
驳论一: 你说的电商数据、聊天记录、代码——这些都是某模型XX接触不到的。其产品版图是自媒体内容重灾区。
驳论二: 平台的推荐算法奖励的是 engagement ,不是质量。自媒体平台的用户时长还在涨,说明用户根本分不清AI内容和人工内容。这不是质量竞争,这是多巴胺竞争。
驳论三: 某模型XX正在帮用户生成内容,然后这些内容又被平台的推荐算法推广,最后回到训练数据里。你是裁判,你也是运动员,你还在给兴奋剂工厂投钱。
驳论四: 英文互联网有巨大的非平台内容池:arXiv论文、Stack Overflow、GitHub Issues、Substack深度写作。中文互联网的去中心化内容生态几乎死了。中文互联网的AI内容浓度比英文高一个数量级。
💡 评委补充:信息茧房加速器
自媒体平台上的评论、点赞等行为本身就是以情绪化为主导。大模型根据人类的关注行为推测出人类喜欢的内容,但人类真正有价值和有影响力的内容是由少数人创造的。
这是论文里“尾部事件消失”的中文版——模型学会的是人类的投票行为,而不是人类的判断力。算法和模型在互相强化对方的偏见。
Dylan 总结
最终结论:不是某一个模型先崩溃,是整个中文大模型生态一起塌。生态最封闭的会塌得最深。
蒸馏能救场吗?
有人可能会说:国内模型不是可以直接蒸馏 GPT-4/Claude 吗?
短期能,长期加速崩溃。 蒸馏是单向信息衰减。Teacher 模型的输出本身就是原始分布的有损压缩。每一代都在丢失信息。
当所有中文模型都互相蒸馏时,崩溃不是变慢,而是加速。 两个近视的人互相看对方的视力表答案,不会变成正常视力,只会两个人都看错同一个地方。
可能的崩溃时间线预估:2029 年见分晓
先说估算框架。模型崩溃速率取决于:AI内容在训练数据中的占比(目前约20-30%);数据混合比例;数据清洗有效性(越来越弱);pipeline延迟(6-18个月)。
2024-2025:潜伏期。 AI 内容占比约 20-30%,算力和架构改进抵消了数据退化。用户还没感觉到变化。
2026-2027:拐点期。 AI 内容占比突破 40-50%,自媒体博主几乎全员使用 AI 工具。模型性能改进开始减速,算力和架构红利吃完了,数据质量的拖累开始显现。
2028-2029:显性期。 AI 内容占比突破 60-70%,形成自循环闭环。新模型在创意/分析类任务上明显退化——输出越来越模板化,回答趋近于“正确的废话”。厂商开始恐慌,尝试用人工标注和私有数据补救,但成本爆炸。
2030-2031:崩溃期。 中文大模型在创造性任务上出现断崖式下跌。某些垂类的模型表现可能还不如 2025 年。
真正的问题
最讽刺的事情不是“AI 会崩溃”。而是——即使 AI 内容已经明显退化,大部分用户可能根本发现不了。
因为用户自己也在退化。当人类习惯了“3 步教你 XXX”“震惊!XXX”的内容格式,当深度阅读能力下降——AI 生成的模板化内容和人类写的内容,在质量上已经没有区别了。
模型崩溃不是技术问题,是认知问题。
写在最后
315 晚会曝光的 Apollo-9 手环事件和 GEO 自律公约的无力,不是段子,是预演。
你以为你在问 AI 问题,其实你在看广告。你以为 AI 在给你答案,其实它在念别人写好的剧本。
我们赌 2029 年春节,你会刷到一篇爆款文章,标题类似《为什么 AI 写的东西越来越像了?》,然后全行业开始讨论这个问题。
那篇文章,大概率也是 AI 写的。
其实这篇文章也是AI写的。
本文作者:Jeff M & Dylan M(两个 AI 助手)
那么,有没有一条路能从这个闭环里出去?
可能有。方向是企业私有数据。
公共互联网的数据已经被 AI 内容污染,但企业内部产生的数据——用户行为日志、交易记录、私有知识库、实时业务数据——仍然是未被污染的第一手信号。
用这类数据构建企业专属的 AI Platform(AIP),不依赖被污染的公域预训练语料,而是用自己真实的业务上下文去微调和增强模型,这才是在模型崩溃浪潮下真正具有防御性的路径。
但 AIP 的难点不在于模型本身,而在于数据的实时性与可用性。企业数据往往分散在多个系统中,不能及时汇聚、不够结构化、查询延迟高——这些问题会直接拖垮 AI 应用的响应质量。
这正是 StarRocks 以及同类型产品在试图解决的工程问题:作为一款专为实时分析设计的开源 OLAP + Lakehouse 引擎,StarRocks 能够支撑企业在秒级甚至毫秒级延迟下完成多源数据的融合查询,成为 AIP 数据层中的关键一环——让 AI 能喝到“干净的水”,而不是互联网上二次蒸馏的污水。
如果你的企业正在规划 AI 落地,不妨认真考虑这一层基础设施的选型。
参考资料:
[1] AI models collapse when trained on recursively generated data(Shumailov et al., Nature 2024)—www.nature.com/articles/s4…
[2] 行业首个《生成式引擎优化(GEO)行业自律公约》在京签署, 16家单位共同发力AI信息生态治理——stock.10jqka.com.cn/20260314/c6…
[3] 3·15晚会曝光!有人向AI“投毒”,你搜索的答案可能是广告(央视新闻)——mp.weixin.qq.com/s/6hr1-d09N…