AI原生:一种文明级的范式迁移
一、核心定义
AI原生,是指一个系统在设计或重构时,把AI推理与反馈闭环放入核心价值交付路径之中。AI不是外挂能力,而是决定系统能否成立的承重结构。
AI原生的关键不在于模型是否自研,不在于是否使用对话框交互,也不在于底层调用的是本地模型还是外部API——而在于:AI是否处于主执行路径,并驱动核心决策、交互和价值交付。
判定方法只需要一个思想实验——对系统做一次AI切除手术:如果移除AI,系统要么无法完成核心任务,要么退化为另一种完全不同的产品,那它就是AI原生。如果移除AI后系统照常运转、只是某些辅助功能消失,那它只是AI增强。
二、AI增强 / AI优先 / AI原生:三者辨析
AI增强(AI-Enhanced) 是在既有系统上加装AI功能。一个传统CRM系统加了AI客服弹窗——关掉AI,CRM照常运行。这是"补丁式"思维,AI在系统中是可拆卸的。
AI优先(AI-First) 是一种战略哲学,意味着用AI视角做决策和产品设计,但底层产品可能在AI之前就已存在。Google在2017年宣布从"移动优先"转向"AI优先",就属此类。AI优先改变的是优先级,不一定改变架构。
AI原生(AI-Native) 则是架构层的重构——系统从设计之初就围绕AI能力构建,AI处于主执行路径。Midjourney的核心交互从提示词生成起步,虽然后来扩展出了图片编辑器等可视化工具,但产品的根基仍然是AI图像生成——没有AI,这些编辑工具无从附着。GitHub Copilot从代码补全起步,已扩展到PR生成、代码审查、Agent自主编程等能力,但每一项都以LLM推理为内核。对这些产品做AI切除手术,剩下的是空壳。
三者在概念层级上不是渐进升级,而是不同层次的选择:AI增强是功能决策,AI优先是战略决策,AI原生是架构决策。但在实践中,一个组织可能经历从AI增强到AI优先再到AI原生的阶段性迁移——概念上的层级差异并不排斥实践中的演进路径。
三、AI原生的四个结构特征
"AI切除手术"是判定AI原生的核心判准——它回答"是不是"的问题。以下四个结构特征则是成熟度指标——它们回答"做得好不好"的问题。一个系统通过了切除手术测试,就具备了AI原生的基本资格;而四个特征越完整,系统的AI原生成熟度越高。
- AI位于主执行路径
核心能力依赖模型推理,而非把AI作为可有可无的外挂。这不要求模型必须自研或本地部署——即便底层能力来自外部模型API,只要没有AI产品的核心体验就无法成立,它仍然是AI原生。
TikTok的推荐系统、金融风控引擎、自动驾驶系统——它们未必有对话框,但AI处于核心价值交付路径,移除AI后产品归零或退化为完全不同的东西。AI原生不等于"聊天界面+生成式AI",它的外延远比这更宽。
- 反馈闭环被预先设计
AI原生系统在设计功能之前,先设计数据采集与反馈架构。每次用户交互都应尽可能沉淀为可用于评估、检索、记忆、策略优化或模型训练的反馈信号,在合规前提下形成持续改进闭环。
这里需要注意:反馈闭环不等于"每次交互都直接变成训练数据"。在当前的工程现实中,优化手段包括评估集更新、检索优化、记忆优化、Prompt优化、工具调用策略调整、人工反馈校准等多种路径,权重训练只是其中之一。
- 评估、护栏与人工接管是基础设施
因为模型输出具有概率性和不确定性,AI原生系统必须把评测、回退、审计和人工确认内建为基础设施,而非事后补丁。这包括输出质量的自动化评估、敏感内容的护栏拦截、异常情况的人工接管通道、以及关键决策的可追溯审计。
这一条在企业、工业、科研、医疗等高精度场景中尤为关键。没有评估和护栏体系的AI系统,即便通过了"AI切除手术"测试,也难以成为可规模化、可治理的AI原生系统——它更像是AI冒险。
- 交互以意图为中心,但保留结构化控制
AI原生系统倾向于让用户更多地表达目标和约束,由系统负责生成执行路径。但这不意味着"只有对话框"——在高精度、高风险场景中,仍需保留结构化控件、精确参数调节与人工确认环节。
以科学仪器为例:用户可以说"自动识别异常光谱峰",但仪器参数的精确设定仍需要结构化界面。AI原生的交互重构是"意图优先、控制保底",而非用自然语言替代一切。
四、边界案例:用判准框架校验
一个好的定义必须能处理边界情况。以下用"AI切除手术"和"四个结构特征"来校验:
ChatGPT / Midjourney / GitHub Copilot——典型AI原生。移除AI后产品归零,核心价值完全依赖模型推理。
TikTok推荐流 / 金融风控系统 / 自动驾驶——同样是AI原生。虽然没有对话框和生成式界面,但AI处于主执行路径,移除AI后系统退化为完全不同的产品(TikTok变成时间线排列的短视频库,自动驾驶变成需要人类全程操控的车辆)。
Notion AI / 飞书智能助手——AI增强。核心产品(文档协作/办公协同)不依赖AI运转,AI是增值功能层。
Google “AI First”——战略层AI优先。搜索引擎的基础架构在AI之前就已成立,但AI正在逐步成为核心路径的一部分,处于从AI优先向AI原生迁移的过渡中。
企业软件中的Agent功能——需要具体判断。如果Agent处于主执行路径(如AI原生的客服系统,没有AI就无法响应用户),则是AI原生;如果Agent只是辅助功能(如ERP系统中的AI报表助手),则是AI增强。关键不是"有没有Agent",而是"Agent是否在承重墙上"。
五、AI原生不止于产品——它正在重构开发过程本身
AI原生的影响不止于产品形态,还延伸到开发范式。
传统开发是"人写代码→人审代码→人改代码"的线性流程。AI原生开发正在演变为"人表达意图→智能体协作生产→人做最终决策"的协作系统。人的角色从逐行编写转向目标设定、质量把关与最终问责。
但这个转变并非没有结构性挑战。Anthropic在2026年3月发布的工程实践文章《Harness design for long-running application development》中揭示了一个关键问题:单个AI智能体在自我评估时,系统性地高估自身输出质量——即使输出明显平庸,智能体仍倾向于给自己打高分。
这引出了AI原生开发的一个核心架构原则:生成与评估必须结构性分离。
六、以 /harness 为例:AI原生开发的一种工程化实现
/harness 是一种AI原生开发技能(Skill),借鉴"生成-评估分离"的对抗式工程思想(注:这是一种工程层面的对抗式设计,而非严格意义上的GAN梯度对抗训练机制),通过三智能体协作循环实现高质量代码的自主生成。
Codex插件与Harness的本质差异
两者是分工关系而非替代关系。Codex插件是诊断工具——对已有代码做只读审查,告诉你"这段代码有什么问题"。Harness是生产系统——从零构建代码并通过对抗循环确保交付质量,回答"如何从无到有做出高质量的完整产品"。
工作流与关键设计洞察
这套工作流中有三个值得关注的设计洞察。
第一,”战略模糊,战术精确”。Planner刻意不规定技术细节,只定义产品方向和功能优先级,将技术路径留给Generator自主决策。Anthropic的实验表明,过早的细粒度技术规定一旦出错会级联污染整个下游实现。
第二,在写代码前就”完成标准”达成共识。没有这一步,Generator倾向于实现一个”看起来差不多”的版本并自我肯定;有了可测试的验收标准,Evaluator才有具体的尺子去丈量。
第三,多模型并行评审。单一视角无法穷尽质量的全部维度——功能测试捕获运行时问题,不同模型分别审查工程正确性和设计品质,多份报告合并才构成相对完整的判断。
评分设计与防御机制
评分体系中设计质量和原创性的权重高于工艺细节和基础功能,这是一个刻意的激励函数设计。当前AI在技术执行上已达能力基线,真正稀缺的是非模板化的创意决策。高权重让”平庸”在评分上代价高昂,迫使生成器突破舒适区。一个有趣的发现是:评分标准的措辞会在评估开始之前就影响生成器的输出——品味不只是主观偏好,在这个架构中它是可工程化的质量杠杆。
系统还内建了三层防御机制来应对长时运行中的系统级风险:死循环检测防止智能体陷入无限对抗,上下文重置协议化解认知衰减,少样本校准将评审标准固化为可重复的工程资产。
Anthropic的实测数据提供了参考对比(数据来源:Anthropic Engineering Blog, 2026-03-24):同一个"2D复古游戏制作工具"需求,单智能体生成耗时20分钟/约9,核心游戏功能不可用(实体出现在屏幕上但不响应输入);Harness架构耗时约6小时/约200,功能完整且设计质量显著提升——Planner将一句话提示扩展为16个功能的规格说明,分布在10个Sprint中。后续的DAW(浏览器数字音频工作站)实验中,改进后的V2 Harness使用更轻量的模型,将成本降至约4小时/$125。成本提高了一个数量级,但输出从"技术原型"跃升为"可交互产品"。这不是效率优化,而是质量层级的跃迁。
/harness 为什么是AI原生开发的典型样本?
用前文的四个结构特征来校验:AI处于主执行路径(移除智能体,开发流程归零);反馈闭环被预先设计(lessons.md 持续积累错误记忆,每轮Sprint都站在上一轮的反馈之上);评估与护栏是基础设施(Evaluator、死循环检测、上下文重置协议都是内建的);交互以意图为中心(一句话触发完整的规划-生成-评审循环,但Sprint合约谈判保留了人类的结构化控制权)。
它不只是"用AI写代码",而是把AI原生的四个结构特征完整地实现在了开发过程中。
七、组织层的AI原生
AI原生的影响不止于产品和开发流程,最终会延伸到组织本身。
对组织而言,AI原生意味着:知识资产机器可读,流程默认可被智能体调用,评估与治理成为核心管理能力。人类的角色从执行者转向目标设定、资源配置与最终问责者。
这种转变已经在发生。当一个团队用AI原生的方式开发(如 /harness 中智能体自主完成规划-生成-评审循环),但组织仍要求逐行代码审查、固定工时评估、按人头算产出,阻抗失配就产生了。AI原生的开发节奏是"一句话触发,几小时交付完整功能",传统管理节奏是"需求评审-排期-开发-测试-上线"的周级流程。两者的时间尺度相差一到两个数量级,用旧流程管理新工具,要么智能体的能力被流程截断,要么团队被迫在两套节奏之间反复切换。
类似的阻抗还出现在知识管理层面。当智能体需要调用组织内部的流程、规范和决策依据时,如果这些知识仍然锁在PPT、会议纪要和个人经验中,智能体就无法有效工作。AI原生组织的一个前提是知识资产的结构化和机器可读化——这不是IT部门的技术任务,而是组织运作方式的根本转变。
当开发流程已经AI原生化,当产品已经AI原生化(如Copilot、Midjourney),组织架构迟早要跟着重构。这个重构的速度和深度会因行业监管强度、流程耦合度和数据可得性的不同而有很大差异,但方向本身很难逆转。
八、战略含义:为什么这不是功能升级,而是范式迁移
所有技术革命都遵循同一个模式:先用新技术模仿旧范式,再用新范式淘汰旧物种。电力时代,工厂先用电动机替代蒸汽机驱动同一套皮带轮系统,后来才重新设计了每台机器独立供电的现代工厂布局。互联网时代,先把报纸搬上网页,后来才长出了搜索引擎和社交网络。
AI正处于这个转折点上。绝大多数企业还在"给蒸汽工厂装电动机"——在已有系统上嫁接AI功能。AI原生是直接按新的动力逻辑重新设计系统。
这个转变带来三个不可逆的结构性变化:
认知成本坍塌。 传统系统假设"用户知道怎么操作",所以需要菜单、表单、流程图。AI原生系统假设"用户只需要表达意图",系统负责理解、拆解、执行。五层菜单变成一句话,这不是交互优化,是交互范式的相变。
生成成本坍塌。 传统系统的价值从数据库"查"出来,AI原生系统的价值现场"算"出来。当生成成本持续下降,"库存"思维让位于"涌现"思维。
迭代成本坍塌。 当AI参与评估和改进循环(如 /harness 中Evaluator驱动的迭代),系统从"人驱动的迭代"走向"人机协同的持续进化"。反馈闭环转起来之后的复利效应,才是AI原生系统最深的护城河。
这三个坍塌叠加的趋势值得警惕:AI原生系统与非AI原生系统之间的差距,在反馈闭环和数据飞轮的作用下,有可能从早期的"效率高一点"逐步加速扩大。这个过程的速度取决于具体行业、数据可得性和监管环境——并非所有领域都会同步发生,但在数据密集、迭代频繁的领域,先发优势一旦建立将越来越难追赶。
一句话定义:AI原生,是AI处于核心价值交付路径的系统设计范式。判定方法是AI切除手术——移除AI后,系统要么无法完成核心任务,要么退化为完全不同的产品。 /harness 是这个范式在开发侧的一种工程化实现,它展示了当生产方式和产品形态都完成AI原生跃迁时,系统才真正进入正向循环。