作者:谭宇
枫清科技(Fabarta)技术合伙人兼CTO
——本文AI含量0%, 请放心阅读。
引言
回顾过去一年,实在不知道取什么标题,所以姑且以“AI 又一年”敷衍了。
2025年年初,DeepSeek 以一己之力将 AI 带入了大众视野,做到了路边大爷大妈都开始讨论的程度,DeepSeek一体机层出不穷,虽然最终在应用层面并未改变格局,但其贡献不可磨灭,其低成本高性能的特性,让本轮 AI 具备了极大的应用潜力,和世纪初的互联网泡沫绝然不同。从这个角度来说,DeepSeek 坚决打破了AI观望论,各企业都开始认真思考 AI+ 的问题。
接下来的Manus 将这波热潮再次推高,各类打工人纷纷高呼‘狼来了’,老板则琢磨能裁掉多少员工,然而,——前途是光明的,道路是曲折的。
GPT-5 从预期上半年发布一直延迟到8月,并未再掀起更高的热度,最近发布的 Opus 4.5 / GLM 4.7 / Minimax M2.1 算是为年初的 AI 热潮作了一个交待,虽然总体上离大众期待还有差距,但也取得了长足的进步, AI 带来的大变革已经轰然拉开序幕。
Notion CEO Ivan Zhao 在年终回顾文章《Steam, Steel, and Infinite Minds》中有非常好的描述:
在蒸汽机发明之前,纺织厂的动力是通过水车驱动的,所以一定要建立在河流附近。蒸汽机出现后,工厂主最初仅替换动力源(水车),效能提升有限。真正的突破来自于工厂主意识到使用蒸气机可彻底摆脱水力约束,将工厂建在工人、港口和原料附近,并围绕蒸汽机重构生产流程(电力普及后更进一步通过小型电机将动力分布式化),才真正引爆了第二次工业革命。
他得出结论:
对于AI来说,现在就像蒸汽机刚刚出现的时候,我们仍然处于换水轮的阶段。 我们还没有想到摆脱过去的限制(纺织厂必须建立在水源附近)后公司应该如何运作。所以现阶段的提升是有限的,但历史洪流不可阻挡。
这篇文章不长,非常值得一读,推荐大家亲自阅读并思考。这对于技术人员来说其实并不陌生,其实就是"native" 的概念,互联网刚出现的时候,大家都要“互联网化”, 云计算出现后,大家都喊出要 “Cloud native", 数字化时代又喊着要数字化,数据是最重要的资产,本质上都是新的生产力出现后,围绕着新的生产力重塑生产关系,如今又面临着 “AI native",大的方向没有问题,只是实践的过程中往往会困难重重,因为:
“未来总戴着过去的伪装,令人难以辨识与预测,早期的电话通话简洁如电报。早期的电影看起来像拍摄的戏剧(这正是麦克卢汉所言'透过后视镜驶向未来')。今天流行的人工智能形态,恰如昔日Google搜索框“。
“我们现在正深陷于每一次新技术转型时都会出现的那个不舒适的过渡阶段。”
这非常好的描述了过去一段时间AI实践的现状,本质上都在不断的尝试,摸索与犯错不可避免,因为没有人知道确切的终局应该长什么样子,或者说终局本来就是不断持续摸索出来的,这正是”AI+产业“的巨大机会。
作为AI+产业的实践者,Fabarta 在2025 服务了涵盖金融、制造、能源等多个行业的企业,其中不乏央/国企客户、龙头企业,并与多家大型企业组建联合实验室,共同探索AI+产业的发展路径。这个过程中也观察到不少现象与收获了一些感悟,且写出来与大家分享。
Fabarta AI 实践观察
从RAG 到 Agent
大多数企业接触AI都是从RAG和知识库起步,其价值是让大模型访问其并不具备的私有知识,产品形态从最初的知识库开始转变为Agent的上下文, 这正是过渡阶段典型的产物,Fabarta在建设企业RAG或知识库遇到几个困难点:
- 产品价值不够彰显。 作为最初构建的AI应用,企业会在这个阶段投入很多基础设施,特别是在中国,很多企业都需要私有化部署,整体投入会比较大,企业仅单纯产出知识库会觉得投入产出比很低。
- 知识来源复杂。 送给大模型的语料质量参差不齐。企业之前的文件大多是PDF或办公软件的制品,这对大模型来说并不友好,我们投入了大量的精力来处理高质量的解析,从传统的OCR pipeline到多模态大模型解析,但始终有解析不了的情况出现。如果从终态来看,要么未来大模型能力足够强,能够自行解析这些内容;要么整个企业内容环境发生变化,所有资料都以适配大模型的格式(markdown、code 等)准备。
- 回答的准确度因人、因业务场景而异。 不同人要求的风格、准确度并不一致,有时候可能因为领导的一个bad case 导致整个产品评价不高。
- 企业内部模型问题。 国内的企业普遍不信任云上的大模型,而内部的模型能力往往参数较小,这对于应用层来说就要做大量的工程手段,而这些都随着模型的发展趋于无效。
总体上来说,单纯知识库构建已经不是企业的重点,而且这个领域深耕面临着技术过渡的问题。更多的是作为Agent的上下文的来源。
从短时Agent 到后台长期运行
Agent 本质,是将原本由人工梳理的复杂业务逻辑,逐步放权给 AI 自主执行。
最初构建的Agent可能非常简单,比如Agentic RAG。但很快就会走到“一个Agent就是原来的一个业务系统” 的层面。 企业不再满足Agent的形态还是问答,而是有完整的业务定义、上下文、工具和UI展示。赋予Agent的权限也越来越大。目前落地效果最好的 Agent,应该说还是 Coding Agent,他拥有:
- 读写文件权限。
- 执行命令的权限,这样整个操作系统的能力都可以为其所用。
- 写代码并执行的权限,拥有无限想象空间。
- 极佳的验证与反馈:编译/ 测试用例以及详细的错误信息。
- 连贯而完整的上下文,所需依赖都能在代码仓库中找到。
而将其放到业务系统中,就会面临:
- 上下文缺失。一个业务可能依赖其他几个业务系统,Agent难以获取完整的业务上下文。
- 验证缺失。Agent无法判断自身执行结果的对错,缺失反馈。
- 这是今天Agent进入核心业务的主要障碍。
开始从外围到核心业务渗透
AI 已经开始逐步渗透进核心业务流程。AI 应用前期主要集中在问答、数据查询类场景,且不会对原有业务流程产生影响,但现在已经逐步进入科研、经营分析与决策、风险控制、单据校验等核心业务流程之中。
以Fabarta自身构建的跨境智能业务为例,可以全流程让Agent自主填单、自主校验、自主提交或要求补充信息。
在化工新材料、生物医药等行业,开始将AI能力融入到科研流程、安全生产等各环节中。尤其针对AI+科研领域,通过通用智能体实现对于论文、专利的检索、精读以及科研报告生成;通过场景智能体实现聚合物生成与筛选,反应釜和流化床的优化等。AI4S领域的AI应用可以助力提升科研效率,节省生产成本。
在教育行业,无论是在K12还是K20, 都在将AI纳入日常的教学工作中,由AI来完成从教育到测评的全过程。
很多企业在将经营分析与决策、行业研究等主要工作交给相关的Agent完成。
虽然还只是开始,但已经可以看出AI进入关键业务领域的趋势,为此需要考虑到大量的预处理及围栏的工作,这些都有望随着技术的发展、业务范式的转移而得到改善,实现由点及面的 AI Native 全链路变革。
Coding Agent在外溢到通用办公领域
Fabarta在2025年7月推出了个人专属智能体,用于在本地电脑上处理日常工作,将本地文件智能处理作为核心亮点,该功能也是 Fabarta 先于行业推出的,在年末,随着cowork的推出,类似能力与方向也得到了验证,在Fabarta个人专属智能体推出的时候,我们就有相应的思考:
- 当前主流的AI应用并非以“用户”为中心,而是以“模型”为中心,这也导致其在用户体验上存在明显痛点。 比如用户只能主动上传受限制的文档,AI应用再基于这些文档产出一些中间产物,用户再将这些中间产物整合进自己最终产出物上。整个流程在灵活度、效率上都不是最优。
- 当前主流AI应用是AI将人引入到了它的工作流中,而并非是让AI进入到人的工作流里。 比如当今绝大部分AI应用都没有做到贴近用户,形成用户真正的“个人助手”,这类应用或许会提供内容保存入口,但无法做到越用越懂用户。这个过程中只有用户的主动沉淀,AI 并不会进行被动学习与深度的用户理解。所以从这个角度来看,并非 AI 成为了用户的助手,反而是人成为了 AI工作流中的一环。
- 个人数据、企业数据乃至公域数据之间的交互困难。 在实践过程中,个人数据与企业数据之间的交互特别重要。各大模型厂商的AI应用基本都提供了联网搜索能力,虽然仍然有很多交互上的问题,比如要达到好的效果,基本上需要用户自己控制联网搜索的开启时机,不过也算是基本解决了公域数据使用的问题。但企业数据和个人数据并没有很好的连通手段, 我们完成工作的方式基本上可以归结为结合个人积累的素材、企业数据、公域数据来产出。但是目前主流的AI应用没有办法将三者很好的结合起来。
年末随着Anthropic 推出Cowork, 各大厂商也相应推出类似的产品,这一块在2026年必将得到进一步的发展。
模型微调再次成为企业认真考虑的选项
在企业应用大模型的初期,RAG热潮压倒微调,OpenAI等模型厂商虽然提供了微调API,但应用情况却十分有限。直至25年初,以DeepSeek-R1的发布作为一个转折点,微调的技术体系发生了结构性变革。以模型蒸馏,GRPO为代表的后训练算法,引发微调算力成本的结构性质变。同时,LlamaFactory,ms-swfit,verl等微调框架日趋完善,将‘复杂高端的训练算法’拆解为可组合的集装箱化工程模块。这些因素重塑了微调在大模型产业化应用中的形态,使其从高算力成本、高算法门槛的技术,演变为可全民参与的民主化微调能力,企业在这一选项上有了新的考虑。
然而,技术可行性的提升,并不意味着企业可以直接套用通用方案落地业务,这中间隔着整个工业场景的复杂性,与大量客户的访谈中,我们逐步意识到,与通用方案相比,其独特的复杂性在于:业务任务分布高度集中,且规则边界极其复杂,同时显性的SOP 与隐性的业务经验并存;训练数据的结构化程度,决定了微调模型的效果质量上限;模型的主要风险并非知识缺失,而是在多约束、多条件的边界场景下,容易产生推理漂移。
这意味着,企业需要的不是"微调参数",而是围绕数据体系、结构约束到模型行为对齐的系统工程。枫清科技在化工与新材料研发、企业运营智能文档处理、跨境电商贸易报关,以及电磁频谱活动认知与分析等领域,通过一系列客户项目,持续探索实践了将通用微调技术转化为可交付、可复用的企业级应用能力。详见模型微调:工业场景下的落地实践
- 在化工新材料领域,针对SMILES 语法、分子式、IUPAC 命名等化学领域关键标识 token 进行差异化损失计算,强化结构精确表达能力,构建统一的专业能力底座,支撑智能体平台的科研任务。
- 在电磁频谱活动认知与分析领域,将分散在文档中的隐性知识转化为三元组结构,构建结构化微调语料,通过图谱适配模块将频谱法规、用频规则等结构化知识注入注意力层,实现稳定的多约束推理。
- 在企业单证运营领域,由学生模型生成推理轨迹,在其易出错的环节(数字位数、连续重复、字段边界)进行规则检测,并通过教师模型给出反馈,直接纠正分布偏差,小数据规模下实现高精度识别,轻量模型可部署。
实践表明,工业场景的微调本质是"数据→结构→行为"的系统工程。当微调技术从实验室走向产业,企业获得的不仅是更好的模型,更是可控、可复用、可演进的AI能力体系。
实践中的典型困难
企业对于100%准确率的执着
这个问题的本质在于对大模型能力的边界认知问题,很多客户会像要求传统软件功能一样要求智能体,凡事追求100% 的准确率,这也让我们耗费了大量成本进行解释和后续优化。 但这并非说大模型在业务应用上没有边界,关键是我们怎么在这个限制下进行工作。 Fabarta在实践中使用了多种技术:
- 基于过去多年在数据的领域,结合AI 的特性让数据实现 AI Ready,典型的如面向智能体的数据指标体系建设。
- 通过图来构建更精确的上下文。恢复数据间原本会被拆解、撕碎的关联关系。
- 构建企业的统一语义层来统一业务术语与AI系统。
- 建立完善的人机反馈(Human in loop)机制。
有很多问题并非单点突破就能解决,企业必须立足全局,顺应AI 的应用范式来重构业务流程。这需要 AI 服务提供商与客户不断地沟通磨合、双向输入。
对于热点的过度追踪
在这个阶段,完全不必担心FOMO(Fear of missing out)的问题,先发优势与后发优势各有其价值。大部分企业无法享受先发优势,但可以很实在的把握后发优势。今天AI领域可以说是“AI一天,传统一年”, 如果只是一味追求热点,可能上个热点的实验还没有完成,立即就出了下一个热点。真正有价值的工具与技术,既不会突然爆火,也不会轻易消亡,我们在服务过程中,也会不断收到客户发来的各类新闻和公众号文章,大部分其实都没有什么价值。所以我们要和企业建立一个良好的互动,并和客户一起达成‘慢半拍并不要紧、亲手尝试比道听途说更靠谱’的共识。
变与不变问题的辨别
如果无法厘清行业的变与不变,企业就只能不断地追逐技术热点。我们必须分辨哪些是随着模型能力的增强会消失的,比如为了让工具调用更稳定而做的各种权宜之计(tricks),这类方法在落地时我们就应明确,其只是临时的 workaround,并不值得投入过多精力,但提示词工程、上下文管理、memory 管理这类能力,并不会随着模型能力的提升而消失,反而会越来越重要,这就是我们该重点投入的领域。
展望
随着《Steam, Steel, and Infinite Minds》同步发布的还有另一篇文章《The Trillion-Dollar Opportunity: Context Graphs》,探讨的是当下一个极具热度的话题,即 AI Agent 是否会取代现有的企业系统(Agents Kill Everything),作者同意 Agent 不会完全取代企业当前使用的记录系统(systems of record,比如 CRM、账单系统、员工管理系统等),但他认为目前企业使用的系统都只记录发生了什么,而没有记录为什么发生,但“为什么发生”对于Agent非常重要。而 Agent 处于业务执行链路中,因此有机会捕获完整的决策轨迹,在文中举了几个例子,比如:
- 行业特殊定价:企业内部可能存在‘由于医疗公司采购周期极长,我们会额外给予10% 折扣’的共识,但这通常只存在于老员工的脑子里或入职培训中,而不在 CRM 系统里。
- 历史先例引用:销售团队决定为某公司制定特定交易结构,理由是‘上季度为X 公司制定的交易结构很成功,我们应保持一致’,但没有任何系统将这两笔交易关联,也未记录这种决策一致性的原因。
- 跨系统合成(Cross-system Synthesis) 的决策场景,
○ 工单升级决策:一名支持主管在决定是否升级工单时,会查看Salesforce(了解客户ARR 价值)、Zendesk(查看未解决的投诉)、Slack(阅读有关流失风险的讨论)以及PagerDuty(确认最近的故障记录)。
○ 隐形审批链:副总裁通过Zoom 电话或Slack 私聊批准了某项折扣,最终CRM 中只记录了一个“结果价格”,而背后的审批人、审批原因等关键背景信息,在系统记录中完全缺失。
所以作者认为,智能体正通过捕获决策轨迹(而非仅采集静态数据)构建上下文图谱。这类新一代记录系统,能够捕捉到传统软件无法记录的例外业务逻辑和跨系统决策背景。上一代企业软件催生了万亿美金市值的产业生态,也诞生了Workday、SAP 这样的软件巨头。而如今处于业务执行链路的初创公司,将凭借这些优势挑战传统巨头,打造下一个万亿美元级的企业软件基石。
这一讨论本身就印证了一个趋势:Agent 正逐步深入企业核心业务领域。 当然对于国内来说,这个问题可能更复杂也可能更简单。说其更复杂,是因为国内企业的数据分布更为分散,传统软件系统的建设本就不完善;说其更简单,则是因为正逢系统建设不完善,企业完全可以顺势重建 AI-native 的业务系统。
更多
2026 年初兴起的新一轮 OpenClaw 热潮,可谓是重复了 2025 年初的技术发展轨迹。但行业风向已然改变,此次热潮并非由模型能力升级引发,而是由产品形态的创新驱动,2026必将又是 “AI 又一年”。