AI发展与Web历史的借鉴启示

4 阅读9分钟

近期AI技术的进展令人兴奋,也必将对未来产生重大而深远的影响。我认为,我们可以从另一项突破性技术——Web——中学到很多。本文将通过Web的发展历史,探讨其对人工智能未来的启示,以及这对开发者、模型、开源与监管的意义。

不要混淆“提升下限”与“拔高上限”

在评估AI及其新能力的意义时,一个常见错误是将“提升下限”与“拔高上限”混为一谈。通过不同用例可以清晰看出:提升下限的技术,例如让本地商店无需网页开发人员帮助就能搭建网站或网店,或让待办事项App通过API添加AI驱动的翻译功能。提升下限意味着降低准入门槛,使技术更易被广泛行业采用。

另一端则是“拔高上限”:企业投入大量时间精力,追求微小但有重大影响的改进。例如流媒体服务精心优化其Web媒体播放器,哪怕只快一毫秒,也能增加用户应用内停留时间;酒店预订平台可能投入大量资源改进推荐算法,因为即使邮件点击率小幅提升,也能显著增加收入。

在AI领域,大量工作发生在上限端:包括学术研究、开发环境增强、每个项目依赖的基础组件,甚至IDE和Python语言本身的改进。正如浏览器与Web标准不断突破Web的可能边界,AI研究也在持续解锁新可能。这些成果向下渗透到React、PyTorch、spaCy等框架,最终落地为网站构建器或AI API等产品。在下限端,我们看到高采用率;而拔高上限的用例则具有极高价值。

高价值用例永远值得专门开发投入。这类场景中“更好就是更好”。人们建网站更容易,不代表公司停止Web开发投资——恰恰相反。同样,LLM和API让任何人能轻松使用强大AI功能并集成到应用中,但这并不意味着对从事高价值用例的AI开发者没有需求——实际上需求旺盛。技术让开发者能做新事,也让他们能做更多同样的事。

“更好就是更好”的局面会出现在任何军备竞赛或竞争场景中。数字营销或注意力经济都遵循这一规律。只要比竞争对手好一点就能带来优势,那么所有人都必须持续投入,永远不会有“够好就行”的状态。过去企业曾大力投资Flash,尽管效果普遍糟糕,但落后似乎比投入更可怕。当前生成式AI正上演同样剧情,“前面加个聊天机器人”的趋势以及随之而来的产品“Clippy化”就是明证。

LLM使定制化方案更易获得

关于“提升下限”与“拔高上限”,还有另一动态:下限提升者通常相互竞争,而上限提升者则相互补充。提供简单够用的解决方案有很多不同方式,但通常不能组合这些方式以获得既更易用又同样好、或同样易用且更好的方案。而追求最佳结果时,往往可以组合多种技术。

LLM本身提供了另一种“提升下限”的路径:开发支持。 它们提供越来越好的交互式编程辅助,非常擅长引导开发者进入机器学习等新领域。LLM不是被用作系统本身,而是用来构建系统。 将LLM用作通用分类器的论点是,其准入门槛远低于设计、训练和评估定制监督式ML方案。然而,有了LLM的建议和编码支持,这一论点应被重新评估。

开发流程让你重新掌控

早期网站大多是静态的。随着灵活性需求增加,Web 2.0转向动态交互特性,或用PHP在服务端渲染,或用JavaScript在浏览器端增强。博客和CMS平台(如WordPress)兴起,处理后端复杂性和托管。但这可能拖慢网站、增加维护难度,或意味着放弃控制和完全定制能力。

如今这一切仍然相关,但如果你最近建过现代网站或博客,可能使用了Hugo等静态站点生成器或Next.js等框架,将操作复杂性从运行时转移到构建过程。站点被预先编译而非服务器实时渲染,并通过Tree Shaking等技术优化性能。TypeScript使我们从动态语言的权衡转向编译型语言的权衡。这常被人们抱怨当今Web开发变得复杂,但总体而言,它让Web变得更好、更易访问,也给了我们更多控制。

开发工作流与技术随时间的演进

这实际上与AI领域的发展高度相似。机器学习和深度学习刚被广泛采用时,人们通常用scikit-learn、PyTorch、TensorFlow等库训练自己的模型,或使用spaCy等框架提供的已有实现——这往往需要大量工作和投入。但随着更大规模的语言模型和更好的泛化能力,依赖预训练模型成为可能,无需或仅需极少微调。这催生了API平台(如某机构的API)的兴起,提供对大模型的便捷访问,简化了原本复杂的MLOps托管工作,以控制和隐私换取便利。

缓解这些缺点的下一步是回归定制模型,但使用更好更强大的工具。同样,我们将操作复杂性从运行时转移到开发过程,并利用迁移学习等技术。例如“人在回路蒸馏”,使用大型生成模型创建数据,用于更准确、更小、更快、更私密的可内部部署模型。这种使用模式为高价值用例提供了所需灵活性,使内部开发AI功能再次可行——就像现代JavaScript工具链为完全定制的网站和Web应用自动化构建过程一样。

高价值用例值得开发投入

某机构的一个项目便是高价值用例的实例。为使市场更透明并向客户提供结构化数据馈送,该团队开发了一个新系统,提取实时商品交易洞察作为结构化属性。由于这些信息可能显著影响市场和经济发展,必须保持内部处理并在高安全环境中运行。

通过在标注过程中使用LLM(配合某标注工具),该团队实现了10倍的数据开发加速,每个模型仅需15人时即可创建专门的训练和评估数据。6MB的spaCy流水线每秒处理约1.6万词,准确率高达99%。

人在回路蒸馏:本文展示了一些实用方案,将最新模型的知识蒸馏到更小、更快、可内部运行维护的组件中。

该项目展示了新技术和工具如何让公司重新掌控自己的模型,将对操作复杂且昂贵资源的依赖转移到开发和构建过程。

重造车轮与道路

大型科技公司为争夺市场主导地位,不仅重造车轮,还在重造道路。我并不认为重造车轮一定是坏事。问题在于,当产品和公司试图同时重造道路,并将你锁定在他们的方式中时。

某机构不仅拥有最常用的搜索引擎,还开发了最流行的浏览器及其内核,以及集成到搜索和其他应用中的大模型和聊天机器人。这些产品本身都很有用。

AMP(加速移动页面)是另一个例子——一个用于提升移动性能的开源框架。某机构会惩罚慢速网页以提供更用户友好的结果,并鼓励网站采用现代技术和标准。但批评者指出,通过实质性地迫使Web采用AMP,该机构施加了不当控制,进一步将发布商锁定在其生态中。而所有这些汇聚之处正是广告——为该机构带来每年超过2000亿美元的巨额收入。

这种“重造车轮与道路”的策略在AI领域已经上演,遵循某机构的“拥抱、扩展、消灭”策略:拥抱共同标准,实现自有扩展,锁定用户,最终瓦解共同标准。

AI产品不仅仅是模型

关于生成式AI的危险及政府监管必要性的讨论很多。但讨论中常缺失一个重要区分:面向人类的系统与面向机器的模型。“AI”通常既指代ChatGPT这类产品,也指底层的GPT-4等模型。这有意无意地混淆了问题,并可能对监管如何处理模型工件和开源软件产生持久影响。

面向人类的系统,最重要的区分是产品而不仅仅是技术。这包括用户界面和体验、产品营销方式、以及围绕驱动技术的定制化实现。我们不完全知道某AI聊天产品内部如何工作,但它很可能在模型周围实现了大量护栏和定制逻辑,以提供最佳用户体验。

另一方面,面向机器的模型是基于公开学术研究的可替换组件。它们的影响是可量化的:速度、准确率、延迟、成本。LLM可以是产品或流程的一部分,甚至可以换成完全不同的方法,而不改变产品本身的体验。

对这种观点的常见反驳是:数据呢?某机构和某机构不是拥有海量用户数据,使他们能构建更好的技术吗?这里仍需区分产品与模型。用户数据对产品是巨大优势,但不一定是面向机器任务的基础。从生成式AI的最新进展中学到的一点是:获取通用知识并不需要特定数据。这正是LLM的核心意义所在。某机构可能主导AI聊天助手市场,但这不意味着他们会垄断底层可替换的模型和软件组件。由开放研究和开源软件促成的这种互操作性,恰恰是垄断的反面。

借助新的开发者工具和在开发时编译更小、私有模型的能力,公司现在不再受限于利用规模经济的第三方API提供商。如果你要构建一个做特定事情的系统,不需要将请求转换成任意语言,再调用最擅长理解任意语言的大模型。开发那些模型的人在讲述这个故事,但我们其他人没有义务相信他们。FINISHED