本来不想写这么宏大的话题,但是AI已经走入了我们的生活,学习AI、使用AI、拥抱AI已经成为了不可阻挡的趋势,所以后面我也会经常分享一些好的学习资料和学习心得以及行业资讯,希望可以和大家一起走进AI的世界。
2月20日至22日,Kiseki Labs团队参加了在纽约举办的2025年AI工程师峰会。该峰会已举办三届,已成为全球领先的技术会议,为AI工程师和领导者提供交流、分享知识、共同推动该领域的发展。今年的主题是“Agents at Work”(工作中的代理),特别关注生产实施案例,尤其是在金融领域——可靠的AI技术至关重要。
此次峰会汇集了来自 OpenAI、Anthropic、LinkedIn、Bloomberg 和 Jane Street 等公司的业界领先的 AI 代理构建者,他们分享了现实世界的经验、挑战和解决方案,我们正在深入探讨许多人所说的“代理年”。
根据这两天的笔记和观察,我们提炼出八个关键主题,揭示了人工智能领域的发展方向以及企业在其人工智能战略中需要优先考虑的事项:
1. 人工智能工程学科的兴起
人工智能工程定位于软件工程和机器学习工程之间,正在开拓自己的特色。正如本次会议的联合组织者、热门播客“潜伏空间”(Latent Space)的联合主持人Swyx(Shawn Wang)在其主题演讲中所强调的那样,“人工智能工程将作为一门独立的学科出现”,拥有自己的方法论和最佳实践。他指出,该领域目前“在软件工程和机器学习工程之间摇摆不定”,但正在迅速确立其独特的特征。
所需的技能融合了传统的软件工程原理和机器学习专业知识,并添加了独特的附加功能。领英生成式人工智能基础工程经理王晓峰分享了他们的团队如何围绕这一新学科进行重组,并指出“任何人只要能够改进系统行为,都可以成为人工智能工程师。” 他们的招聘策略现在更注重工程技能而非机器学习专业知识,并重视多元化的背景和批判性思维。
这种演变正在创造新的职业发展路径和组织结构。像 Jane Street 这样的公司分享了他们如何在协作环境中平衡工程人才与领域专家,专注于“具有成长心态的潜力,而非纯粹的经验”。这对于专业领域尤为重要,正如 Jane Street 通过为 OCaml(一种他们广泛使用但在公共代码库中很少出现的函数式编程语言)构建 AI 功能所展示的那样。为了成功开发这项利基技术,他们创建了将传统开发人员与 AI 专家相结合的混合团队,并设立了专注于领域专业知识与 AI 能力交叉的新职位。其结果不仅是技术上的进步,更是对工程团队运营和协作方式的根本性重构。
2. 现实差距:能力与可靠性
几位发言者分享了他们对现实世界中人工智能应用的评估:演示中看起来令人印象深刻的东西,在实际生产中却常常令人失望。AI Snake Oil 团队提供了一些令人大开眼界的例子,一些备受瞩目的法律人工智能工具经常出现幻觉并传递错误信息。
人工智能理论上能做到的事情与它能够可靠做到的事情之间的差距仍然很大。“能力并不意味着可靠性”是峰会期间发言者反复强调的一点,凸显了这一关键区别。Writer 团队指出,在特定领域的任务中,模型“倾向于给出错误答案,并在应该拒绝回答的时候继续回答”。
这种认识正在将行业的重点从突破界限转向确保可靠性。新的口号似乎是“成为一名人工智能工程师就是成为一名可靠性工程师”,这凸显了可靠性的重要性。基准性能很少能转化为现实世界的成功,这一点从那些备受瞩目的工具的批评性评论中可以看出。
3. 生产历程:从原型到规模化
Contextual AI 的创始人强调,“试点和生产之间的差距总是比你预期的要大”。这种现实检验是各家已投入生产智能体的公司的演讲中反复出现的主题。Douwe Kiela 凭借其在担任 Contextual AI 首席执行官期间部署复杂 AI 系统的经验,指出虽然构建令人印象深刻的演示相对容易,但真正的挑战在于将这些系统投入实际使用。
发言者强调了从第一天开始就为生产而设计的重要性,而不是事后才考虑。Sierra 将“每位客服人员都视为一件产品”的理念,正是这种以生产为先的理念的体现。他们的团队从一开始就注重客户体验,并开发了全面的质量保证流程,包括关注每一次对话,以持续改进客服人员。
生产挑战不仅局限于技术考量,还包括团队结构和组织方法。彭博社的演讲强调了灵活的团队结构在早期人工智能代理开发过程中的重要性。他们强调,尽管各组织仍在摸索有效的方法,但应该保持灵活的团队配置和系统架构。他们提出的实用建议包括将某些功能(例如护栏和安全检查)作为所有代理的共享服务来实现,而不是为每个用例单独构建。这种方法表明,生产就绪需要周到的组织设计以及技术实施。
4.人工智能代理的经济学
由于大规模推理成本仍然很高,诸如微调和提炼之类的优化策略变得至关重要。Method 和 OpenPipe 团队解释了他们如何应对一项复杂的挑战:将来自数百个来源的非结构化金融数据处理成可供银行操作的信息。在人工智能出现之前,这需要离岸承包商手动致电银行并收集信息——这是一个效率低下且容易出错的流程。
Method 的经历是一个警示——他们使用 GPT-4 代理的第一个月就收到了 7 万美元的账单,这迫使他们迅速重新思考自己的方法。他们与 OpenPipe 的合作促成了一个创新的解决方案:将昂贵的 GPT-4 和 o3-mini 模型中的知识提炼到更小的 Llama 3.1 8B 模型中。这种方法在保持可接受的质量阈值的同时,显著降低了成本。
质量、成本和延迟这“推理三重奏”需要谨慎权衡。OpenPipe 的方法是根据业务特定的阈值衡量每个模型的错误率,这为权衡这些因素提供了一个实用的框架。他们的流程包括直接与业务利益相关者协商,根据具体用例为每个指标确定可接受的性能水平,而不是套用任意的技术标准。
结果证明了经济约束如何推动创新。Method 团队实现了惊人的规模——仅用两名工程师就拥有了 5 亿个智能体。他们的建议非常务实:“不要购买自己的 GPU”以及“微调应该是最后的手段,当其他现成模型的方案失效时,再去探索。”
5. 构建值得信赖的人工智能系统
评估框架已经从锦上添花演变为业务关键。正如 OpenAI 和 Anthropic 所强调的那样,在每个人都能接触到类似模型的市场中,“评估是贵公司的竞争优势”。Anthropic 建议设计“与实际用例相符的测试,并使用以用户为中心的指标进行验证”。
彭博构建“反脆弱系统”并配备强大护栏的理念反映了日益增长的共识。他们的方法假设代理输出可能存在错误,并在每一步都进行验证。对于彭博而言,某些品质是不可妥协的:“精准、全面和快速”。他们的护栏会在每次执行后检查代理步骤,而不是试图通过日益复杂的提示来防止错误。
可观察性已成为值得信赖的人工智能系统的基石。LinkedIn 通过大力投资基于 OpenTelemetry 的监控基础设施证明了这一点。这项投资使他们的团队能够详细追踪代理行为、回放历史数据,并在出现问题时重新运行代理工作流程。LinkedIn 生成式人工智能基础工程经理 Xiaofeng Wang 强调,这一可观察性层不仅仅用于调试——它通过创建透明度和问责制,对于建立对人工智能系统的信任至关重要。当代理做出决策时,他们的行为可以被追踪、理解和纠正,这对于在高风险的企业环境中维护利益相关者的信心至关重要。
6.用户体验的重要性
用户体验的重要性超越模型选择,这在多个演讲中是一个令人惊讶的主题。Contextual AI 的首席执行官兼联合创始人 Douwe Kiela 强调,当系统设计和用户体验欠佳时,“更好的法学硕士并非答案”。根据 Contextual AI 部署企业 AI 系统的经验,Kiela 解释说,虽然许多组织专注于拥有最先进的语言模型,但更大的成功往往来自于改进系统在将相关信息传递给模型之前检索信息的方式——他倡导“思考系统,而不仅仅是模型”的 AI 开发方法。
BrightWave 是一家专注于财务分析人工智能系统的公司,它警告人们警惕“延迟陷阱”——即错误地认为处理时间越长,结果越好。该公司在峰会上的代表 Mike Conover 解释了他们的解决方案:让用户了解整个流程,并控制分析深度。正如他所解释的那样:“即使你等待更长时间,也不能保证你一定会得到更好的答案。” 他对其财务分析工具的建议是:“让用户能够深入研究人工智能生成的财务报告的任何特定部分,而不是等待完美的综合分析。”
业界正迅速从聊天体验转向多模式界面。谷歌的深度研究 (Deep Research) 展示了这一转变,它结合了研究计划、实时网站浏览可视性和全面的数据来源,将用户体验从被动等待转变为主动参与。Lux Capital(一家投资新兴技术的风险投资公司)的合伙人 Grace Isford 强调,需要“赋予人工智能眼睛、耳朵、声音、鼻子和触觉”,才能超越纯文本交互。
7. 从自动化到协作的转变
人工智能的叙事正在从取代人类发展到增强人类的能力。OpenAI 在关于创建共同创造的智能体的演讲中,将“共同创新者”描述为下一个范式,将智能体的能力与人类的创造力相结合。这一愿景将“智能体+创造力(人机协作)”融合在一起,超越了单纯的自动化。
领域专业知识与人工智能的结合始终能够产生卓越的成果。Jane Street 在 OCaml 代码生成方面取得了成功,尽管训练数据有限,但这体现了人类知识如何引导人工智能在专业领域脱颖而出。为了克服 OCaml 公开代码示例的缺乏,他们开发了一种创新的数据收集方法:他们的系统每 20 秒自动捕获开发人员代码编辑器的快照,并记录代码是否成功编译的信息。这创建了一个丰富的数据集,包含有效代码、错误及其修复,使他们的人工智能能够从真实的编程模式和工作流程中学习。
根据谷歌的研究,Z世代用户占GenAI用户的70%,他们正在推动这种协作方式。他们“希望与AI共同创造”,而不是让AI包揽一切,这表明人们对AI的认知和使用方式正在发生代际转变。谷歌团队强调,“客服人员应该坦诚自身的局限性”,以便与这些期望协作而非被取代的用户建立信任。
8. 未来前沿:语音、RL 和个人代理
语音界面既带来机遇,也带来挑战。SuperDial 的小团队展示了实用的语音代理实现方案,他们采用多模态方法(结合文本和音频),而不是等待完美的语音对语音模型。他们的成功取决于解决语音相关的问题,例如延迟、发音规则以及强大的回退选项。他们给出的实用建议是:“不要从零开始构建。利用现有技术,并跟踪所有延迟。”
强化学习 (RL) 正在以意想不到的方式改变智能体的能力。摩根士丹利的机器学习研究员 Will Brown 提出了“评分标准工程”——一种新颖的方法,开发者可以创建结构化的评估框架(评分标准),并通过强化学习来训练和改进人工智能智能体。与专注于制定完美指令的传统提示工程不同,评分标准工程定义了明确的成功标准,智能体可以随着时间的推移不断优化。DeepSeek 的成果展示了这种基于 RL 的方法如何实现更复杂的推理,并通过这一过程自然地形成“长链思维”。
个人代理提出了关于隐私和控制的重要问题。Meta 的 PyTorch 团队主张将这些代理保留在本地,而不是基于云,尤其是在它们获得电子邮件管理等更强大的功能之后。尽管开源语音模型仍然存在技术障碍,但他们强调,随着开放模型的快速改进,本地人工智能的可行性将日益增强。本地代理的关键优势在于其“强大的行动空间”以及增强的“隐私、安全和控制”。
9. 结论
2025年人工智能工程师峰会重点强调了人工智能发展领域正在发生的重大变革。所有演讲都传达了明确的信息:“从简单入手,注重可靠性而非性能,从第一天开始就为生产而设计。”
许多发言者指出,尽管模型能力正在快速提升,但最成功的人工智能应用并非仅仅依靠尖端技术。峰会期间,真实案例证明,将领域专业知识与人工智能相结合能够带来卓越的成果。这凸显了一种清晰的思维转变:未来属于“共同创新者”,而非单纯的自动化工具,这将引领我们从替代走向合作。