提到李沐老师,相信大家应该都非常熟悉了,亚马逊前首席科学家,AI 领域的资深大佬。
沐神同时也是一名 up 主,相信有不少同学也追过李沐老师的 AI 论文精读视频。
话说,自沐神创业 Boson AI 以后天天忙得看不见人,已经很久没有在 B 站包括 X 乎上更新动态了,还记得他上一次更新视频还是去年夏天那会。
不过,就在前几天,沐神的 B 站动态突然更新了。
距离上一次带来 Higgs Audio 语音大模型视频已经相隔快一年之后,这次沐神终于回来了。
并且一回来就带来了一条和 AI 实时数字人相关的最新演示视频。
在这期视频中,核心内容聚焦于展示他们团队最新自研的一项黑科技:
一个能够实时互动的 AI 数字人。
视频中最吸睛的环节,莫过于沐神本人与这个数字人所进行了一场实时的视频对话。
看着屏幕里那个反应灵敏、神态自然的自己,沐神幽默直言这个数字人的表现水平已经吊打自己了。
这项惊艳表现背后的技术支撑,正是来自于李沐联合创立的 Boson AI 公司最新推出的 Higgs Avatar v1 模型。
与市面上常见的、依靠预设动作或提前渲染生成的数字人不同,这个模型主打的是实时的临场感。
重点就在这个实时交互上。
和这个数字人对话的过程中,你可以随时打断他的讲话过程,他甚至还会收口屏住气息,在听完你的问题后,重新拾起对话过程。
针对新发布的 Higgs Avatar v1,用户只需要投喂一张静态的图片,它就能同步生成一个栩栩如生、富有表现力的面部,并且能说话、能倾听、还能作出反应。
更值得一提的是,视频中展示的所有内容,包括声音、对话逻辑、精准的口型同步、自然的头部晃动以及微表情等,全部都是 AI 现场实时渲染生成的。
整个过程既没有使用任何预设脚本,也没有动画流水线,每一帧都是 realtime 生成的。
沐神通过这期视频向观众传达了一个明确的信号:AI 智能体正在从单纯的语音对话迈向实时的面对面服务,这些交流细节,仿佛让你确信,对方是真的与你同在。
对应到应用场景方面,这种能够实时倾听、观看、反应的 AI 数字人,未来极有可能取代传统的文字或语音客服,可以广泛落地在诸如产品咨询、面试陪练、企业培训以及虚拟助手等需要高频沟通和信任感的场景中。
并且在有了这次的 Higgs Avatar 模型加持之后,Boson AI 的 Higgs 模型架构便再添新层级。
以后 Higgs Audio 可以专门负责语音理解和生成,而 Higgs Avatar 则可以负责对应的面部呈现,这两者同属 Boson AI 自研的基础模型,从一开始便被设计为协同运行,为后续构建高水平、有真实临场感的 AI 应用打下基础。
说到沐神所创业的 Boson AI 公司,可能有些同学还不是很了解。
早在 2023 年的时候,当时沐神离职出来创业的消息就曾在科技圈里引起了一阵关注和讨论。
彼时,沐神的创业方向就锁定在了 AI 方向的 LLM 创业,且项目名定为了 Boson AI,不过当时关于这家新公司的介绍资料并不多,官网也没什么内容。
如今,经过这几年的发展,这家公司的技术方向及产品策略现在也逐渐明确了。
众所周知,生产级对话式 AI 数字人对于交互延迟、轮次切换、语音理解生成、语音与面部表情的情感匹配、动画效果等等要求都很高,如果仅由外部组件或者 API 拼接而成,那效果必定大打折扣。
因此 Boson AI 创业之初的一个准则就是,不满足于简单地调用市面上通用大模型的 API 来做应用,而是坚持底层研发。
他们认为只有把声学、面部表情、情感对齐以及端到端的工作流都打通,才能真正解决 AI 交互中的延迟、卡顿和出戏的问题。
这种对技术的极致追求,也体现在他们名字 Boson(玻色子)的由来上,按沐神所说,这其实是一个源自量子物理的梗,寓意他们希望像玻色子一样,成为构建 AI 世界的基础力量。
并且这家公司还有一个比较鲜明的特点,就是它并不追求打造一个万能的通用 AI,而是专注于特定的垂类市场,可以为企业提供高度定制化的垂直领域 AI 模型。
基于这个清晰的思路,Boson AI 围绕 Higgs 这个品牌,正在逐步完善自己的产品技术栈,这其中已经公布的目前包括两个部分:
1、Higgs Audio
这个系列模型专注于高质量的语音理解和生成,让 AI 能听懂并自然交流。
例如开源的 Higgs Audio V2 就是一个功能强大的音频基础模型,基于超过 1000 万小时的音频数据训练而成。
能生成极具表现力、富有情感且自然流畅的音频内容,甚至能克隆声音进行旋律哼唱。
2、Higgs Avatar
也就是沐神在上面最新一期视频里所展示的技术,只需一张照片就能生成实时互动的数字人,赋予 AI 真实的面容。
其最大的亮点是仅凭一张静态照片,就能实时生成与语音同步的口型和面部表情。
这背后是 Boson AI 的核心技术优势:通过全栈自研,将语音、语义和视觉模块深度融合,从而解决了多个外部 API 拼凑时常见的延迟和交互割裂感,以确保用户体验。
说回 Boson AI 这个公司背后的创业团队。
其核心团队汇聚了多位在机器学习、深度学习框架和系统架构领域的顶尖技术专家。
在项目的创始人名单里我们可以看到,沐神正是其首席技术官 CTO。
而与沐神一起创业,并且担任 Boson AI 公司 CEO 的则正是沐神自己的导师,也是另一位前亚马逊 AI 大牛:Alex Smola。
从事 AI 领域的同学相信对于 Alex Smola 应该并不陌生,Alex Smola 的履历也堪称机器学习领域的活教科书。
他曾在卡耐基梅隆大学(CMU)担任教授,是全球公认的机器学习权威,学术论文被引十几万次,而且他和 Aston Zhang 和沐神等一起创作的《动手学深度学习》一书在行业内更是家喻户晓,影响深远。
Alex Smola 的学术生涯与产业实践交织紧密,从雅虎到谷歌,再到亚马逊担任 VP 级杰出科学家,一路走来在学术与产业的双重深耕中,积累了诸多技术商业经验,这也为现在 Boson AI 的商业模式打下了基础。
而作为 Alex Smola 的得意门生,沐神的职业生涯同样闪耀。
他毕业于上海交大,后赴 CMU 师从 Smola,期间作为核心作者之一主导开发了著名的深度学习框架 MXNet,成为 AI 开发者工具的重要里程碑。
后来加入亚马逊后,沐神也迅速晋成长为资深首席科学家,并持续在技术前沿探索。
说起这师徒两人的合作默契,其实早在 CMU 期间就已经颇有所凸显,包括后来师徒二人还一起在 UC 伯克利和斯坦福大学等一起讲过课。
自 Boson AI 创业之后,这支初始创业团队不断壮大,如今已是一个由 30 多名研究人员、工程师和运营人员组成的团队了。
回顾沐神的求学职业生涯,从学者,到产业,再到如今躬身入局的创业者,一路走来,无不透露着务实、目标以及坚持。
就像沐神在《用梯度下降法来优化人生》那篇文章中所写的那样:
- 要有目标:你需要有目标。短的也好,长的也好。认真定下的也好,别人那里捡的也好。就跟随机梯度下降需要有个目标函数一样。
- 要坚持走:不管你的目标多复杂,随机梯度下降都是最简单的。每一次你找一个大概还行的方向(梯度),然后迈一步(下降),重点是一定要迈一步。
文章的最后,也期待沐神后续能给我们带来更多的精彩和故事。
注:本文在GitHub开源仓库「编程之路」 github.com/rd2coding/R… 中已经收录,里面有我整理的6大编程方向(岗位)的自学路线+知识点大梳理、面试考点、我的简历、几本硬核pdf笔记,以及程序员生活和感悟,欢迎star。