天工版 o1、4o 同时上线!超强逻辑推理秒杀数学竞赛,实时语音陪聊太上头

412 阅读14分钟

【新智元导读】 今天,「天工大模型 4.0」o1 版 / 4o 版在网页端和 APP 端正式上线了,人人可玩的那种。

最近,2024 中国互联网价值榜发布。

2024 年 AIGC 应用用户规模 TOP 榜中,昆仑万维旗下天工 AI 强势入围!

如今,天工 AI 已经取得了中国典型工具类 AIGC 应用 TOP 4 的好成绩,在多梯队的猛烈厮杀格局中稳稳占据优势。

同时,还不断有好消息传来。

就在今天,天工大模型 4.0 o1 版 / 4o 版正式上线天工网页端和 APP。底座大模型,正式进化到「天工 4.0」。

「天工大模型 4.0」 o1 版(Skywork o1)的上线,意味着国内首款中文逻辑推理能力的 o1 模型来了!

数学高考题、考研题、奥数题,Skywork o1 都能靠自己的逐步思考破解。

注意!Skywork o1 并不是简单地复现 OpenAI o1 模型的工作。它不仅在模型输出上内生了思考、计划、反思等能力,还在模型真正拥有了思考和反思之后,带来了推理能力的提升。

在最近热转的复旦等机构解密 OpenAI o1 路线图这一研究中,skywork-o1 就被列为国内 o1 级模型的代表之一

并且,昆仑万维天工大模型 4.0 上线后,应用端不仅在逻辑推理和代码功能上有了几大提升,语音交互上的表现也着实令人惊叹。

一个月正式发布的新产品「实时语音对话助手 Skyo」,如今有了史诗级提升。

众网友实测后纷纷表示,原来国内版的「Her」,已经进化到了不输 OpenAI 版本的地步!

具备多语言对话能力的 Skyo,不仅能快速响应、主动发起对话、实时打断,给出的回应还十分情感化,已经具备了类人特征。

还等什么,实测马上呈上。

超强推理 + 自我反思,免费体验

现在,分别打开天工 APP 或网页端,任何人皆可免费享用最新天工 4.0 4o 版或 o1 版模型加持的 AI 了。

既然主打的是推理,那么我们就先来看看 Skywork o1 在数学题上的表现如何。

体验地址:www.tiangong.cn/o1Chat/055

先来个硬核的,AIME 数学竞赛题。

题目是这样的——

Jen 通过从 S={1,2,3, ... ,9,10} 中挑选 4 个不同的数字来参加抽奖。从 S 中随机选择 4 个号码。如果她的至少两个号码是随机选择的号码中的 2 个,她就能赢得奖金;如果她的四个号码都是随机选择的号码,她就能赢得大奖。假设她赢得了奖品,她赢得大奖的概率是 m/n,其中 m 和 n 是相对质的正整数。求 m+n。

Skywork o1 用时 1 分 55 秒,经过一番思考后,最终给出了正确答案——116。

上下滑动查看

对于下面这道同样有些难度的数学题,模型在经过一番思考之后,很快就想到了用图论中的「图兰定理」去解。

值得一提的是,在思考过程中它对答案不确定时,甚至会反思自己的回答,直至最终确定 25 是正确答案。

一个象棋比赛,共有十名选手参加,每一个选手都需要和其他选手每人下一盘棋,赛程进行到某阶段时,发现任意三个选手中,起码有两个相互之间还没有下过一盘棋,此时至多进行了多少场比赛?

上下滑动查看

2024 年高考新课标一卷的数学真题,Skywork o1 也能做出正确答案,就是方法稍微「笨」了点。

复杂一些的逻辑推理题,Skywork o1 也能做对。

这道从池塘中取水的推理题,它通过一步步的思考过程,推理出了正确答案。

上下滑动查看

还有这道「一个人花 8 块钱买了一只鸡,9 块钱卖掉了,然后他觉得不划算,花 10 块钱又买回来了,11 块卖给另外一个人。问他赚了多少」,Skywork o1 反复斟酌之后给出了正确的答案。

上下滑动查看

为什么刚出生的小孩只有一只左眼?这个脑筋急转弯,没能瞒过 Skywork o1 的眼睛。

上下滑动查看

弱智吧难题,不在话下。

比如父母以后的钱都是留给我的,可不可以认为父母现在正在花我的钱?Skywork o1 从财产所有权、继承权、遗嘱和继承法、道德和家庭关系方面给出了全面的回答。

上下滑动查看

吕布马上无敌,典韦步战无敌,吕布骑着典韦会不会天下无敌?Skywork o1 表示,有趣的脑洞只是一个戏谑的表达,而非严肃的历史或军事讨论。

上下滑动查看

最后,上一道 LeetCode 贪心算法的分发饼干代码难题。题目如下——

假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。

对每个孩子 i,都有一个胃口值 g[i],这是能让孩子们满足胃口的饼干的最小尺寸;并且每块饼干 j,都有一个尺寸 s[j] 。如果 s[j] >= g[i],我们可以将这个饼干 j 分配给孩子 i,这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子,并输出这个最大数值。

Skywork o1 也顺利给出了答案。

自研技术方案,持续创新迭代

那么,Skywork o1 为何能在逻辑推理任务上,有如此大幅的提升?

这就要得益于天工三阶段自研的训练方案。

  • 推理反思能力训练

首先,在推理训练方面,团队通过自主研发的多智能体体系,构建出了高质量的分步推理、反思与验证数据。

然后,用这些高质量且多样化的长思考数据,对基座模型进行继续预训练和监督微调,并在版本迭代中采用大规模的自蒸馏和拒绝采样,从而显著提升了模型的训练效率和逻辑推理能力。

  • 推理能力强化学习

其次,在强化学习阶段,团队创新性地提出了一种适配分步推理强化的奖励模型——Skywork o1 Process Reward Model(PRM)。

在最新的版本中,团队将 Skywork-PRM 的应用范围,从原本侧重的数学和代码领域,拓展到了常识推理、逻辑推演和伦理决策等更广泛的场景中。同时,还针对写作、闲聊等通用领域以及多轮对话构建了专门的训练数据,实现了全场景覆盖。

此外,团队重点提升了 Skywork-PRM 的模块化评估能力,特别是在处理 o1 风格思维链方面,优化了试错和反思验证机制。通过更细致的评估体系,为强化学习和搜索过程提供了更精准的奖励信号指导。

  • 推理 planning

最后,在推理的规划方面,团队通过自研的 Q * 线上推理算法,以及模型的在线思考能力,实现了最优推理路径的寻找。

概括来说,Q * 算法通过借鉴人类大脑中「System 2」的思考方式,将 LLM 的多步推理过程抽象为一个启发式搜索问题。

然后,再通过 Q * 线上推理框架与模型在线思考的结合,实现了推理过程中的精细规划,进而指导 LLM 的解码过程。

Q * 算法的成功落地,不仅显著提升了模型的线上推理能力,同时也标志着 Q * 算法的全球首次实现和公开。

论文地址:arxiv.org/abs/2406.14…

更进一步的,团队基于 Q * 算法对推理系统进行了全面优化。

  • 第一点是模块化的树形结构推理:

团队通过高质量、多样化的长思考数据对 Skywork o1 进行预训练和监督微调,使模型具备了对整个推理流程进行系统规划,自动将回答按层次展开,同时在推理过程中融入自我反思和验证环节的结构化输出能力。

此外,还创新性地利用以「模块」为单位的规划方式,取代了传统的以「句子」为单位的方法。既提升了规划效率,也使 PRM 能够基于更完整的模块化回答进行准确判断和推理指导。

  • 第二点是自适应的搜索资源分配:

针对现有 o1 风格模型存在的过度思考问题,团队开发出了一种全新的自适应搜索资源分配机制。也就是,通过对用户 query 进行难度预估,自适应地控制搜索树的宽度和深度,进而实现简单问题快速响应、复杂问题多轮验证的动态平衡,有效提升了系统的计算效率和回答准确率。

最终,Skywork o1 在 GSM8k,MATH,OlympiadBench,AIME-24 和 AMC-23 标准数学基准测试,以及 HumanEval、MBPP、LiveCodeBench 和 BigCodeBench 代码基准测试中,性能显著优于常规通用大模型,表现仅次于 o1-mini。

实时语音助手,开启 AI 交互新纪元

在 APP 端,「天工大模型 4.0」4o 版加持的实时语音对话助手 Skyo,同样带来了前所未有的自然交互体验。

它不仅能在 1 秒内快速响应,还具备了多语言对话、主动发起对话、实时被打断的能力。

与此同时,4o 未来版本可以支持个性化声音定制功能,能够以任何人希望的风格畅聊。

这是这种个性化的体验,让 4o 不再是冰冷的 AI,而是一个更智能的 AI 伙伴。

上下滑动查看

当你唤醒 Skyo 后,他会主动热情打招呼,并尝试开启一个新的话题。当你生活中遇到难题时,可以向它寻求建议和帮助。

比如,家里 2 岁的宝宝总是说不要不要,我该怎么办?

视频详情

一年迭三代,跻身国内第一梯队

纵观全球 AI 行业的发展,过去一年里,应用落地成为最受瞩目的关键词。

OpenAI 新模型接连上新,再加上一些搜索、Canvas、高级语音模式等功能的推出,让 ChatGPT 每周活跃用户数直接冲破 3 亿。

微软押注的 Copilot 不断迭代,并赋能了更多平台 / 工具,包括 GitHub、Office 365 等等。

至于谷歌,今年最爆火的一款应用非 NotebookLM 莫属,一键转写总结播客让所有人拍案叫绝。

还有 Anthropic、亚马逊、Meta 等国外科技巨头们,都在 AI 落地战场上加速布局。

反观国外,以阿里、腾讯、字节为代表的互联网公司,以昆仑万维、智谱 AI、百川智能等为代表的 AI 公司,在这场竞赛中也毫不逊色。

据 QuestMobile 统计,截至今年 9 月,国内 AI 原生应用活跃用户数接近 8000 万人。

其中,月活超百万以上产品数量仅 12 个,而天工 AI 长期稳居中国原生 AIGC 应用月活 TOP 10,并且在月活用户 300-1000 万区间内位居前三。

值得注意的是,昆仑万维凭借其扎实的技术积累,以及清晰的战略布局,正逐步确立自己在这个赛道中的领先地位。

去年 5 月,其主打产品天工 AI 日活跃用户(DAU)已经突破百万大关。

作为一家老牌互联网企业,昆仑万维从 2008 年诞生后,一直在书写着自己的 AI 传奇。

2020 年,在 GPT-3 出世的这个关键节点上,团队开始全面布局 AIGC 和大模型领域。

2024 年,是昆仑万维在 AI 领域的丰收年。

截至目前,他们已自研出五大模型体系,包括文本大模型、多模态大模型、3D 大模型、视频大模型和音乐大模型。

在大模型方面,团队在 2 月推出 MoE 大语言模型「天工 2.0」,紧接着 4 月又迭代了 4000 亿参数的「天工 3.0」,性能大幅超越 Grok-1,一举成为全球最大的开源 MoE。

与此同时,音乐生成大模型「天工 SkyMusic」正式诞生。6 月,昆仑万维开源了 2000 亿稀疏大模型 Skywork-MoE。再到 11 月,4o 和 o1 版模型相继诞生。

不仅如此,昆仑万维的影响力已遍布全球市场。

比如,率先为欧洲 iOS 用户推出 AI 浏览器 Opera One;在 AI 创作领域,还发布了首个集成视频大模型与 3D 大模型 AI 短剧平台 SkyReels 等等。

目前,公司在全球平均有近 4 亿月活,海外收入占比高达 89.7%,在社交、游戏、音乐等领域已经形成壁垒。

并且,还完成了「算力基础设施—大模型算法—AI 应用」全产业链布局,构建起了由 AI 大模型、AI 搜索、AI 游戏、AI 音乐、AI 社交、AI 短剧组成的多元 AI 业务矩阵。

昆仑万维的实践带来的启示是,AI 落地不仅仅需要强大的技术能力,更需要的是对应用场景的深刻理解。

正是这种扎根于实际应用场景的技术研发思路,使得团队能够准确把握用户需求,将过往积累的能力快速转化为解决世界问题的产品。

这次,4o 和 o1 在天工全新上线,又将成为这款应用破局的下一个爆发点。

不仅如此,昆仑万维对 AGI 发展路径的思考极具前瞻性。

回顾过去两年,科技圈对 AGI 的讨论可谓是起起落落。特别是 2024 年年初,随着 Sora 诞生之后,许多人一度陷入过度乐观的狂热,认为 AGI 实现就在一两年之内。

然而到了年中,这股热潮又迅速消退,悲观论调开始盛行——AGI 遥遥无期。

昆仑万维创始人周亚辉对未来 30 年,做出了富有远见的判断:人类社会将从感知转向表达,创作和自我表达将成为增长最快的曲线。AGI 时代的标志是人形机器人真正进入社会,2030 年之后才会开始逐步实现通用人工智能 AGI。

关于这个时间节点,他从未改变过。

不过,在迈向 AGI 时代之前,机器人技术的面临着三大核心挑战:空间智能大模型;运动控制技术;机器人商业化定位以及能源问题。这些挑战的突破,皆需要全球顶尖 AI 科学家的努力。

周亚辉认为,机器人技术发展的进程如何,其在军事领域的应用是一个重要的指标。

未来,如果机器人产业带来超 10 亿美金市场规模,将会对整个社会结构和社会治理产生重大的影响。

基于这些判断,昆仑万维在 2024 年初就确立了「实现 AGI,让每个人更好地塑造和表达自我」的新使命。

而现在,在这条通往 AGI 的道路上,他们正在用技术创新和产品落地,一步步将愿景变为现实。

参考资料:

artofproblemsolving.com/wiki/index.…

天工 o1 模型:

www.tiangong.cn/o1Chat/055