国产 4o 大模型,秒懂国风李子柒

277 阅读4分钟

又一个国产版《Her》,就这么水灵灵地来了。

作为一个实时语音对话的功能,效果好不好,实测见分晓。

在我们提出 “被老板骂了” 这样的情景之后,Skyo 会用自己的方式来引导我们看开一些。

而当被要求切换女声声音时(00:42),Skyo 也是有求必应,秒变女声,然后有理有据地罗列观点进行心理开导。

由此可见,Skyo 作为新晋国产实时语音对话产品,在多个维度的测试中都属于达标了的那种。

那么接下来的一个问题:

怎么做到的?

Skyo 实时语音对话助手是一个多模态大模型项目,应用了端到端实时语音对话建模技术。

其强大的记忆功能使其能够在对话中追踪并回忆用户的偏好与历史信息,从而提升多轮对话的准确性。

这种精细的技术积累,使得 Skyo 在高强度的对话交互中依然保持卓越的稳定性与流畅性。

除此之外,Skyo 采用了全双工低延迟的实时语音对话架构。

全双工意味着该助手能够同时进行听和说的操作,用户无需按下对话开始和结束按钮即可实现无缝交流,这就让人机的互动变得更加自然和高效。

在技术测试中,Skyo 以其低延迟的实时响应接近人类思考的反应时间,体现了在对话响应速度方面的显著优势。

在互动能力方面,Skyo 拥有较好的情感理解与个性化记忆功能。

它不仅可以记录用户的历史偏好,还能根据用户需求提供个性化的互动体验,例如提供温暖的女声或更具情感色彩的回应。

这使得 Skyo 在非正式、非固定场景下,能够保持一种尊重且平等的人机交互体验。

Skyo 的卓越性能依赖于其多模态模型的应用,使其能够在多种场景中保持高质量的交互体验。

例如,用户可以与助手讨论最新的科技新闻,助手能够根据用户的请求,从科技资源库中检索相关信息并进行异步交互,增强用户的互动感与沉浸体验。

此外,Skyo 系统的自研特性使其在互联网语音交互与应用场景中具有出色的适应性。

通过自研的数据积累与语音交互技术,Skyo 实现了实时、高效且个性化的沟通体验,使得用户在每次对话中都能感受到近乎无障碍的人机互动与温暖陪伴。

以上就是昆仑万维 “炼” 成 Skyo 背后的秘籍了。

又拼上一块多模态 “拼图”

最后,我们聊回到实时语音对话助手本身。

虽然 GPT-4o 可以说是率先打开了这一市场的大门,但时至今日类似的产品仍然存在诸多痛点。

例如现有产品在多语言支持方面仍有不足,难以满足全球用户的需求;再如它们虽然在语义理解和生成方面表现出色,但在情感理解和个性化记忆方面仍有待提升。

此外,实时语音对话助手在响应速度和流畅性方面也需要进一步优化,以此来确保用户体验的连贯性和自然性。

但最重要的一点,或许还属消息的实时性了,毕竟我们平时聊天也都更倾向于谈谈一些新鲜的事物。

从这次的实测中不难发现,Skyo 在诸多维度上已经符合要求,是在实时语音对话助手领域发展中打了个样的那种。

至于对昆仑万维在大模型时代自身的发展,Skyo 可以说是有拼上了一块多模态的 “拼图”。

这一点,把它在每个节点的产品铺开来看,便可一目了然了。

首先就是其大底座天工大模型系列,包括天工 1.0、天工 2.0、天工 3.0,近期还将邀测天工大模型 4.0 O1 版,具备中文逻辑推理和反思能力。

其次在其它模态上,还包括 AI 搜索(天工 AI 搜索)、AI 音乐(天工 SkyMusic)、AI 社交(linky)、AI 视频(AI 短剧平台 SkyReels)等。

加上此次的 Skyo,昆仑万维称得上是国内在多模态与工程能力,以及布局全面型上的佼佼者了。

One More Thing

据了解,Skyo 即将集成在天工 AI 的 APP 中。

届时,除了我们展示的能力之外,还会有生成音乐主动交流以及更多个性化交互等众多新能力哦~

那么这样的实时语音对话助手,是否聊到你的心趴上了呢?

—  —