听歌、看视频就能做网页?阿里这个新模型有点离谱

0 阅读5分钟

大家好,我是冷逸。

刚刚,阿里发布了新一代全模态模型:Qwen3.5-Omni。

图片

从bench成绩单来看,它的整体性能已经超过了当前顶级模型Gemini-3.1-Pro,拿下215项SOTA。尤其是在音视频理解、推理、识别、翻译和对话这些核心能力上,表现相当突出。

图片

更有意思的是,这次Qwen3.5-Omni还把API分成了两种形态:离线版 + 实时版。

这个设计,看似简单,其实非常关键。

对于动辄几个小时的长视频场景,如果全部用实时API处理,Token成本会非常夸张。而离线API的出现,本质上是把这类“重处理任务”的成本打了下来。

比如:

视频/直播审核

自动分镜拆解

视频caption生成

视频监控分析

以及基于视频数据构建的行业应用

过去这些,要么贵,要么慢,要么效果不稳定。而现在,终于有一个相对完整的国产全模态模型,把这块补上了。

我们也第一时间做了一些实测,直接上案例。

1\一手实测

场景1:看视频做网页

这个月初,来自深圳坪山的一家民营企业,发明了一种新的电池技术:无论多大电池,无论何种车型,10%-70%充满电只用5分钟,10%-97%充饱电只用9分钟。

我把他们的电池技术介绍视频,直接丢给Qwen3.5-Omni,让它一边理解视频内容,一边Vibe Coding一个技术展示网页。(视频1)

整体体验是:流畅、顺滑,而且“基本能用”。

它对画面和台词的理解是到位的,生成的网页结构也比较合理。不过有一个小问题——当人声和背景音同时出现时,它还不太擅长做精确区分。

但好在一点:可以随时打断。

在交互过程中,我可以实时插入新的指令,它会立刻调整意图理解方向,延迟大概在1-2 秒左右,这个响应速度在行业里算是比较领先的了。

来看下它最终写的网页。

图片图片图片

还不错,因为模型原生具备WebSearch能力的,它可以边搜索、边理解、边生成,最终把外部信息融合进交付结果里。

场景2:听音乐做网页

既然能看视频Vibe Coding,那我就试了一个更抽象的任务:听音乐设计网页。(视频2)

我给它放了一段《黑神话:悟空》的配乐,让它生成一个「西游·小西天」主题网站,要求风格完全贴合音乐氛围。(视频3)

它准确抓住了音乐里的史诗感、压迫感和宗教氛围,整体设计走的是“暗黑新中式”风格:深墨黑 + 暗金 + 朱砂红。

而且不是简单堆颜色,而是有意识地“压金提黑”,做出了一种被侵蚀的庄严感,有点“邪佛”的意味。确实非常适合黄眉老怪那种“假作真时真亦假”的诡谲氛围。

这种审美理解,其实已经不只是“识别”,而是带一点“创作参与”了。

我又让它做了一个更完整的Case:听一首歌,生成一个MV网页。(视频4)

选的是谢霆锋的《香水》。(视频5)

整体视觉是深黑背景 + 柔金点缀,带一点高级、克制的情绪。交互上还做了蝴蝶粒子效果,呼应歌曲中“慢慢散去渐渐消失不见”的意境。

这种设计,不是单纯“好看”,而是和歌曲的主题「记忆、逝去、气味」是对齐的。

属于那种,你真的会想停下来听一会儿的作品。

场景3:看视频写小红书

接下来是更“接地气”的场景。

我把《蜘蛛侠4》的预告片丢给它,让它做一份观影前科普。

图片

它会逐帧拆解视频,再结合 WebSearch,把剧情信息补全。整体逻辑是通的,准确率也不错。

图片

(可上下滑动,查看全图)

顺手,我还让它写了一段小红书文案,质量也在线——这块本来就是Qwen3.5的强项。

图片

场景4:视频深度拆解

最后,我直接拉高难度,让它一次性输出三件东西:剧情概要、人物关系图谱、分镜说明。

图片

结果是:能交付,而且还挺细。

这是剧情概述。

图片

这是人物关系图谱。

图片

甚至,我还让它直接整了个更直观的网页版。

图片

这是分镜说明,非常详细。

图片

(可上下滑动,查看全图)

5)更多场景

根据官方信息,这个模型最长支持:

  • 10小时音频
  • 1小时视频
  • 113种语言
  • 256K上下文

同时支持113种语种识别、36种语种生成,方言也覆盖。

并且原生支持WebSearch 和复杂Function Call,使得它可以胜任各种多模态任务。

比如视频创作、分镜生成、直播审核以及基于video生成数据等。

这些原本需要大量人工参与的环节,现在都有机会被重构。

写在最后

整个体验下来(本文内容,首发同名公众号,视频皆可看),我的感受是:

Qwen3.5-Omni,不只是“更强”,而是开始变得“更有用”。

它在音视频理解上的能力,已经从“能看懂”,逐渐走向“能参与”。

无论是长视频内容拆解、实时语音交互,还是跨语言的信息提取,它都能比较稳定地给出结构化、可用的结果。这种能力,一旦接入到真实业务流程里,价值会被迅速放大。

多语言这一点也很关键。过去很多多模态模型,本质上还是“英语优先”,其他语言多少有点“兼容”。但Qwen3.5-Omni的表现更像是“原生多语种”,这意味着它天然适合做跨地区、跨文化的产品,无论是内容理解、客服系统,还是全球化分发,门槛都在被拉低。

更值得一提的是,这次还提供了离线和实时两套API,本质上是在给开发者更多“成本-性能”的选择权:能离线处理的任务,就用更低成本批量跑;需要即时响应的场景,再调用实时能力。

这样一来,很多原本算不过账的场景,突然就能成立了。