大家好,我是冷逸。
刚刚,阿里发布了新一代全模态模型:Qwen3.5-Omni。
从bench成绩单来看,它的整体性能已经超过了当前顶级模型Gemini-3.1-Pro,拿下215项SOTA。尤其是在音视频理解、推理、识别、翻译和对话这些核心能力上,表现相当突出。
更有意思的是,这次Qwen3.5-Omni还把API分成了两种形态:离线版 + 实时版。
这个设计,看似简单,其实非常关键。
对于动辄几个小时的长视频场景,如果全部用实时API处理,Token成本会非常夸张。而离线API的出现,本质上是把这类“重处理任务”的成本打了下来。
比如:
视频/直播审核
自动分镜拆解
视频caption生成
视频监控分析
以及基于视频数据构建的行业应用
过去这些,要么贵,要么慢,要么效果不稳定。而现在,终于有一个相对完整的国产全模态模型,把这块补上了。
我们也第一时间做了一些实测,直接上案例。
1\一手实测
场景1:看视频做网页
这个月初,来自深圳坪山的一家民营企业,发明了一种新的电池技术:无论多大电池,无论何种车型,10%-70%充满电只用5分钟,10%-97%充饱电只用9分钟。
我把他们的电池技术介绍视频,直接丢给Qwen3.5-Omni,让它一边理解视频内容,一边Vibe Coding一个技术展示网页。(视频1)
整体体验是:流畅、顺滑,而且“基本能用”。
它对画面和台词的理解是到位的,生成的网页结构也比较合理。不过有一个小问题——当人声和背景音同时出现时,它还不太擅长做精确区分。
但好在一点:可以随时打断。
在交互过程中,我可以实时插入新的指令,它会立刻调整意图理解方向,延迟大概在1-2 秒左右,这个响应速度在行业里算是比较领先的了。
来看下它最终写的网页。
还不错,因为模型原生具备WebSearch能力的,它可以边搜索、边理解、边生成,最终把外部信息融合进交付结果里。
场景2:听音乐做网页
既然能看视频Vibe Coding,那我就试了一个更抽象的任务:听音乐设计网页。(视频2)
我给它放了一段《黑神话:悟空》的配乐,让它生成一个「西游·小西天」主题网站,要求风格完全贴合音乐氛围。(视频3)
它准确抓住了音乐里的史诗感、压迫感和宗教氛围,整体设计走的是“暗黑新中式”风格:深墨黑 + 暗金 + 朱砂红。
而且不是简单堆颜色,而是有意识地“压金提黑”,做出了一种被侵蚀的庄严感,有点“邪佛”的意味。确实非常适合黄眉老怪那种“假作真时真亦假”的诡谲氛围。
这种审美理解,其实已经不只是“识别”,而是带一点“创作参与”了。
我又让它做了一个更完整的Case:听一首歌,生成一个MV网页。(视频4)
选的是谢霆锋的《香水》。(视频5)
整体视觉是深黑背景 + 柔金点缀,带一点高级、克制的情绪。交互上还做了蝴蝶粒子效果,呼应歌曲中“慢慢散去渐渐消失不见”的意境。
这种设计,不是单纯“好看”,而是和歌曲的主题「记忆、逝去、气味」是对齐的。
属于那种,你真的会想停下来听一会儿的作品。
场景3:看视频写小红书
接下来是更“接地气”的场景。
我把《蜘蛛侠4》的预告片丢给它,让它做一份观影前科普。
它会逐帧拆解视频,再结合 WebSearch,把剧情信息补全。整体逻辑是通的,准确率也不错。
(可上下滑动,查看全图)
顺手,我还让它写了一段小红书文案,质量也在线——这块本来就是Qwen3.5的强项。
场景4:视频深度拆解
最后,我直接拉高难度,让它一次性输出三件东西:剧情概要、人物关系图谱、分镜说明。
结果是:能交付,而且还挺细。
这是剧情概述。
这是人物关系图谱。
甚至,我还让它直接整了个更直观的网页版。
这是分镜说明,非常详细。
(可上下滑动,查看全图)
5)更多场景
根据官方信息,这个模型最长支持:
- 10小时音频
- 1小时视频
- 113种语言
- 256K上下文
同时支持113种语种识别、36种语种生成,方言也覆盖。
并且原生支持WebSearch 和复杂Function Call,使得它可以胜任各种多模态任务。
比如视频创作、分镜生成、直播审核以及基于video生成数据等。
这些原本需要大量人工参与的环节,现在都有机会被重构。
写在最后
整个体验下来(本文内容,首发同名公众号,视频皆可看),我的感受是:
Qwen3.5-Omni,不只是“更强”,而是开始变得“更有用”。
它在音视频理解上的能力,已经从“能看懂”,逐渐走向“能参与”。
无论是长视频内容拆解、实时语音交互,还是跨语言的信息提取,它都能比较稳定地给出结构化、可用的结果。这种能力,一旦接入到真实业务流程里,价值会被迅速放大。
多语言这一点也很关键。过去很多多模态模型,本质上还是“英语优先”,其他语言多少有点“兼容”。但Qwen3.5-Omni的表现更像是“原生多语种”,这意味着它天然适合做跨地区、跨文化的产品,无论是内容理解、客服系统,还是全球化分发,门槛都在被拉低。
更值得一提的是,这次还提供了离线和实时两套API,本质上是在给开发者更多“成本-性能”的选择权:能离线处理的任务,就用更低成本批量跑;需要即时响应的场景,再调用实时能力。
这样一来,很多原本算不过账的场景,突然就能成立了。