听歌、看视频就能做网页？阿里这个新模型有点离谱阿里发布了新一代全模态模型：Qwen3.5-Omni‘，更有意思的是，这次

大家好，我是冷逸。

刚刚，阿里发布了新一代全模态模型：Qwen3.5-Omni。

从bench成绩单来看，它的整体性能已经超过了当前顶级模型Gemini-3.1-Pro，拿下215项SOTA。尤其是在音视频理解、推理、识别、翻译和对话这些核心能力上，表现相当突出。

更有意思的是，这次Qwen3.5-Omni还把API分成了两种形态：离线版 + 实时版。

这个设计，看似简单，其实非常关键。

对于动辄几个小时的长视频场景，如果全部用实时API处理，Token成本会非常夸张。而离线API的出现，本质上是把这类“重处理任务”的成本打了下来。

比如：

视频/直播审核

自动分镜拆解

视频caption生成

视频监控分析

以及基于视频数据构建的行业应用

过去这些，要么贵，要么慢，要么效果不稳定。而现在，终于有一个相对完整的国产全模态模型，把这块补上了。

我们也第一时间做了一些实测，直接上案例。

1\一手实测

场景1：看视频做网页

这个月初，来自深圳坪山的一家民营企业，发明了一种新的电池技术：无论多大电池，无论何种车型，10%-70%充满电只用5分钟，10%-97%充饱电只用9分钟。

我把他们的电池技术介绍视频，直接丢给Qwen3.5-Omni，让它一边理解视频内容，一边Vibe Coding一个技术展示网页。（视频1）

整体体验是：流畅、顺滑，而且“基本能用”。

它对画面和台词的理解是到位的，生成的网页结构也比较合理。不过有一个小问题——当人声和背景音同时出现时，它还不太擅长做精确区分。

但好在一点：可以随时打断。

在交互过程中，我可以实时插入新的指令，它会立刻调整意图理解方向，延迟大概在1-2 秒左右，这个响应速度在行业里算是比较领先的了。

来看下它最终写的网页。

还不错，因为模型原生具备WebSearch能力的，它可以边搜索、边理解、边生成，最终把外部信息融合进交付结果里。

场景2：听音乐做网页

既然能看视频Vibe Coding，那我就试了一个更抽象的任务：听音乐设计网页。（视频2）

我给它放了一段《黑神话：悟空》的配乐，让它生成一个「西游·小西天」主题网站，要求风格完全贴合音乐氛围。（视频3）

它准确抓住了音乐里的史诗感、压迫感和宗教氛围，整体设计走的是“暗黑新中式”风格：深墨黑 + 暗金 + 朱砂红。

而且不是简单堆颜色，而是有意识地“压金提黑”，做出了一种被侵蚀的庄严感，有点“邪佛”的意味。确实非常适合黄眉老怪那种“假作真时真亦假”的诡谲氛围。

这种审美理解，其实已经不只是“识别”，而是带一点“创作参与”了。

我又让它做了一个更完整的Case：听一首歌，生成一个MV网页。（视频4）

选的是谢霆锋的《香水》。（视频5）

整体视觉是深黑背景 + 柔金点缀，带一点高级、克制的情绪。交互上还做了蝴蝶粒子效果，呼应歌曲中“慢慢散去渐渐消失不见”的意境。

这种设计，不是单纯“好看”，而是和歌曲的主题「记忆、逝去、气味」是对齐的。

属于那种，你真的会想停下来听一会儿的作品。

场景3：看视频写小红书

接下来是更“接地气”的场景。

我把《蜘蛛侠4》的预告片丢给它，让它做一份观影前科普。

它会逐帧拆解视频，再结合 WebSearch，把剧情信息补全。整体逻辑是通的，准确率也不错。

（可上下滑动，查看全图）

顺手，我还让它写了一段小红书文案，质量也在线——这块本来就是Qwen3.5的强项。

场景4：视频深度拆解

最后，我直接拉高难度，让它一次性输出三件东西：剧情概要、人物关系图谱、分镜说明。

结果是：能交付，而且还挺细。

这是剧情概述。

这是人物关系图谱。

甚至，我还让它直接整了个更直观的网页版。

这是分镜说明，非常详细。

（可上下滑动，查看全图）

5）更多场景

根据官方信息，这个模型最长支持：

10小时音频
1小时视频
113种语言
256K上下文

同时支持113种语种识别、36种语种生成，方言也覆盖。

并且原生支持WebSearch 和复杂Function Call，使得它可以胜任各种多模态任务。

比如视频创作、分镜生成、直播审核以及基于video生成数据等。

这些原本需要大量人工参与的环节，现在都有机会被重构。

写在最后

整个体验下来（本文内容，首发同名公众号，视频皆可看），我的感受是：

Qwen3.5-Omni，不只是“更强”，而是开始变得“更有用”。

它在音视频理解上的能力，已经从“能看懂”，逐渐走向“能参与”。

无论是长视频内容拆解、实时语音交互，还是跨语言的信息提取，它都能比较稳定地给出结构化、可用的结果。这种能力，一旦接入到真实业务流程里，价值会被迅速放大。

多语言这一点也很关键。过去很多多模态模型，本质上还是“英语优先”，其他语言多少有点“兼容”。但Qwen3.5-Omni的表现更像是“原生多语种”，这意味着它天然适合做跨地区、跨文化的产品，无论是内容理解、客服系统，还是全球化分发，门槛都在被拉低。

更值得一提的是，这次还提供了离线和实时两套API，本质上是在给开发者更多“成本-性能”的选择权：能离线处理的任务，就用更低成本批量跑；需要即时响应的场景，再调用实时能力。

这样一来，很多原本算不过账的场景，突然就能成立了。