打开 NotebookLM 的 "Customize Video Overview" 弹窗,会看到三张并列的卡片:Cinematic 标着 New 角标、Explainer 是结构化总览、Brief 是短摘——一眼望去都比 hyperframes 渲染出来的程序化动画"高级"。再仔细看弹窗下半截,会发现 NotebookLM 给用户的全部"控制接口"只有一段自由文本——没有时间线、没有图层、没有"第 47 帧右上角那个数字应该是 8.2 而不是 8.1"。
视觉看起来更高级,作为视频作者的我们对画面与文案的控制力反而更小——这两件事不是巧合,在 NotebookLM 的产品形态里,本身就是同一根硬币的两面。这一对观察值得展开看。
事实切片:三种模式分别在做什么
如上图所示,NotebookLM 的三种模式各自走的后端不同。
Cinematic 是 2026 年的新功能,卡片右上角带 "New!" 标签——它的渲染后端是 Google 的 Veo 3 视频扩散模型。给一段笔记本内容 + 一段自由文本 prompt,它出一段沉浸式画面,有运镜、有抒情配音、有全屏插画。Explainer 是结构化总览——LLM 先把笔记摘成大纲,Imagen 4 给每个章节出一张概念配图,配 TTS 朗读、加少量 Ken Burns 缓推效果。Brief 是最轻的——基本是 TTS + 模板化字幕,几张静态卡片切来切去。
三种模式的共同点,藏在弹窗下半截的输入框里:"How would you like the video to be customized?"。这一段自由文本,就是 NotebookLM 留给视频作者的全部控制接口。把笔记和 prompt 一起喂进去,得到一段几分钟的视频;满意就用,不满意就 regenerate 一次,押宝下次扩散模型出片更顺眼。
hyperframes 的接口长什么样?它的 "用户输入" 是 agent(Claude Code / Cursor / Gemini CLI)写出来的 HTML——每个 div 的位置、颜色、时间偏移都是字面量,可以一行一行改。出图的本质是 Puppeteer 加载 HTML、按虚拟时间逐帧截图、FFmpeg 编码。画面华丽程度,完全取决于 HTML 里写了多少视觉——CSS 渐变、Three.js 着色器、Lottie 动画、SVG 滤镜,全靠手工(或 agent)堆上去。
我们怎么看:视觉冲击与作者控制权是一对反向相关的轴
把 2026 年这个赛道的主要工具放在两条轴上,关系会变得清楚:横轴是"作者对画面的控制权",纵轴是"视觉冲击力"。
如上图所示,Sora、Veo 3、NotebookLM 三种模式、Runway 都落在左上区——视觉冲击力很强,因为背后是扩散模型;但作者控制权接近零,因为模型只接收 prompt、不接收"图层 / 时间线 / 像素坐标"。hyperframes、Remotion、Motion Canvas、Manim 都落在右下区——视觉冲击中等,但作者控制权拉满。Adobe After Effects 是个有意思的孤点,在右上——人手能做到高视觉 + 高控制,但需要专业人员、不能交给 agent。
为什么"视觉好看"和"作者控制权"在今天是反向相关的?根因在 2026 年扩散模型的能力分布:它们在"生成像照片一样的画面"上突飞猛进,但在"按作者指定的具体数值/位置/品牌色生成"上仍然是个未解决的问题(prompt fidelity 还做不到帧级精度)。也就是说,模型的"炫"是用"作者别管"换来的——约束越少,它发挥越自由,出图越漂亮;一旦想让它精确一点,就开始幻觉、偏色、瞎编数据。
反过来,hyperframes 走的是另一极:HTML 上每一个 div 都是 agent 决定的字面量,任意一帧、任意一个像素都可改——视频作者(无论是真人还是 agent)拿到的是最大的控制权。代价就是视觉打底全靠手工或 agent 堆素材:CSS 渐变、Three.js 着色器、Lottie 动画、SVG 滤镜。如果手里没有这些素材库、agent 也没经过视觉训练,出来的画面就是一张张程序员画风的图——干净、对得上数据、但谈不上"炫"。
所以同一件事可以用两种相反的措辞描述:NotebookLM 把控制权让渡给模型,换来视觉冲击力;hyperframes 把控制权留给作者,代价是视觉冲击力依赖作者本身的设计能力。两边的差别不在"作者强还是弱",而在"作者控制权放在了哪一端"——在模型那端,作者控制权被产品形态主动削掉,模型才有空间自由发挥;在作者这端,作者控制权被产品形态完整保留,代价是模型不会主动帮我们美化画面。
它意味着什么
理解这条反向相关的轴,选型这件事就不再纠结。
适合 NotebookLM 的场景——内容理解后的"灵感片"、对外科普/营销概念片、读书笔记可视化、技术博客 trailer。这些场景的共同特征是:画面华丽是首要诉求、内容里没有"必须精确显示的数据/品牌色/产品截图"、可以接受多次重生成挑一个最好的。Cinematic 模式做技术博客的开场镜头,Explainer 做章节导读,Brief 做朋友圈分享卡——都很合适。
适合 hyperframes(以及 Remotion / Manim 这类)的场景——产品 onboarding 视频(要播真实 dashboard、品牌色、产品截图)、数据可视化短片(数字必须对得上)、API 工作流演示(每个调用步骤的代码必须可读)、文档配图视频、自动化营销内容(要把每个客户的姓名/数据/Logo 替换进同一个模板)。这些场景里"画面华丽"反而是次要的——首要诉求是"agent 能精确控制每一帧、能 CI 化生产、能塞进业务流"。让 Veo 3 来给客户做 onboarding,它会很自信地把 dashboard 上的数字编错、把品牌色调成自己觉得更好看的紫色,然后我们花一小时给客户解释这不是真实数据。
未来的可能融合——这两条轴不会永远反向相关。一种正在出现的中间形态是:agent 用 hyperframes 做时间线编排、做精确数据展示;关键的"美图"由扩散模型生成静态资产,塞进 HTML 当 <img> 或 background-image。这样既保留 hyperframes 的帧级控制,又借扩散模型给画面"上一层皮"。@remotion/lambda 和 hyperframes 的 /website-to-hyperframes 已经在做这件事的一部分;NotebookLM 那种"完全黑盒"的产品形态会受到压力——一旦中间层成熟,用户为什么要放弃精确控制?
也就是说,"NotebookLM 出图更炫酷"和"NotebookLM 视频作者控制力更小"这两个观察都成立——而且它们其实在描述同一件事:产品形态把控制权让给模型时,模型出图就更自由。把"炫不炫"和"控制权放在哪一端"分开来看,就会发现它们是 2026 年视频赛道两个独立的、目前反向相关的维度。下一步进展不在"两边谁赢"上,而在"谁先把两个维度同时拉满"上——那个赢家,大概率不长得像 NotebookLM 也不长得像今天的 hyperframes,而是一个把扩散资产嵌进确定性时间线的中间形态。