图像与视频领域的实用型 AI

0 阅读42分钟

图像与视频驱动着创意领域的大量工作,因此你会发现有很多机会让 AI 帮你对图像与视频进行组织、分类,并挑选出其中的部分内容。一些实用型 AI(Utility AI)任务有时会稍微跨到生成式 AI(GenAI)的边界,但如果它们被放在本章讨论,那么这些功能所“创造”的新作品,会非常明显地建立在既有作品之上,而不是凭空生成全新的内容。

本书后面会讲到的自动化 AI(Automation AI),更多是在“替换”你现有的工作流,而不是“增强”它。在这里语境下的实用型 AI,更偏向于帮助你“找到”和“选择”,而不是帮助你“创作”或替你把工作做完。

如果你自己拍照片或录视频,你应该很清楚:有时候要找某一张特定镜头或某一段片段会有多难。个人和家庭照片最终会堆成一大堆无法管理的“素材山”,就像塞在鞋盒里的冲印照片一样——如果不整理,它们很少会再被翻出来看。

相机确实会生成元数据(比如时间、日期和地点),这能帮助你之后定位某张照片,但它找不到“你表兄穿着那件衬衫的那张照片”,也找不到“那只羊在栅栏上蹭痒的那段视频”。而这类需求,以及客户问你“那个带着某个东西的镜头在哪”的所有时刻里,AI 是我们目前最好的解决方案。

当你找到想要的镜头后,AI 还能继续帮你:它可以选中画面里的人物,让你单独对这个人做调色校正。你可以把一段宽屏视频自动转换成竖屏,并让 AI 为你重新构图所有镜头。当客户给你带时间戳的反馈时,你甚至可以让 AI 在你的时间线上做标注,让剪辑过程更顺滑。

最后,稍微越界到生成式领域,你还可以用 AI 辅助把照片和视频从单目(monoscopic)转换为立体(stereoscopic)——甚至做得更进一步。

虽然本书的其他部分会把图像和视频分开讨论,但在实用型 AI 的范畴里,我们把它们放在一起讲。好几个工具允许你用同样方式处理静态图像与动态影像,把它们硬拆开反而不太合理。

在这里,我们将讨论以下内容:

  • 照片与视频的组织与分类
  • 选择人物与物体
  • 为画幅比例变化进行重新构图
  • 立体化转换
  • 管理带时间戳的剪辑需求
  • 移除跳切(jump cuts)
  • 视频变速/重定时(retiming)
  • 图像与视频超分辨率放大(upscaling)

照片与视频的组织与分类

当你记不起拍摄的时间或地点时,寻找某张照片或某段视频会非常耗时,而 AI 可以用强力的方法让复杂搜索更容易。注意,有些工具比“搜索”走得更远,会替你完成工作的一部分:要么自动调色、自动日志化(logging),要么直接做图像筛选(culling)。由于这些工具(包括 Eddie AI、Aftershoot 等)关注的不只是组织,还包括自动化你的工作流,它们会放在本书第 4 部分:自动化 AI(Automation AI)里讨论。

大多数摄影师会使用数字资产管理器(DAM)来整理照片,其中一些工具也能管理视频。反过来,虽然多数用户会用视频剪辑软件只管理视频,但这些应用其实也能管理静态图像。你可能会发现,不同程序里的 AI 工具强弱不一,所以在 AI 搜索这件事上,尽量保持开放心态。

我们先从一个大多数苹果设备用户都会遇到的简单方案开始。

Apple Photos

Apple Photos 是一个基础的照片与视频管理方案。尽管它可能无法满足大多数专业创作者的规模化需求,但它确实内置了很多全面的 AI 工具,而许多人并没有注意到。iPhone 拍的照片会被自动打上标签,你可以通过搜索照片内容把它找出来,这全靠 AI;而且这个功能并不依赖空间受限、且仅在线的 iCloud 照片图库。

如果你手边有 iPhone,打开 Photos 应用,点击放大镜进行搜索。不要输入相机记录的元数据(如日期或地点),而是搜索内容——比如 beer、dancing 或 green。你的手机会找出所有包含该主体、活动、颜色,甚至包含某个“写在图像或视频里的文字”的照片。是的,你可以通过搜索路牌上的文字,找到那张路牌的照片。

这很惊人也很实用,但如果你并不把所有图片都导入 Photos,你就用不到这个功能。由于 Photos 不是剪视频的最佳地方,你很可能不会把大多数视频片段存放或访问在这里;而对于客户拍摄项目,你可能更愿意用 Lightroom 之类的应用来管理。即便如此,你仍然有很多方式获取强大的 AI 搜索能力,而我们就从 Photos 开始。

不太直观的一点是:你可以按需创建任意多个 Photos 图库(library),比如每个客户一个库,或每个项目一个库也行。你还可以在不复制文件、甚至不移动文件位置的前提下,把图像和视频“加载”进 Photos。

设置方法如下:

  1. 启动 Photos 时按住 Option 键,点击 Create New 创建新图库,并把它存放在与你的图像或视频相同的存储设备上。
  2. 打开 Settings,取消勾选 Copy items to the Photos library
  3. 从当前存放位置把图像/视频直接拖进 Photos。(你之后可以重复上述步骤并选择原来的 Photos 图库返回;你也可能想重新勾选 Copy items to the Photos library。)

你完全可以把 Final Cut Pro 素材库、Premiere Pro 或 Resolve 项目里的图像拖进来,或者从 Lightroom CC 库里拖进来——你只是用 Photos 做搜索而已。遗憾的是,AI 分析不是即时的;更糟的是,你无法强制它立刻执行。如果你在搜索框里输入文字,下方弹窗显示 Indexing,那你只能让 Photos 挂着运行,直到索引完成。这个短板可能会让 Photos 不适合那些需要快速交付的客户工作,但对更长期的项目或个人素材,它仍然可能合适。

如果你能等,按图像或视频内容搜索会让你更容易找到目标。如果你想要更多能力,就需要寻找具备类似力量的其他应用或插件——而可选项有很多。

Excire Foto

作为少数几款将 AI 功能集成进本地数字资产管理的工具之一,Excire(excire.com/en/)允许你用文本提示进行搜索,比如 girl surfing a waveautumn leaves in a forest。类似 Apple Photos 和 Google Photos,如果你给某张人脸标注了姓名,就能找到其他包含此人的照片。

Excire Foto 是独立应用,而 Excire Search 则是为 Adobe Lightroom 提供提示词式搜索的插件。自由文本搜索的优势在于:你更可能把照片搜出来。这里,我在一组免费图库照片中搜索了 yosemite

image.png

图 4.1——这些图片都被判断为“有点 Yosemite 的味道”

尽管这些图片文件名里没有任何 “Yosemite”,AI 仍能把它们匹配为“可能拍摄于 Yosemite 国家公园”或“看起来有点像 Yosemite”。Excire 扫描与搜索速度都很快,不过某些搜索(比如 water)并没有返回所有可能的图片。

Peakto

很独特的一点是,Peakto(peakto.com)不会强迫你改变现有的照片或视频组织方式。它会从你已有的各类素材库中摄取资源,包括 Apple Photos、Adobe Lightroom、Capture One 或 Aperture,以及由 Final Cut Pro、Premiere Pro 或 DaVinci Resolve 管理的视频。摄取完成后,AI 处理会对你的资产进行分类与归类,让你可以跨整个数字生活搜索,或只在某一个库里搜索。这是我用过的唯一一个工具,可以一次性把我拍过的所有海浪照片都展示出来。

image.png

图 4.2——数百 GB 图像中,成百上千张海浪照片被一次性拉出来

除了让你按内容进行搜索以满足自己的需求,Peakto 还会按内容对图片进行分类,并按颜色、亮度、饱和度与对比度分组,所以如果你需要一张“整体偏绿”的镜头,也能更快找到。

Peakto 最近加入了更完整的视频支持,把 AI 搜索能力扩展到视频片段。你可以找到与某个片段相似的片段,用自然语言跨多个素材库搜索,自动添加关键词,并支持工作组在本地设备上访问。此外,音频会被自动转写,因此你也能搜索对白内容。

在我加载了数千张照片与视频进行测试后,Peakto 的 AI 搜索确实让“找某个特定东西”变得更容易。我的项目里只有少数会跨多年,但如果你在做长期项目,Peakto 的 AI 搜索能帮助你在草堆里找针。对一个持续增长的大型视频片段集合进行转写搜索,也能让你(或不做剪辑的协作者)找到某个特定词语在对白里出现的每一次——可能跨越多年素材、多个项目。视频内容识别也很有效——在这里,我就能在一个 FCP 素材库中找出所有包含雕像(statues)的片段。

image.png

图 4.3——这些视频片段里确实都至少包含一座雕像,而且现在很容易找到

转写的准确率不如一些其他应用,但已经足够实用。对白搜索当然也可以在 NLE 里通过转写搜索更慢地做到,但跨多素材库搜索是 Peakto 的独特优势。

ON1 Photo Keyword AI

ON1 Photo Keyword AI(www.on1.com/products/ph…)既可以作为独立应用使用,也可以作为 ON1 Photo RAW 的一部分。它会先用 AI 检测内容关键词,然后用行业通行的 XMP 元数据把这些关键词写入文件,从而与 Lightroom CC 这类主流照片管理方案兼容。

这个方案不像 Peakto 那样提供审美层面的判断,但它生成的结果可以在其他应用里看到。通过该应用自动生成的关键词,在导入 Lightroom CC 或其他 DAM 时都可访问,因此你不一定需要改工作流就能集成 AI。

不过,它的一个缺点是:生成的关键词未必足够好到能帮你找到你想找的那张图。当 AI 只生成一串具体关键词时,这会成为问题:如果你想搜 Yosemite,但 AI 只生成了 mountainlandscape,那你就没办法了。你不能随便输入任意短语搜索,而只能在生成的关键词列表里翻。

image.png

图 4.4——ON1 Photo Keyword 生成了很多关键词,但没有 “Yosemite”

这款应用提供免费试用,你可以用自己的素材跑一遍,看看它是否能帮到你的工作流。不过,也有一些 AI 引擎采用了另一种思路——并不直接依赖关键词。

Jumper

Jumper(getjumper.io/)是一款与视频剪辑应用集成的插件(包括 Premiere Pro 和 Final Cut Pro,未来还会支持更多),它能对它“看到”的任意资产做 AI 分析,并支持一次性跨所有资产搜索。由于它主要面向视频,Jumper 不只是找到某个片段,还能定位到片段内部包含你所搜索对象的具体区间。它也支持静态图像,但你可能需要把图片导入 NLE,方便 Jumper 读取它们。

image.png

图 4.5——Jumper 需要你指定要索引哪些媒体文件,以及要索引视频、音频还是两者

Jumper 不是生成一组有限关键词并把它们“绑”在图像上,而是采用一种模糊搜索(fuzzy search)。即使那张“山”的图片的元数据里完全没有 Yosemite,它依然能在搜索 Yosemite 时把它找出来——就像前面提到的那张山图一样。

这种模糊方式的缺点是:Jumper 总能给你找出点东西。即使你在一组完全不包含大象的图片里搜索 elephant,它也仍会展示某些结果。不过,考虑到每个人的搜索方式都略有不同,Jumper 更“宽松”的策略反而更可能快速给出有用结果。对带音频的视频进行首次处理可能要花一点时间,但搜索几乎是瞬时的。

image.png

图 4.6——是的,Jumper 的模糊搜索也能找出 “Yosemite” 图片

由于视频及其音频都会被索引,你既可以搜索画面内容,也可以搜索对白里说过的词。虽然你无法直接访问完整转写稿,但你可以搜索某个词或短语快速定位它,然后把那段具体对白添加到时间线里。

image.png

图 4.7——这段对白被正确转写,并找到了目标短语以及相近短语(为隐私已模糊缩略图)

Strada

Strada(strada.tech)的早期演示非常强调打标与分析:它能够在识别到物体的片段特定时间段上,为视频片段的“具体部分”分配关键词。随后,这些被选中的区间就可以回传到你所选择的视频剪辑应用中——不过,在“基于区间的关键词”这一点上,FCP 是最合适的工具。它也支持转写,因此你同样可以用口头对白来搜索;此外还内置了翻译功能——功能相当全面。

image.png

图 4.8——Strada 开发期间的早期截图,展示它如何在特定时间点检测到物体

不过,这个工具仍在开发中,并且其关注点已从“纯云端”转向“本地优先”,尽管预计分析能力会回归。如果你需要针对视频的 AI 关键词支持,建议关注 Strada 目前的进展。

Axle AI

Axle AI(axle.ai)是一款由 AI 驱动的视频自动化平台,其中包含一个基于 AI 的打标与搜索功能,名为 Axle AI Tags。我们会在第 11 章再次回到这个平台,但仅就打标而言,它本身就可能很有用。

image.png

图 4.9——Axle AI Tags 会进行分析,以判断片段每个区段里包含什么内容

Axle 的思路与 Jumper 或 Strada 略有不同:Jumper 不暴露它的搜索索引,而 Strada 更偏向于定位单个词;Axle 则是用 AI 去描述它在镜头中看到的内容,然后让你在这些描述文本里进行搜索。它可以识别人和物体,并且这种分类可以在本地、在内网环境(on premises)中完成,而不必依赖云端。虽然它比 Jumper 更贵(每月 200 美元),但对于团队协作(workgroups)而言仍值得考虑。

虽然这些选项更全面,但也有一些其他应用值得一看。

Adobe Premiere Pro Media Intelligence

这一功能在 Adobe Premiere Pro(www.adobe.com/products/pr…)的 2025 Beta 版本中引入。它会自动对你导入项目的媒体进行分类,并允许你用自然语言搜索内容。当然,Premiere Pro 最适合处理视频资产;但如果你想用它来搜索照片,也可以把照片导入后再搜索。

遗憾的是,就我目前做过的分析来看,它的能力不如 Peakto、Excire 或 Jumper;搜索 Yosemite 的效果不理想,不过在其他应用里添加的关键词倒是能被成功导入到这里。如果你要搜索对白,我们在上一章讲过的完整基于文本剪辑工作流非常出色;但在“基于内容的搜索”方面,还有更好的选择。若你确实需要这项能力,Jumper 也支持 Premiere Pro。

Google Photos

Apple Photos 提供的许多“智能”功能,在 Google Photos(photos.google.com/)里也同样具备。按内容搜索效果很好,可以识别人脸,并且有移动端应用,便于从手机快速上传。不过,如果你是专业摄影师或摄像师,我会对使用“纯在线”方案再三考虑。

即便你平时基本都能联网,某个时刻网络也会变慢甚至不可用,你的工作流就会崩掉。RAW 照片和原始视频片段对很多创作者来说体积太大,难以批量上传,因此纯在线方案并不适合所有人——但对于你个人的、手机拍的照片,这可能就没问题。

PhotoPrism

这是一个开源方案(www.photoprism.app/),以容器方式运行,进行 AI 分类,并允许你用自然语言进行搜索。虽然它的 AI 搜索看起来不如这里提到的其他方案那么灵活或强大,但它免费且本地化的特点,意味着在某些场景里仍然可能派得上用场。

Monument

Monument(www.getmonument.com/)提供云端(Monument Cloud)与自托管(Monument 2)两种版本,作为 iCloud 或 Google Photos 的替代方案——甚至可以作为“完全不把图片放云端”的替代方案。无论是云端还是本地形态,它都充当一个跨平台、跨设备的照片存储系统,并通过 AI 分类让搜索更容易。我能理解这种方案在家庭环境里的价值,但我不确定有多少专业人士愿意把高分辨率原始文件放在第三方硬件设备上,或把它们全部上传到云端。

选择人物与物体(Selecting people and objects)

“选区”是修图与提升照片质量的核心,而基于 AI 的区域选择能力已经进步到足以重塑工作流。就在几年前,摄影师往往需要花相当多的精力去调整打在人物身上的光,以及人物背后背景的光,才能获得合适的主体分离效果。

如今的分割(segmentation)算法已经足够强大,不仅能快速、准确地选中一个人,还能把人的不同部位分离出来,甚至能分离出眼睛的不同部分。这样一来,摄影师就能在几乎不需要大量手工抠选的情况下,分别调整人物与背景的光线,从而更快地工作。

这些功能已经被加入到不同平台的各类照片应用中,精细程度不一。许多 Apple 自家的工具都包含自动去背景,但虽然入口很方便,却不够可控,难以满足大多数专业任务。

在 Pixelmator Pro 等应用里也能看到由机器学习驱动的主体选择,这在肖像摄影中很有帮助,但另一些工具提供了更全面的选择能力。在写作时,最完整的一套遮罩(masking)工具出现在 Adobe Lightroom Classic 里,所以我们从它开始。

Lightroom Classic 与 Photoshop 的遮罩(Masking)

在 Lightroom Classic 的近期版本中(www.adobe.com/products/ph…),遮罩功能已经扩展到可以自动选择照片中的人物——可以选一个、多个,或画面中的全部人物。在 Develop 模式中,打开一张包含人物的照片,点击直方图(Histogram)下方的 Masking 图标。在 Masking 区域底部,照片里的人会被识别出来,你接着就能点击某个人的脸来选中他/她,或选中其中的一部分。

image.png

图 4.10——在这个示例中,7 个人都可以分别单独选择,也可以一次性全选

当然,Lightroom 里存的大多数图像都是实拍人物,而且修正任务常常很具体——比如“提亮眼睛”“改变上衣颜色”。这些以前几乎只能在 Photoshop 里做,但现在在 Lightroom 里也能实现。

在每一个被识别的人体内,你现在既可以选择整个人,也可以进一步细分,只选其中一部分:不同区域的皮肤、眉毛、眼睛的部分区域、嘴唇、牙齿、头发,或者衣服。

image.png

图 4.11——这样的选择让你无需 Photoshop 就能对人物外观做精细调整

这些 AI 驱动的选择同样能识别风景的不同组成部分,自动把天空、山体、植被、水面等分割开来。

image.png

图 4.12——如果你选的是 Landscape 而不是人物,就可以进一步选择想要抠选的风景部分

选好遮罩后,Lightroom 的所有常规控制项都可以在该遮罩区域内生效,让你只在图像某一部分做色彩、曝光、锐度等修正。过去需要大量手工的任务,现在几乎可以在一个预设里“近乎自动”完成。

更复杂的任务依然需要进 Photoshop;我们会在本书的 GenAI 部分花更多时间讲它。你也能在 Photoshop 里找到这些自动选择能力,只是入口更深一些:打开一张图片,选择 Object Selection 工具,在屏幕上方的 Options 栏里,你会看到同样的选择选项(人物、眼睛等)。

ON1 Photo RAW MAX 的遮罩(Masking)

全面的智能选区不只存在于 Adobe 的应用中;ON1 的照片应用也能自动分割图像的不同部分。虽然 Inspector 提供了一些只作用于面部局部的自动控制,但如果你选中的图片没有人物,你也能像 Lightroom 那样选中照片的特定部分,得到相似效果。

image.png

图 4.13——选择 “flora” 能选到大多数树,但靠近天空的边缘选区比较虚

在处理图像时,你可以在 Develop 标签页访问局部选区,在这里选择把自动 Brilliance AI 效果应用到哪里,以及想要的效果强度。若想更可控,使用 Local 标签页添加一个调整,然后在浮动的 Properties 面板里,从 Masking 区域选择一个分区。最后,在右侧 Inspector 里控制修正参数。

如果需要更精确的控制,你还可以用 Super Select AI 工具(魔法棒图标),只需点击物体即可选中。它对轮廓清晰的物体很有效,也能选中人物的一些部位,比如头发。遮罩可以通过涂抹来微调,但选区边缘的细节如果靠手工往往很难做得准确。

在我的测试中,Lightroom Classic 生成的遮罩边缘更清晰,这在树木、头发等复杂边缘附近非常有帮助。ON1(同上)的遮罩精度更低,导致在调整后复杂区域边缘会变得可见,我无法把修正推到我想要的程度。工具里确实有调整遮罩的手段,但那需要时间,而且并不总是足够。

具备图像分割能力的应用当然不止这两款;我预计这项技术会在不久的将来扩散到更多图像处理软件中。你也会在一些视频应用里看到类似技术,首先是……

Final Cut Pro 的 Magnetic Mask

自动图像分割对静态图像非常有用,但对动态影像几乎是必需品——你不可能每秒手动调 24 次选区!在基于 AI 的选择算法出现之前,带跟踪的选区要么制作极其繁琐,要么靠很大的模糊边缘来掩盖不精确。

在 Final Cut Pro 11 中,引入了 Magnetic Mask,可以选择多种对象——即使它们在镜头里移动,或者被前景物体遮挡也可以。你只需要把任意效果或调色校正拖到 Viewer 里的对象或人物上,然后等待目标被高亮。

image.png

图 4.14——作者本人,在 Final Cut Pro 中准备进行单独调色

如果需要,选区也可以通过涂抹来微调,然后对整个片段进行分析。给同一片段添加的多个 Magnetic Mask 会以不同颜色显示,许多类型的对象都能被识别与跟踪。

这个功能让“不可能变得可能”。我曾在一段 50 分钟的连续片段里,成功把人物与(亮得多的)投影屏幕分开单独校正——人物有时还会走到屏幕前面。这真的非常强。它是在 macOS 更早的一项功能基础上发展而来(例如 FxFactory 的 Keyper 插件曾用到),但效果强得多。

当然,各大 NLE 一直喜欢互相“借鉴”功能,FCP 也不是唯一具备这招的……

DaVinci Resolve 的 Magic Mask

在 Resolve 中,AI Magic Mask 允许你选择片段里希望单独校正的部分:

image.png

图 4.15——AI Magic Mask 控制面板,展示对片段一部分进行跟踪

按以下步骤操作:

  1. Color 页面,从中间面板选择 Magic Mask 图标,然后把下方质量设置调到 Better
  2. 从第一帧开始,在画面上反复点击,标记你希望单独校正的区域(例如人物)。要查看遮罩,可以在下方 Primaries 色轮里快速调一下曝光(或其他参数),或点击 Magic Mask 控制面板右上角的 Toggle Mask Overlay。如果选进了不想要的区域,按住 option/alt,再点击那些区域即可移除。

image.png

图 4.16——虽然一开始不可见,但这里的手被自动加入到人物跟踪区域中

  1. 点击 Track Forward 在片段里向前跟踪选区。如果你不是从片段开头开始,也可以用 Track Backward。由于这个工具“知道人长什么样”,当此前未出现的身体部位进入画面(比如挥动的手)时,它会自动把它纳入选区。

这个工具不像 FCP 的 Magnetic Mask 那么快,但它可控、有效且灵活。如果你想进一步深入,Resolve 还有很多强大的调色工具,包括 Relight 效果,能做出非常惊艳的结果。

如果你用的是 Adobe 应用呢?

Premiere Pro 的物体遮罩(object masking)

等了很久,Premiere Pro 的 Beta 版本终于在 2025 年 9 月加入了物体遮罩工具,它做的事情与 FCP 和 Resolve 的工具基本相同。用法如下:

  1. 把片段放入序列,选中片段,然后选择新的 object masking 工具(倒数第二个)。
  2. 等片段准备完成后,把鼠标悬停在 Program Monitor 里的人或物体上并点击。选区应当很准确,必要时可用 +- 按钮微调。
  3. 打开 Effect Controls,在片段上找到新的 Object Mask 设置。点击 Tracker 控制区中间的按钮,从当前帧向两个方向跟踪。会出现进度对话框,通常挺快。
  4. 跟踪完成后,如果要用它做调色,切到 Color 工作区,在右侧 Lumetri Color 面板里做调整即可。若要反向遮掉背景,右键 Object Mask,选择 Use as Opacity Mask

image.png

图 4.17——Premiere Pro Beta 的新物体遮罩工具正在工作

这会受到 Premiere Pro 剪辑师的欢迎。使用 After Effects 的人则还有一个更可控的选项。

After Effects 的 Roto Brush

功能使用流程如下:

  1. 导入片段并创建一个合成(composition)。
  2. 在 Timeline 窗口双击片段,使其在 Layer 面板中打开,然后在顶部工具栏选择 Roto Brush
  3. 在想保留的对象上涂抹笔触。如果选进了不需要的区域,按住 option/alt 再涂抹即可去除。按空格播放时,效果会自动向后传播到片段其余部分。

像前面提到的工具一样,现代 Roto Brush 也足够聪明:当一条肢体进入画面时,它能把它自动加入到人物的选区里。

image.png

图 4.18——这只手臂并不在初始选区里,但已经被自动加入

它速度不如 FCP 的 Magnetic Mask,但比 Resolve 的 Magic Mask 稍快一点。当然,内置功能并不是视频里使用 AI 的唯一方式——知名插件也在集成 AI 了。

Boris FX Mocha 的选区

Boris FX Mocha 多年来一直用于复杂的视频遮罩任务,而从 2025 年中开始,它加入了 AI 辅助来创建初始遮罩。不再需要传统的贝塞尔(Bezier)工具,新工具允许你创建 Mask ML layer。现在通常只需点击人物头部一次,再在身体下方点击一次,就能得到不错的选区——相比手工绘制路径,这是巨大的时间节省。

除了点击式选择,现在也加入了基于提示词的选择方式。它并不总是完美,但输入你想选的对象名称(例如 cars 或 people)已经是很大的进步。

由于这些算法已经有了较好的文档化,我猜会有更多工具把 AI 图像分割集成进去。即便是 Adobe InDesign 的 Text Wrap 里最基础的 Subject Selection,也能帮你少跑一趟 Photoshop;而在这种场景里,结果不需要像素级完美也依然有效。你很可能早晚会在你最常用的应用里看到更多图像分割功能。

AI 调色校正(AI color correction)

许多视频与图像编辑软件里,多年来一直存在自动调色工具,但你可能没意识到其中一些其实基于机器学习算法——甚至包括 Photoshop 早期的一些自动校正。

更新一些的选项(例如 Final Cut Pro 的 Color Adjustments 里那些自动选项)通常比早期方案更有用,但没有一个是完美的。有些功能适合作为进一步校正的起点,但我至今还没见过一个“永远一键变好看”的魔法按钮。

如果你需要一个可靠方案来做一致且严肃的调色,建议测试像 Colourlab AI(colourlab.ai)这样的解决方案,它支持多款视频剪辑应用。

AI 驱动的主体选择也能帮助你在改变画幅比例时重新构图——我们接下来就来看这个。

为画幅比例变化自动重构画面(Reframing for aspect ratio changes)

随着竖屏社交媒体视频的兴起,画幅比例的变化(通常从宽屏转为竖屏)变得更常见了。在这些格式之间转换并不总是简单的事。我建议拍摄时比平时“拍宽一点”,在宽屏版本里适当放大(zoom in),而在竖屏版本里裁掉两侧边缘。如果你的相机支持 open gate(开门幅)拍摄,那么你可以直接用更“高”的画幅(4:3 或 3:2)分别裁成宽屏与竖屏。

不管你怎么拍,一旦在不同画幅之间切换,剪辑里的每个镜头都需要调整;所有主流 NLE 都提供了让这件事更顺滑的功能。我们分别看一下。

Final Cut Pro

  1. 在 Browser 里右键一个项目(也就是时间线 / timeline),选择 Duplicate Project As
  2. 在弹出的对话框里,选择新的画幅比例(很可能是 Vertical)和分辨率,然后勾选 Smart Conform。系统会用机器学习重新定位每个镜头,去抓取画面中最重要的部分。
  3. 播放完整序列,必要时手动调整位置和/或缩放。注意:即便你可以自己加动画,FCP 不会帮你跟踪运动;它会选择一个位置并一直固定在那里。

Premiere Pro

  1. 右键一个序列(sequence),选择 Auto Reframe Sequence
  2. 在弹出的对话框里选择新画幅(通常是 Vertical)。注意:新序列会用“当前序列名 +(新画幅)”来命名,例如 Sequence Name (9x16),并且会被创建在一个名为 Auto Reframed Sequences 的新 bin(文件夹)里。
  3. 在这个 bin 里找到新序列(名字里带画幅),右键选择 Sequence Settings,确认帧尺寸符合你的需求——因为 Premiere 只是调整序列的宽度,而不是把宽高互换;你可能更希望竖屏视频用 1080x1920
  4. 播放检查每个镜头是否合理。Premiere 会在镜头内部做“自动重构的动画”,但这种运动并不总是你想要的;最简单的修复方式是把 Auto Reframe 效果关掉。
  5. 对每个需要关闭的镜头:打开 Effect Controls,点击 Auto Reframe 旁边的 fx 图标来禁用。要重置位置,可以在时间线里右键该片段,选择 Fill 以填满画面;然后在 Effect Controls 或 Properties 里按需调缩放与位置。

DaVinci Resolve(Studio 版本)

  1. 右键时间线并复制(duplicate)。
  2. 把新时间线重命名为目标画幅(便于管理)。
  3. 右键选择 Timeline Settings
  4. 取消左下角 Use Project Settings,然后在顶部 Timeline Resolution 菜单选择 Custom
  5. 输入你需要的目标分辨率。
  6. 在底部 Mismatched Resolution 菜单中选择 Scale full frame with crop
  7. InspectorTransform 区域里,找到该区域底部的 AI Smart Reframe。在这里保持 Object of InterestAuto,点击 Reframe,让它对整个镜头进行跟踪重构。
  8. 如果效果不理想,把 Auto 改成 Reference Point,然后把出现的框移动到你希望在画面中保持居中的人物或物体上。
  9. 再次点击 Reframe,等待处理完成后,该区域会在重构后的画面中保持居中。

无论你选哪种工具,你都能获得一定程度的自动重构辅助。

立体(Stereoscopic)转换

立体摄影(stereoscopy)已经流行了一百多年;立体视频也从 20 世纪 50 年代起断断续续流行。要拍立体照片或立体视频,通常需要同时记录左眼与右眼的画面——要么用双镜头相机,要么用两台同步的独立相机。

但绝大多数影像显然是以 2D 拍摄的。由于像 Apple Vision Pro 这样的设备能以 3D 方式观看图片,机器学习算法如今已经能把 2D 图片转成 3D。这需要图像分割与深度重建,用来判断画面中哪些区域更靠近镜头、哪些更远;同时还需要一定的生成式能力,用于填补前景物体后方原本被遮挡、在 2D 里不存在的区域。

image.png

图 4.19——这段视频原本以 2D 拍摄,用 Owl3D 转换后拥有很强的景深效果,但在 2D 页面上很难完整呈现

在最新的 visionOS 中,不仅可以生成图片的立体版本,还能生成一个允许你向任意方向移动视角的 3D 版本——这被称为 spatial scene(空间场景)。到目前为止,它甚至比此前的空间照片转换更有效。当前这项能力是系统内置的,但还不是常见的第三方应用所能直接调用的功能。

第三方应用也可以把视频从 2D 转成 3D,但效果参差不齐。我见过的最好结果来自 Owl3D(同时提供 Mac 与 PC 应用);而像 Moon Player 这样的应用则可以在 Apple Vision Pro 上直接做实时转换,但质量较低。虽然这些应用的输出还不完美,但 3D 转换质量很可能会继续提升。现在如果你想要高质量的立体影像,最佳方式仍然是直接用立体方式拍摄,但可以持续关注这个方向的进展。

管理带时间戳的剪辑修改请求(Managing time-stamped editing requests)

在视频(以及音频)制作中,经常会收到修改意见:要求删掉某些具体话语或某个时间段、换一个 take、替换镜头、修改某个效果等。但一旦某条请求会改变镜头长度,其他请求就会变得更难理解。比如如果在时间线开头删掉一个 5 秒镜头,之后所有修改意见里的时间戳都会整体前移,变得失效且难以跟进。

一种老派做法是从列表末尾往前改,以保证前面那些 timecode 仍然有效。但这并不总好用:有时某条请求依赖于更早的改动,且从头到尾顺序剪更容易理解上下文。那该怎么办?

标记(markers) 是解决这个问题的好方法:你可以在时间线里每一个需要改动的位置放一个“虚拟便利贴”。所有常见 NLE 都有 marker;在 Resolve、Final Cut Pro、Premiere Pro 里按 M 都可以给时间线片段加 marker。因为 marker 是“挂在片段上”的,而不仅是某个时间码,所以当你删除或移动片段时,marker 会跟着一起移动——这让你可以从头到尾顺序处理修改列表。

但手工逐条添加这些标记也挺繁琐。如果你用 Final Cut Pro,Marker Toolbox 这个应用可以用 AI 把客户友好的 timecode 列表处理成带指令的待办 markers。(Marker Toolbox 也能把 Vimeo、Frame.io 这类在线审片网站的评论转换为时间线 markers。)这对剪辑师与客户来说体验都很好,而且客户只需要让自己的备注“稍微有一点结构”就行,例如:

  • 5 secs end this shot here
  • 0:35 replace this shot
  • 0:47 cut this section from here
  • 0:52 end cut here
  • 1min 23sec fix spelling in title, should be "Jeri"
  • 1:53 check long blank section at end?

作为 Final Cut Pro 的工作流扩展(workflow extension),Marker Toolbox 能非常快地把这些内容变成合理的时间线标记。只要客户能遵循上面这种很简单的写法规则,就能很好工作。即便请求格式更随意,ChatGPT(或本地 LLM)也可以帮忙把它们理顺。安装后,你需要点击插件图标进入已安装的 Workflow Extensions,然后选择 Marker Toolbox。点击 Settings(文本区域下方)并确保对话框里的帧率与时间线一致。

image.png

图 4.20——左侧的粗略指令会变成右侧的精确时间戳,随时可拖入时间线

如图 4.20 所示,把客户反馈粘贴到左侧文本窗,然后点击 Process Comments Locally。右侧会出现处理后的修改清单;如果客户表达清楚,一般就没问题。如果不够清楚,你可以在 Settings 中填入 ChatGPT 的 API key(付费账号可获取),然后点击 Process Comments with ChatGPT 重新处理。开发者计划很快加入基于 Apple Intelligence 的本地处理支持。

当右侧结果看起来没问题后,把右下角的绿色图标拖到 Final Cut Pro 时间线的开头(在这个窗口后面可见的那条时间线上)。

在示例时间线中,markers 被放到标题(titles)上,并且每个标题里包含同一条反馈,整体封装在一个带时间码流的新 compound clip 中。为了让标记能随着剪辑变化自动“流动”,选中刚加入的片段,然后选择 Clip > Break Apart Clip Items。最后,把生成的 Timecode 轨道删掉。

image.png

图 4.21——列表中的第一个 marker 已出现在时间线里;注意 title 与下方片段相连,marker 在 title 上

现在,markers(以及对应的 titles)会直接连接到下方的片段;当你修改时间线时,它们会保持与正确的镜头关联。你也可以在时间线左侧的 Timeline Index 里,在 Tags 区域看到所有 marker。这个工作流本身并不“重度依赖 AI”,但它确实让一个高频任务更轻松,也让客户可以更自由地表达修改意见。

客户还会喜欢另一个功能:把他们的失误剪掉,而且有时还能做到“几乎不留痕迹”。

去除跳切(Removing jump cuts)

把剪辑“明目张胆地藏起来”是当今剪辑软件里很常见的功能。虽然它不属于现代 GenAI 工具箱的一部分,但它依然由机器学习驱动。

在任何主流 NLE 里,你只需要把一段“说话人”(talking head)视频放到时间线上,然后删掉其中一段,就能制造一个跳切(jump cut)。你可以通过两种方式做到:一是从源素材里选取两个不连续的片段范围,然后按顺序把它们依次放到时间线上;二是用 Razor/Blade(剃刀/切刀)工具切两刀,把中间那段选出来做 ripple delete(波纹删除)。

归根结底怎么操作由你决定,但你需要的结果是:时间线上出现两段片段,且同一个人处在大致相同的位置。理想情况下,两段画面要尽可能相似:两段里眼睛都睁着、头朝向一致等等。避免出现一种镜头里某个身体部位(比如手)可见、另一段里不可见的情况,否则就可能变成下面这种灾难:

image.png

图 4.22——如果你试图把两帧像这样(手的位置不同)硬融在一起,Flow、Morph、Smooth Cut 都会失败

接下来,你要找对转场。在 Final Cut Pro 里叫 Flow 转场;在 Premiere Pro 里叫 Morph Cut;在 DaVinci Resolve 里叫 Smooth Cut。把转场加上去,等待处理完成,然后回放检查。转场会用机器学习把一个片段“变形”过渡到另一个片段,但不管你用哪一个,第一次通常都不会看起来很完美。你需要做实验:调转场时长——很多时候越短越好,可能只要几帧;也要试着通过 rolling(把剪辑点往前或往后滚动几帧)来微调转场发生的精确位置。有时确实需要一点打磨。

最可靠的解决办法,是在拍摄时引导你的被摄者:每句话之间停一下、重置一下、放松一下。如果他们在开始下一句话之前,能回到大致相同的位置,并保持相近的表情,那么把两个镜头“揉”到一起的成功率就会高很多;如果每次姿态差异很大,那就会难很多。

当然,有时候这个转场就是不工作。遇到这种情况,换一种方式把剪辑点遮掉:切到 b-roll、切到另一个机位角度,或者在第二段镜头上做一次快速的 punch in(快速推近/变焦)。传统的非 AI 手段依然都在;这只是你工具箱里多了一件工具而已。

另一个可能有用的功能是 变速(retiming) 。虽然“光流(optical flow)”变速在很多软件里都很常见,但目前最好的机器学习慢动作在 Final Cut Pro 里。我们来把一些镜头慢下来。

视频变速(Video retiming)

尽管想要高质量慢动作,最好还是用高帧率拍摄,但有时候“要慢放”的决定是在拍完之后才做出的。另外,大多数相机在某个分辨率下可提供的最高帧率是有限的,所以可能无法同时满足你想要的分辨率与帧率。

因此,在后期里生成新的“中间帧”就变得必要了。很多软件都提供一种叫 optical flow(光流) 的方法。这个算法一直很有用,而 Final Cut Pro 里新增的机器学习算法(Super Slo-Mo 功能)在质量上则是巨大跃升。

image.png

图 4.23——Smooth Slo-Mo 选项用机器学习插值生成所需帧,效果非常出色

在时间线上选中一个片段,在 Viewer 下方的 Retiming 菜单里选择 Smooth Slo-Mo,然后选一个百分比作为起点。通过更高级的插值算法,系统会生成新的中间帧来填补缺口,而这套 AI 做得非常好。Compressor 里也提供同样的高级变速选项。

虽然 DaVinci Resolve 和 Adobe Premiere 暂时还比不上这个质量,但像 FlowFrames 这样的免费应用可以作为替代方案;另外,一个更以“放大增强”闻名的应用里也能做:Topaz AI Video

图像与视频放大(Upscaling images and videos)

提升图像的细节或分辨率,是图像处理工具多年来一直在做的事,但没有 AI 时,你能推进的幅度是有限的。视频有时也需要锐化或放大,这往往更专业一些。如今,许多应用都提供 AI 工具,而且已经相当“主流化”。

从制作流程角度看,这类工具很简单:输入一张低分辨率图片,运行处理,得到更高分辨率的输出。取决于原图/原视频有多糟,你可能会想在放大之前先处理一次,或在放大之后再处理一次。通常来说,如果图像真的很差,你可能希望先放大,再做一轮手工清理。但如果你从一张质量不错的图像出发,只是想把它做得非常大,可以这样做:

  1. 保存原始的分层文件(layered image)。
  2. 另存一份“扁平化”(flattened)的拷贝。
  3. 对这份扁平化拷贝做放大。

为什么?因为超高分辨率的分层图像会变得非常大、很难操作。我曾经为展会展示屏放大过图片,一张图最终超过 500 MB——对视频而言不算什么,但在 Photoshop 里打开、保存都很慢。

为了获得最佳结果,尽量把图像尺寸 精确翻倍。事实上,很多工具一次只支持把图片放大 2x;如果你需要更大,只能把流程跑两次。和往常一样,你想“做得越离谱”,就越不容易蒙混过关——真实像素无可替代;如果你要在 300 dpi 下覆盖一个巨大的屏幕,就应该从高分辨率的素材开始。

可选方案很多(后文会给一些建议),但最知名的图像与视频增强工具大概来自 Topaz Labs。他们提供一套桌面产品:Photo AI、更便宜且更聚焦放大的 Gigapixel AI,以及更昂贵的 Video AI。除了桌面软件外,Topaz 还有一些 Web 应用,提供图片/视频放大和其他增强。多数制作需求我更推荐本地处理;但如果你的机器性能较弱,可能需要用云端处理并额外付费。

这些应用都带有一定“生成性”(毕竟它们要“发明”细节),但我把它们放在本书这一部分,是因为它们并不是从零创造,而是建立在已有内容之上。不过,在非常激进的参数下,有些形状与纹理细节可能会显得偏“人工”。为了避免这种情况,务必尽可能用最高质量拍摄,并把这些工具当作“轻微提一档”的增强。

这些工具的效果往往非常好,但处理可能会很慢。AI 降噪可以显著清理颗粒很重的图像;其他工具能帮助挽救失焦、处理色彩平衡;当然,放大在你需要超出拍摄分辨率的输出时尤其重要。

随着 AI 图像增强算法越来越主流,其他应用也提供了一些 AI 工具,能完成其中一部分任务,包括:

  • Adobe Photoshop 有很多 AI 功能:Neural Filters(其中包含 Super Zoom 放大器、Photo Restoration 照片修复等),以及 Generative Upscale,如果你愿意,也可以搭配 Topaz 模型使用。
  • Pixelmator ProSuper Resolution 功能,可在尽量不损失质量的情况下把分辨率翻倍。
  • DaVinci ResolveAI Super Scale,支持 2x 到 4x 放大,并内置锐化与降噪。
  • Upscayl:提供免费的桌面应用,支持 2x 到 16x 静态图片放大;也提供付费云端放大。
  • Apple macOS 26 提供视频滤镜相关 API,使应用能够对视频进行放大、变速、添加运动模糊、降噪与锐化,甚至能在视频通话中实时运行。

image.png

图 4.24——Photoshop 包含多种 Neural Filters,但 Super Zoom 可能是最直接实用的那个

因为很多 GenAI 服务往往会生成低分辨率图片,它们也经常自带放大功能。务必小心:放大是否“编造”了虚假细节(毕竟其中一些严格来说就是 GenAI),并尽量从你能找到的最佳源素材开始。

小结(Summary)

机器学习持续对许多图像处理流水线产生巨大影响。在海量素材里找到一张图很有用,但能在视频里找到一个“具体时刻”更强大。找到镜头后,能在人物移动时依然对脸部进行补光/重打光也非常方便。接着你还可以用 AI 来处理客户的修改清单、适配新画幅的重构、让视频变得更慢,或把图片做得大得多。

你的制作流程不太可能用到这里所有技巧,但它们能让你更容易答应客户的要求,让工作流更顺畅,同时仍然把你的创意放在作品的核心。我们还没讲完;在本书后面的第 4 部分(Automation AI)里,我们会讨论一些可能彻底改变你工作流的技术。

下一章,我们会看 Utility AI 在文本方面的应用。虽然创作生产通常围绕图像、视频或音乐展开,但文本依然贯穿脚本、指令和与客户的大量互动,因此值得更深入地探讨。