AI的发展历程

0 阅读31分钟

自从艾伦·图灵首次提出“机器能否思考”这一问题以来,人工智能(AI)就一直激发着我们集体的想象力。虽然我们依然无法对这个重大问题给出明确的答案,但人工智能领域日益加快的变革步伐意味着,创意型白领阶层首次开始为自己的职业生涯感到担忧。

计算机本身已经从爱好者的玩具,发展为专业工具,再到每个人的助力——而人工智能也在沿着相同的轨迹发展,只是时间跨度要短得多。就像智能手机让普通人更容易使用计算机一样,人工智能承诺将使创意活动对更广泛的群体变得更加容易。如今,创意领域的许多人已经感受到,或者开始感受到,人工智能对他们职业生活的影响。

然而,人工智能工具的不完美性意味着,创意生产中仍然有巨大的空间留给人类。尽管人工智能的帮助并不完美,但它仍然能够帮助我们更轻松地找到视频片段,更快地修复不良音频,与虚拟合作者对比我们的创意,并在许多方面让我们能够稍微突破舒适区。变革是确定的,但人工智能并不会终结人类的创造力。本书的目的是向创意工作者展示如何利用多种基于人工智能的工具来提升他们的创作。

在本章中,我们将涵盖以下主要内容:

  • 人工智能的早期发展
  • 当前人工智能的运作方式
  • 人工智能的应用
  • 人工智能的不足之处
  • 应用、工具和技术

首先,让我们回顾一下过去。

AI 的早期阶段

神经网络——由相互连接的虚拟节点构成、其工作方式与人脑相似——最早在 1944 年被提出,此后几十年里经历了起起落落的成功与挫折。神经网络首先通过训练来学习:给它一组输入,以及它应该学会产出的对应输出。在训练过程中,互联网络中的每个节点会变强或变弱,被赋予权重:强化某些连接、弱化另一些连接。本质上,它是在从未被明确教过任何“规则”的情况下,学会识别模式。

训练完成后,可以给神经网络喂入一个新的输入,来产生一个新的、希望是正确的输出。不过,这种“间接”的方法与其他 AI 系统曾采用的基于规则(或启发式)的方式很不一样;在计算能力真正释放出它的潜力之前,又过去了很多年。

也许 AI 历史上最有影响力的事件,是艾伦·图灵提出了一个“模仿游戏”:在这个测试中,一名审问者与一位人类参与者和一位数字参与者分别通过消息交流,然后试图判断谁是谁。这后来被称为图灵测试,并且在很多个年代里都被视为难以逾越的门槛。

1965 年,一个名为 ELIZA 的程序模拟心理治疗师:它会在自己的回答里重复用户输入中的关键词。类似的技术后来成为自然语言处理的基础;尽管这种技巧很简单,却足以欺骗很多人,让他们以为自己在和真人对话。

紧接着,在 1970 年代和 1980 年代,早期 AI 的另一个重点是专家系统,它试图把某个特定细分领域的知识“捕获”下来,以便回答相关问题。由于使用的是启发式方法而不是神经网络,人们发现要把知识编码进去、并处理各种边界情况实在太难了。

AI 研究仍在继续,但令人屏息的炒作并未兑现为现实,热情逐渐消退。计算机持续变得更快,用户界面也越来越友好,但 AI 的进展却停滞了。上世纪 90 年代中期,我在信息技术学位中主修人工智能与人工生命,实现了自己的 ELIZA 版本、训练神经网络,并模拟虚拟植物,再让它们彼此“进化”对抗。看到这些技术可以如何使用固然令人着迷,但学生项目与实际应用之间存在着巨大的鸿沟。

启发式方法和神经网络在一些受限领域找到了特定用途;随着计算机越来越强大,可用的场景也随之增多。模糊逻辑让计算机能够识别潦草的人类手写;视频游戏里由计算机控制的敌人,其实时行为由一套规则所支配。语言翻译虽然不完美,却成了许多应用中的常见功能。

然而,真正引发现代 AI 在能力与实用性上爆发的,是 2017 年谷歌引入的 Transformer 模型(论文题为《Attention Is All You Need》),以及图像生成领域扩散模型的突破。接下来,我们从高层视角看看这些现代系统如何工作,同时也要注意:我们并没有真正理解所有细节。

当今的 AI 如何工作

Transformer 模型包含一种称为“注意力”(attention)的机制,它会识别输入中最重要的部分,并赋予它们更高的重要性。你可以把它想象成:在下面这句话里,形容词被分配到的权重可能低于名词或动词:

The brown dog attacked the timid cat aggressively.

(我不会在这里深入数学细节;论文《Attention Is All You Need》在本章“附加资源”部分有链接。)

Transformer 最初是为翻译任务设计的,但当它与大语言模型(LLM)结合后,其真正潜力才变得清晰。LLM 是一种预测模型:它被训练成一次输出一个词,依据的是之前出现过的词——就像高级版的自动更正。例如,“The ice cream was…” 这句话,更可能以“…sweet” 或 “…delicious” 结尾,而不是比如说 “dusty”。

将 Transformer 加入 LLM,并配合海量训练数据,会产生——或看起来像是产生——一些“涌现能力”,例如总结能力。这些模型在某种层面上也能执行推理任务,而它们到底是如何做到的,目前仍不完全清楚。

尽管我们用海量文本训练了这些模型,但我们并没有专门训练它们去“总结”或“推理”,可它们却能做到。是否存在某种深层理解并不明确,但这重要吗?如果你要一篇文章的摘要,而你得到的是准确的摘要,那就已经足够有用了。基于 Transformer 的 LLM 系统如今被广泛用于提供帮助、建议与信息,甚至——尽管它们并非有感知的存在——用于陪伴。现代 LLM 包括 OpenAI 的 ChatGPT、Anthropic 的 Claude、Meta 的 Llama,以及 Google 的 Gemini 等等。

现代 AI 故事的另一面属于图像生成。虽然 ChatGPT 的图像生成器使用的是自回归 Transformer 模型,但更常见的是扩散模型:从 DALL·E 起步,延续到 Midjourney、Stable Diffusion 等。扩散模型从随机噪声开始,然后反复应用一个神经网络,去预测应该如何去除噪声,直到它逐步逼近所请求的文本提示(prompt)。

image.png

训练是这个过程中的重要组成部分,它包含一个正向扩散过程(向这些图像中加入噪声),以及一个反向扩散过程(将噪声去除)。通过向这些模型喂入海量图像,我们已经能够把它们的输出提升到这样一种水平:至少在某些时候,它们可以生成看起来真实的合成图像。视频也可以用更复杂的流程以类似方式合成;但机器学习(Machine Learning,ML)——也就是系统直接从数据中学习,而不是被给予明确指令——其实可以应用于许多不同的任务。

那么,这些任务是什么呢?

AI 的现代应用

“AI”这个词被过度使用了;对很多人来说,如今 AI 甚至只是意味着“这是电脑做的”——但 AI 远不止如此。为了清晰起见,本书会把 ML 与 AI 的应用分成三大类,如下:

  • 实用型 AI(Utility AI) :用于识别、分类与理解的模型,可帮助对呈现给它们的数据进行整理与管理
  • 生成式 AI(Generative AI) :用于生成文本、图像、视频、音频,甚至编程代码
  • 自动化 AI(Automation AI) :以定向方式控制其他计算机系统,去完成通常由人类完成的任务

我们来深入一点。如果你是在向聊天机器人提问,那很可能属于实用型 AI。若你在创作音乐或原创文本,那就是生成式 AI(简称 GenAI)。如果你用 Siri 或 Google Assistant 帮你创建一个日历预约,那就是一种更简单的自动化 AI。随着时间推移,这些术语的名字会改变;而 AI agents(或 agentic AI)是自动化 AI 中正变得更突出的一部分。

本书会更详细地展开这三个领域,并且书中每个部分都会专门对应其中之一。虽然这些类别之间确实存在交叉——例如翻译既涉及对所说内容的识别,也涉及用另一种语言生成内容——但总体而言,当今大多数 AI 应用都可以清晰地归入其中之一。

现在,我们先把这些类别当作宽泛、基础的标题,之后再深入细节。

今天,你可能会用 AI 工具来帮助你做的事情中,举一些例子如下:

  • 为一篇文章生成想法
  • 评估文字内容是否完整或准确
  • 生成摄影风格的图像
  • 用合成内容替换图像的一部分
  • 处理音频以去除噪声
  • 生成合成录音来匹配某个特定人的声音
  • 编写脚本,为图形设计应用自动化一些功能
  • 学习一个新应用时寻求帮助
  • 基于图像或文本描述创建 3D 模型

这些任务只是冰山一角。我长期以来一直认为:当“智能体”开始替我们驱动电脑时,进步才会真正爆炸式增长。起初,AI 模型会在我们注视下使用我们的应用;但最终,它们会直接完成任务,或者使用某些我们无法使用的更底层系统。今天我们还只是在旅程的起点,但变化正在快速发生。

AI 的短板在哪里

很少有技术能真正进入主流,但 AI 显然做到了;创意社群里那种兴奋与恐惧都非常强烈。然而,一个众所周知却常被忽视的因素是:AI 系统的输出很少是完美的。对外行来说,一张 AI 生成的图片可能看起来很棒;但对 Photoshop 专家来说,其中可能有明显的瑕疵。AI 写出的代码经常会引用根本不存在的编程接口。更可怕的是,AI 生成的法律论证会引用虚构的判例。建议并不总是准确;而且你对某个主题了解得越多,就越可能挑出 AI 输出中的问题。

尽管 AI 产出的工作“量”有时可以弥补整体“质”的不足,但总体而言,大多数 AI 输出都会缺点什么——不管是可触及的,还是不可言说的。原因可能有很多,但最主要的很可能是:AI 擅长“重混”,而不是原创思考。扩散模型生成的每一张图像,在某种意义上都来源于它被喂入的训练数据。

当然,也有人(Kirby Ferguson)提出过“万物皆重混(Everything is a Remix)”的观点;但最好的作品依然包含某种原创的火花,而且创作过程本身常常会激发新的创作。

关键在于要认识到:创作过程是任何产品或艺术作品的重要组成部分。如果你跳过头脑风暴、规划和实验这些阶段,成品就会在明显或微妙的方面有所欠缺,而你作为艺术家也不会成长。

你也许得到了你所要求的东西,但创造力往往能带来比“最显然的结果”更好的结果。直接跳到终点、忽略沿途的所有创意决策,会产出更差的作品,因为最好的设计师并不会只做出客户“明确要求”的那一个版本。

AI 能有多好?就我迄今为止看到的一切而言,一个优秀的 GenAI 往往能产出“还行但不伟大”的作品。它很少完美,也不太可能是顶级的 A+ 之作。充其量,它是扎实的 B+。但这并不意味着你就完全不该使用 AI。

相反,把 AI 用在它真正擅长的地方:

  • 替换图像的一部分,而不是替换整张图
  • 扩展照片边缘以适配尺寸变化,而不是从零生成整张图
  • 从一天的拍摄中挑选最佳照片,并由人类复核,而不是完全盲信
  • 识别一段音乐中哪些部分可以重复以适配不同的时长,而不是直接生成一整首新曲
  • 产出用于规划的临时素材,而不是最终成品
  • 帮你编写编程脚本,让创意任务更高效,而不是一切都手工完成

在我看来,AI 最好的用途是增强人类创造力,而不是试图把它彻底替代。如果 AI 能帮你把创作边界往外推一点点,那很好。但如果你跳过所有传统的创作步骤,直接去做一件远超舒适区的“原创”作品,你就根本识别不出它犯的错误。AI 可以帮你跑起来,但你得先学会走路。

除了“错误不易察觉”的风险外,AI 还带来“创意停滞”的风险。客户或许只在乎最终成品,但制作它的过程能帮助艺术家学习。如果你直接跳到结尾,你什么也学不到,也不会获得任何成就感。你越依赖 AI,就越不可能获得那些把新手变成专家的洞见。

尽管如此,AI 仍然有大量用武之地:那些无聊的、技术性的、重复性的任务——它们要么教不了你什么、要么耗时长到不切实际、要么本来就更适合交给计算机而不是人类。睁大眼睛去探索,你会看到 AI 的价值所在。作为工具,AI 可以是很好的帮手;但作为对艺术家的彻底替代,它仍然欠缺。

为了结束本章,接下来我们会快速看一眼当今可用的不同类型的 AI 服务。

应用、工具与技术

变化不可避免,但很少有哪个领域的变化速度能像当下这里这么快。虽然我在这里提到的工具现在都能用,但你也可以预期:会不断冒出很棒的新工具,而这里列出的某些工具也会消失。这里并不打算把市面上所有工具一网打尽,但它应该能作为一个导览,让你至少了解当下可用的一部分服务。

对很多人来说,“AI”可能从聊天机器人开始,也止于聊天机器人,而其中最知名的很可能就是 ChatGPT。确实,各种以聊天为核心的 LLM 也提供其他服务;但你还会发现大量更专门化的服务——它们可能有或没有聊天式界面;也会发现你可能已经在使用的一些应用里内置了 AI 服务;以及一个庞大的开源模型世界——你或许可以在自己的硬件上运行它们而无需订阅。

我们先从最知名的 LLM 看起。

基于 LLM 的托管式 AI 服务

如果你想处理一个多面向的问题,你需要的是这样一种服务:它能理解文本、生成至少比较基础的图像、联网搜索、分析文档等等。从大型、知名 AI 公司的服务入手,通常是个不错的主意。这些公司一般都允许你免费进行一定数量的查询;如果你需要更多,则可以订阅付费方案。这里我会提到面向消费者的最高档套餐价格,而不是开发者可能会遇到的、按 token 计费的成本。

其中一些模型(比如 Claude)严格来说只做文本;另一些(比如 ChatGPT)是多模态的,除了文本之外还能分析图像或口语内容。有些能生成图像、视频或音频,有些不能。这也没关系,因为有时你只是想获得信息来把工作做得更好,而对话式界面会让这些信息更容易获取。

文本生成或润色当然是 LLM 的显性用途;但在创意领域里,另一个关键用途是辅助构思(ideation)、学习或研究。虽然这些系统未必能替你完成作品,但它们绝对有一席之地。

这些服务各自使用不同的训练数据,并由各自独特的系统提示词(system prompt)引导——也就是在用户输入之前先喂给模型的一组指令。因此,每个 LLM 给人的感觉或“性格”都会不一样。多试几个,把你的需求与它们的能力做匹配;如果你决定订阅一个或多个,也要经常重新评估你的选择。

这个领域的服务升级非常频繁,但几乎所有服务都能免费试用。在你承诺订阅之前,一定要确认它确实能做你期望它做的事;如果要订阅,尽量按月付费——因为一切变化都很快!

还值得注意的是:很多服务会把普通消费者和开发者作为两个不同的目标群体来提供产品。开发者通常通过更底层、也更复杂的按 token 计费系统来访问这些服务。由于大多数创意从业者并不是开发者,我们假设你会通过面向消费者的入口来使用,并把重点放在固定的月费价格上。

这绝对不是一份详尽清单,但你很可能没听过这里的每一个服务。不过,有一家 AI 公司你几乎肯定听说过,那就是……

OpenAI

正如 “googling” 已经成了搜索的代名词一样,在谈论任何 AI 聊天机器人时,人们也常常会用 “ChatGPT” 来指代。ChatGPT 是 OpenAI 的旗舰产品,可能也是世界上最知名的 LLM。你可以通过网页、多个平台的应用,以及与其他产品的集成来使用 ChatGPT。ChatGPT 已经发展出了多个模型,具体提供哪些能力也在持续变化;它并不局限于文本——你可以上传文档,并得到更新后的文档作为输出。对于这些服务,如果你不确定某个模型能做什么,直接问 LLM 自己就行。

除了 ChatGPT 之外,OpenAI 曾经也因 DALL·E 而广为人知——这是一个早期的图像生成工具,如今已并入 ChatGPT,并且可以免费试用。Sora 是更新的图像与视频生成工具,但只在付费方案中可用。写作本书时,生成 1080p 视频需要昂贵的 ChatGPT Pro;而较低质量的 720p 视频可以用 ChatGPT Plus 生成。尽管如此,它对创意工作者可能非常有用,预计价格如下:

  • ChatGPT:免费开始使用,访问 chatgpt.com
  • ChatGPT Plus:20 美元/月
  • ChatGPT Pro:200 美元/月

Google

搜索巨头 Google 在 Gemini 这个名字下提供了多种产品——目前包括 AI Pro 和 AI Ultra 计划,除了 Gemini Pro 与 Gemini Nano 模型外,还包含其他能力,比如 Veo 3。Gemini 是一个能力范围很广的 LLM,可以通过网页、App、Google Workspace 使用,并且也被直接集成进了 Google Search 的新 AI Mode。如果你用的是 Android,也可以用 Gemini 来替代 Google Assistant;但在写作本书时,它还无法在 iPhone 上取代 Apple 的 Siri。它可以免费开始使用,但最先进的能力需要 Pro 计划。它在创意领域也有明确用途,价格如下:

  • Gemini:免费开始使用,访问 gemini.google.com/app
  • Gemini AI Pro:20 美元/月
  • Gemini AI Ultra:249 美元/月

Meta

Meta 更广为人知的身份是 Facebook 的创建者、Instagram 的拥有者。Meta 打造了 Llama——他们的旗舰 LLM,它已经成长为最大规模的免费、近似开源选项。对于 LLM 来说,“开源”并不一定意味着你能直接下载并在本地运行,因为完整版模型体量太大;但这并不意味着不可能——本章后面的“运行你自己的 AI 服务”一节会再详细说明。并且,“免费”也不意味着 Llama 对版权问题免疫:Meta 曾遭遇法律诉讼,被指控使用受版权保护的材料进行训练;不过,只要你不要求 Llama 复现受版权保护的作品,你自己一般不太可能遇到问题。与 LLM 对话不需要登录,但图像与视频生成则需要你创建一个免费的账户。Llama 可在 meta.ai 访问。

Anthropic

Claude 是 Anthropic 提供的 LLM。和前面提到的 LLM 一样,它可以聊天、分析图像、处理代码等等。不过,Claude 不能生成图像,所以如果你对图像或视频的生成式 AI 感兴趣,它就不适合。定价与其他服务大体一致:

  • Claude:免费开始使用,访问 claude.ai
  • Claude Pro:20 美元/月
  • Claude Max:100–200 美元/月

Microsoft

Copilot 是 Microsoft 的多用途 AI 工具。虽然可以通过网页访问,但最常见的使用方式是在 Microsoft Office 应用内部。在 Word 里,它充当语法检查与文本润色引擎;在 PowerPoint 里,它可以帮你做版式、生成图片,甚至创建整套演示文稿。(它在 Excel 里也能帮忙,但由于在创意语境下可能没那么有用,这里就不展开。)历史上它主要基于 ChatGPT,但 Microsoft 已宣布计划使用自研模型。需要账户登录,免费计划也有限制,但目前并没有“昂贵档”的计划:

  • Copilot:免费开始使用,访问 copilot.microsoft.com
  • Copilot Pro:限制更少、能力更多,20 美元/月

DeepSeek

DeepSeek 是一个免费、开源、以效率为重点构建的 LLM,提供了几种不同模型。基础 R1 模型只处理文本;Janus 模型则是多模态的,可以理解并生成图像。需要注意的是:DeepSeek 在中国本土托管的版本会对某些话题进行审查。据称,可下载版本并没有这些限制。在写作本书时,选项如下:

  • DeepSeek:免费开始使用,访问 deepseek.com(注意:需要用全球邮箱服务商的邮箱地址注册)
  • API 访问以及更高级模型需要更底层的访问方式

尽管多数知名 AI 平台都是从一个 LLM 起步,并把各种服务集成进聊天机器人里,但你并不需要通过聊天机器人才能使用 AI 服务。有些服务的定位更聚焦。

专用型托管 AI 服务

对于某些工作,你可能会发现:去使用一个为特定任务量身定制的网页服务,会更可靠、更可预测。下面是一些图像、视频与音频生成服务——我们会在本书后面的章节里再深入讨论:

  • Midjourney:提供高质量的图像生成。它的画质往往高于多数其他 AI 图像生成服务,但成本也更高。没有免费试用,用户需要订阅付费计划。虽然价格从每月 10 美元起,但只有 Pro(60 美元/月)和 Mega(120 美元/月)计划允许你将图片保持为私密。访问地址为 Midjourney.com。
  • FLUX:这是众多你可能没听过的图像生成器之一,但值得关注。出自 Black Forest Labs,这个工具可以从现有照片中提取物体,像电视剧情里那样放大并“增强”,改变艺术风格,并以很高的质量做出多种修改。目前最强模型按张计费,每张 8 美分,同时也即将推出开源版本。访问地址为 bfl.ai。
  • Stability.ai:Stable Diffusion 的开发者允许你免费下载他们的开源生成模型,同时也提供线上订阅计划,价格从每月 9 美元到 99 美元不等。它们最为人熟知的是图像生成,但最新模型也能生成视频、音频与 3D 模型。访问地址为 Stability.ai。
  • Canva:这个知名的在线设计服务也转向了 AI,集成了一个聊天机器人,让你可以生成图像、修改图像、并创建新设计。对于简单设计任务而言,能快速起步无疑很有用;但我怀疑多数专业设计师会需要比 Canva 在线工具所提供的更强创作控制力。
    Canva 可以免费开始使用,但 Canva Pro 费用为每月 13 美元,可降低 AI 生成限制并解锁更高级工具。注意:要生成符合品牌调性的文本与视觉资产,你必须使用 Canva Teams(当席位数达到 3 个以上时,人均成本更低)。有趣的是,如果你订阅 Canva Enterprise(100+ 席位),你可以获得针对 AI 生成所引发的知识产权主张的赔偿保障(www.canva.com/policies/ES… Canva.com。
  • Runway:一家以视频为核心的 AI 公司,提供生成式图像与视频服务,计划从每月 0 美元到 76 美元不等。不过,免费计划生成的内容会带水印。要在最先进模型上获得最佳效果,建议上传一张图片作为视频生成的基础。(如果你用纯文本提出视频需求,它会先生成一张图像,然后再把它动起来。)服务中还包含许多与视频相关的工具。访问地址为 runwayml.com。
  • Gling:面向视频创作者的在线服务,通过自动移除糟糕镜头、剪掉停顿与口头填充词(如 um、ah)来帮助你启动剪辑流程,然后再用基于文本的编辑方式来剪你的视频。价格从每月 0 美元到 20 美元不等。访问地址为 gling.ai。
  • Envato:虽然 Envato Elements 主要以素材库闻名,但他们已在服务中集成了图像、视频、音乐与人声生成,以及图像编辑等功能。价格从每月 16.50 美元起,并包含使用 Google 的 Veo 3 模型进行视频生成。访问地址为 envato.com。
  • Descript:这个云端视频剪辑平台最近扩展了其 AI 能力。自动转写支持基于文本的剪辑;AI 虚拟形象可以用 AI 合成的声音,朗读 AI 生成的脚本,同时配上 AI 生成的 b-roll(补充画面)图像。访问地址为 descript.com。
  • ElevenLabs:该服务使用合成声音(或从特定真实声音克隆的声音)将文本转换为语音。输出可以听起来像真人一样,具有情绪与变化的语速节奏;甚至还能把口语音频翻译到另一种语言,同时保持与原说话者相同的声音。完整的功能包里还包含音频清理工具。

不过,云端工具并不是完成特定任务的唯一方式——现有的桌面应用也以各种方式适应了新的 AI 范式:有的借助云端,有的则完全不需要云端。

集成在现有应用与平台中的 AI 工具

第三方云服务正在面临来自许多设计师早已在使用的工具的竞争。在很多情况下,这些工具能更方便地融入现有工作流,并且可能提供更强的隐私控制。下面是一些你可能会觉得有用的选项:

  • Adobe Firefly:Adobe 已将大量 AI 工具集成进其创意应用中,这些工具统称为 Adobe Firefly,同时也以同名的独立网页应用提供。能力包括:Illustrator 中的矢量生成、Photoshop 中的 Generative Fill、Premiere Pro 中的 Generative Extend。AI 生成功能包含在 Creative Cloud 订阅中,但可用点数(credits)会因套餐和地区而差异很大。一般来说,像 Generative Fill 这样的功能每次使用消耗 1 个点数;不同计划每月包含约 25 到 4,000 点数不等。某些高级功能(包括视频生成)每秒可能消耗 100–175 点数,因此很多用户会遇到额度限制,可能需要额外订阅计划才能使用这些功能。其他非生成式功能,比如自动字幕生成,将继续免费。你可以在 Adobe Creative Cloud 应用中找到 Firefly,也可访问 firefly.adobe.com。
  • macOS 与 iOS 的 Apple Intelligence:这些功能并不是最先进的,但它们免费,并且要么完全在设备上运行,要么在私有云中运行。Image Playground 允许你以有限的风格生成低分辨率的方形图片;不过其中一些实用型 AI 和自动化 AI 工具会非常有用。比如,在 iOS 或 macOS 上,任何图像里的文字都可以直接选中并复制为文本。内置于 iOS 26 与 macOS 26 的 Foundation Models 框架还提供更多模型,使任何开发者都能集成生成式对话、分类、摘要、打标等能力。
  • Final Cut Pro:Apple 的旗舰视频剪辑应用包含多种 ML 功能,例如在音频中分离人声、生成字幕、识别运动视频中的物体,以及在慢放视频时生成中间帧。
  • DaVinci Resolve:这个视频剪辑与调色软件的第 20 版包含了多种在设备上运行的 AI 工具,无需订阅或额外费用。字幕生成与人声分离只是起点;Resolve 还能用一段声音样本进行训练,然后生成该声音的新音频。我们会在本书后面详细讨论这些功能。
  • Avid Media Composer:这款老牌视频剪辑软件早就集成了 PhraseFind 与 ScriptSync,帮助剪辑师更容易找到镜头。2025 年加入了 Flawless.ai 的 DeepEditor,允许对表演进行重新定时,并修改可见的口型对白(甚至改成另一种语言),同时还能从相关演员处收集对这些修改的同意。(另一个独立产品 TrueSync 也可独立处理素材。)
  • Peakto:一款图像管理工具,可让你跨多个应用的多个目录查看与组织图片和视频。实用型 AI 现在支持图像分类、视频转写等功能。

在本地运行你自己的 AI 服务

除了你已经在使用的应用内置的 AI 服务之外,你也可以下载新应用,把 AI 服务跑在自己的硬件上。为了在 PC 上获得最佳速度,你会希望使用一块快速的显卡(GPU),通常来自 Nvidia;而在 Mac 上,为了获得最佳速度,你会希望选择名字里带 “Max” 或 “Ultra” 的机型,因为这些型号拥有更强的 GPU 与更多的 RAM。

为什么你会想在本地运行 AI 任务?第一是隐私——当你处理某些客户资产时,这可能是硬性要求。第二是成本——这些服务中很多要么免费,要么一次性买断。第三是延迟——你依赖的是本地机器,而不是云端“别人的电脑”。

运行这些程序的方式有好几种:有的像普通应用一样带图形界面,有的则要求你熟悉命令行。由于大多数创意专业人士更偏好图形界面,这里会以图形化方案为主。要体验本地 AI,你不必把自己折腾得太“脏”;但如果你会用命令行,你的探索选项会多得多。一些不属于标准图形设计、音频或视频应用的关键本地选项包括:

  • Stable Diffusion:可免费本地运行,并有多种 GUI 选择(gist.github.com/AshtakaOOf/…
  • MacWhisper:支持多种格式的转写与听写(goodsnooze.gumroad.com/l/macwhispe…)。注意:PC 端也有开源 Whisper AI 的实现可用。
  • Picture This:与视频剪辑应用集成的图像生成(apps.apple.com/au/app/pict…
  • Draw Things:iOS、iPadOS 与 macOS 的免费图像生成(apps.apple.com/au/app/draw…
  • LM Studio:如果你不喜欢命令行,这是运行本地 LLM 最简单的方式。在 Apple silicon 的 Mac 上,LM Studio 会提供利用 Apple 的 MLX 框架的模型,以便在现代 Apple 硬件上以更高速度处理 ML 算法(lmstudio.ai)。
  • ComfyUI:一种基于节点的工具,用于把不同 AI 模型连接起来,让一个流程的输出能作为另一个流程的输入。虽然这并不简单,但如果你想对自己的系统拥有最大控制力,它可能是最佳选择(www.comfy.org)。
  • Jumper:本地 AI 转写与片段分析,使你能在视频与照片素材中进行搜索,并可与常见视频剪辑应用集成(getjumper.io)。
  • Strada:这款 AI 打标生成、分类与分析工具最初以云优先为重点,但后来转向“本地云”模式。它承诺通过基于内容与转写的智能分析,让你更容易找到适合剪辑的正确视频片段(strada.tech)。

小结

在本章中,我们了解了 AI 的起点、这些系统如今如何工作、它们擅长什么、以及它们会在哪里失手。如果你能找到 AI 在不损害你创造力的前提下帮你完成更多工作的方式,你就会更有优势继续创作下去。

不同类型的 AI 工具会给你很多机会来加快工作速度——即使你不想(或不能)用 GenAI 来制作客户作品。实用型 AI 会帮你“找到并变换”,而自动化 AI 会帮你把现有工作做得更快。并不是所有 AI 都一样。

尽管新的服务层出不穷,不同类型的 AI 工具由于其运行方式不同,必然会共享某些优势与限制。对于最新、最强的模型,你很可能需要订阅一个或多个保持更新的云服务提供商。几乎所有这些服务都提供免费试用,所以慢慢开始:如果它们确实有价值,再增加额外服务,并持续密切关注整个领域的进展。

如果你想要最便宜且隐私最好的选项,你需要寻找设备端模型,但也要认识到:你可能达不到最前沿云端方案的速度或能力。

在这两种极端之间,你还会发现大量支持一次性买断与订阅混合的应用选择。这是一个竞争激烈且变化飞快的领域。

不过,AI 工具仍然悬着一些尚未解决的伦理问题:它们是否以合乎伦理的方式被构建?使用这些工具会不会让你暴露在法律风险之下?在我们真正深入讨论如何驾驭 AI 的力量之前,需要先回答关于 AI 使用伦理的若干问题。为此,请继续阅读第 2 章。