随着我们进入本书的生成式 AI(GenAI)部分,值得先回顾一下:使用这项技术可能会触发哪些伦理红旗。需要说明的是,并非所有 GenAI 的用法本质上都不好,但我不建议你把生成式文本作为“常规工具”,用于任何你要直接发给客户的内容。
如果你过度使用 GenAI——比如决定让 AI 代写你的邮件——那么你用来产出文字的“思维肌肉”会逐渐萎缩。你不仅不会继续发展新的表达能力,还会失去自己声音的独特性,客户也就更少理由在众多服务提供者中选择你。
如果你从事创意制作,创造力不是副业。你需要做出比别人更有趣的作品,而不是尽可能多地输出不达标的“劣质内容”。每一封邮件都应该是练习更清晰沟通的机会,而不是一件可以外包出去的苦差事。
话虽如此,GenAI 当然也有用武之地:它可以生成能让你更高效工作的文本,帮你产出点子,或让你的作品更易于被更多人理解与使用。下面我们将更深入地讨论这些方向:
- 构思(Ideation)
- 用不同风格改写文本
- 生成引用(Citations)
- 翻译
- 用于无障碍的替代文本(Alt text)描述
并不是每位创意从业者都需要以上全部功能,但我们大多数人都会发现其中几项很实用。先从头脑风暴开始。
构思(Ideation)
创意工作差异很大:有些完全由自己驱动,有些严格受客户 brief 约束,更多时候则介于两者之间。当你需要做出“下一步怎么做”的创意决策时,空白页有时会让人发怵,这时用 AI 生成一些想法可能会有帮助。
和往常一样,你问得越具体,结果往往越好——你对主题了解越多,就越能提出更好的问题。而且,如果你只是稍微走出舒适区,你通常也更容易辨别哪些建议是糟糕的。比如,你是视频创作者,想要一些 YouTube 视频点子,只要直接问:
图 6.1——10 个点子(此处未全部展示)都很扎实
这些点子都不错,很容易发展成短视频。虽然我自己也能列出类似清单,但这样的输出很容易激发你进一步、更好的想法。换个主题问也同样好用。比如你是喜欢狗的数字艺术家:
图 6.2——这些点子同样大多靠谱
当你缺乏灵感时,让 LLM 提供点子至少能帮你启动。虽然这些结果未必“非常原创”,但如果空白页是你的敌人,它们就是一个可迭代的坚实起点。
伸展到邻近的创意领域
构思并不只是为你熟悉的内容找点子。LLM 也能帮助你把触角伸到比你舒适区更远一点的地方——这在小团队里尤为常见,因为你可能需要兼任多种角色。
比如,你是经常拍活动的摄像师,却被要求做一支宣传片;LLM 可以给你一个“宣传片通常应包含哪些内容”的检查清单。下面是 Gemini 回答的开头部分:
图 6.3——这些要点(此处未全部展示)相对显而易见且合理
如果你剪辑能力很强,但不太擅长把控“导演/策划”,这类清单就能作为一个起步框架:你可以把它扩展成客户提案,然后进一步写成拍摄脚本。类似地,如果你是设计师但不是桌游营销专家,LLM 也许能帮你找到更适合投放你所制作广告的渠道,并提示一些桌游圈内才常见的要素:
图 6.4——这份回答信息量大且实用,包含许多在桌游社区之外并不明显的细节
我无法逐条验证在其他细分领域里的建议是否都准确,但以上例子属于我熟悉的范围,输出确实靠谱。构思当然是 GenAI 的任务,但它未必会削弱你的创造力——反而可能进一步激发你。为了避免你对 AI 的灵感产生“依赖”,建议先自己或与同伴一起做一轮构思,再让 AI 给你补充和对照。这样你得到的是“第二意见”,而不是把工作完全外包给它。
当你有了点子,希望你也已经写出一些内容了。但如果你对现有文本还不满意呢?
用不同风格改写文本(Rewriting text in a different style)
尽管“总结”和“改写”之间的差距很小,但我认为二者确实有明显区别:总结通常是为了你自己理解而提供的,而改写更具“变形性”,通常用于面向公众的输出。在这里,“实用型 AI(Utility AI)”与“生成式 AI(GenAI)”之间的界线也有些模糊——就像前面讨论总结时一样——最终该在哪里画线,由你自己决定。
虽然我不把大多数语法检查器的用法视为“改写文本”,但提供语法辅助的同一批工具(比如 Grammarly、Copilot 和 Apple Intelligence),如果你觉得有需要,确实也能提供更进一步的帮助。改写也是很多通用 LLM(例如 ChatGPT 和 Claude)的常见能力,所以如果你已经在用其中之一,不妨试试。不过,如果这些工具都不适合你,那么像 Spiral(writewithspiral.com/)这样的专业写作助手也许更合适。
小说写作工具(Novel-writing tools)
打算写小说?你可能会想用更专门的工具来帮你。像 Novelcrafter(www.novelcrafter.com/)、Sudowrite(sudowrite.com/)和Squibler(www.squibler.io/)这类写作辅助工具,是为故事与小说优化的;它们产出的内容更偏向虚构写作所需的描写性文风,因此不太适合创意制作中更常见的文本任务,比如提案、邮件和提案演示文稿(pitch deck)。
这里我们把重点放在更通用的写作助手上。当然,这份清单并不全面——新工具一直在冒出来。
AI 工具可以为了清晰、简洁而改写,也可以模仿某家出版物或某位作者的风格;事实上,你可以向大多数 LLM 请求几乎任何风格。作为测试,我把我最近在 provideocoalition.com 上发表的一篇文章开头段落(关于立体视频实验)交给多个工具做改写。我的写作风格可能有点怪,也不完全无错,但我自己觉得没问题:
Spatial 3D stereoscopic video is easy to shoot on modern iPhones, but you'll run into its limits pretty quickly. Third-party apps can improve things, but they have limitations too, and if you're used to shooting with a couple of dedicated cameras already, why not use them?
Well, if you're tempted to try making some stereoscopic 3D video with a couple of cameras sitting on the shelf, you should know what you're in for — it's harder than you think and there are plenty of mistakes to be made. On your first few stereo shoots you're bound to get something wrong, but if you practice now, you'll hopefully avoid catastrophic failure down the road when you get hold of a real camera.
Experiments like this are a great way to push your skills, but don't get your hopes too high. Even if you don't use something this janky to shoot real client projects, making it work with what you've got will give you real-world experience shooting in 3D that you can use if you step up to a pro setup down the road. So, with some regular 2D filmmaking gear to hand, how can you hack together a quick stereo 3D rig for viewing in a headset or on a 3D display?
As an extra reminder that this is an experiment, I'm not worrying about proper 3D Spatial Audio at all. Video's the focus here.
把这段文字用很多工具、很多方式处理之后,我并没有得到多少我愿意在专业场景里直接使用的结果。因为每个人的需求和风格不同,你可能会比我更走运;当然工具也会随着时间演进。
第一轮我从默认的“改写(rewrite)”选项开始。看看 Grammarly 的建议:
图 6.5——Grammarly 想改动很多,但并非都更好
除了几乎完全失去我的个人文风外,“limitations”并不等同于“restrictions”,而“simple”也不等同于“janky”——我并不希望“改写”改变我原本要表达的意思。Copilot 的第一次尝试更糟:
图 6.6——Copilot 在这里表现并不理想
这段文字读起来像机器人,缺乏节奏、衔接和方向感。另两个替代版本也没好到哪去:第二个只有一个大段落,第三个则堆满了华丽辞藻。那 Apple Intelligence 呢?它没有像其他模型那样改得那么狠:
图 6.7——Apple Intelligence 的 Rewrite 保留了更多原文
Apple Intelligence 的改动更少,因此整体风格和感觉也没有被改掉。但如果你需要更正式的结果呢?继续用 Apple Intelligence,选择 Professional 语气:
图 6.8——“Professional”更啰嗦、更不口语
这比我个人偏好的风格更正式一些,但意思基本保持不变,整体感觉也没有偏离原文太远。ChatGPT 的 Technical 版本还算可以,不过它与原文差得更多:
图 6.9——ChatGPT 的技术向改写大体 OK
ChatGPT 提供了 Casual、Technical、Promotional 三种改写;这里展示的是其中第二种。虽然有几个地方用词替换改变了原意(包括用 “simple” 替代 “janky”),但整体还算可靠。再看看 Grammarly 的正式版本:
图 6.10——Grammarly 的 “formal” 改写
它当然很正式,但那些华丽形容词并没有让表达更清晰。我认为 Copilot 在“正式语气”的尝试里做得更好,不过我需要手动要求“formal tone”,而前面那些工具默认就提供了这种选项。
图 6.11——Copilot:按“正式语气”要求后的输出
这些例子作为评估工具能力的起点应该很有用,但你每次运行都会得到不同结果。如果没得到你想要的效果,就再试一次,或者稍微改改提示词。也许是为了鼓励你多实验,ChatGPT 主动提供了多种风格(Casual、Technical、Promotional),并提出可以把三者融合成一个“浓缩 best-of”版本。结果非常搞笑:它把“if you're used to shooting with a couple of dedicated cameras already”这句片段硬改成了“if you already have a pair”… 含义明显跑偏了:
图 6.12——ChatGPT 提供的“浓缩 best-of”版本:并非我想表达的意思
尽管我自己大概率不会经常用这些工具,但如果你还在建立写作能力的阶段,我能理解它们的吸引力。不过我建议先从 Apple Intelligence 入手(在较新的 Apple 设备上用 Notes 或 Pages),因为它更能保留你的原始表达。在一个“基本合格的 AI 文本”越来越常见的世界里,“基本合格”已经不够了。如果你打算用这些服务,别直接接受批量修改;要逐条审视建议,认同的再自己动手改进去。
如果你确实需要 AI 帮你修订或生成文本,就别只停留在预设按钮上——用“提示词驱动”的方式更具体地要求它做事。你完全可以提供一份文档(甚至多份、或者你整个网站),要求 AI 模仿你的风格。你也可能会在“为简洁改写”上得到更大帮助,比如当你被严格字数限制卡住时。虽然我仍建议你自己写,但如果确实做不到,至少要避开那些一键预设。
反过来,如果你还没写正文,只想让 AI 把要点列表扩写成整段文字——确实可以做到,但这真是个好主意吗?
从要点生成整段文本(Writing full text from bullet points)
如果一件事非常容易做,那它往往也就没什么价值。模板化设计在和其他模板作品放在一起时不会突出,AI 写的文字也一样。用几条简短的要点,我给出以下核心建议:
- 自己写作能帮助你成长为更好的写作者
- 把一项工作外包出去,你就不会在这项技能上进步
- AI 是一种快速、廉价的外包方式
- AI 的工作“称职”但不“卓越”
- 如果 AI 帮你起草了开头,你应该再编辑,加入自己的痕迹
如果我偷懒,直接让 AI 把这些要点扩写成正文,不就行了?看看这样是削弱还是强化我的论点:
图 6.13——ChatGPT:称职、表达得体,但这不是我的写作
这段文字没问题。并不出色,只是“还行”。但如果你想要“很棒”的结果——而你应该永远追求“很棒”——我不建议你生成那种你期待客户或读者直接阅读的文本。如果它值得被阅读,那就值得你亲自去写。
正如你可能猜到的,花时间自己写出来的内容,通常比任何外包捷径都更丰富。是的,你需要投入时间,但回报往往值得。写完整的长文本能帮你更深刻地理解概念,也让你在被质疑时能真正为这些观点负责。
“写作带来的成长”是写作的一项被低估的收益,不该忽视。外包让你很快到达终点,但你得到的也只有终点本身。你反复写提示词,最后只是更擅长写提示词。
不过我也理解:如果你觉得自己写长文本的能力不够,用 AI 是很诱人的选择。如果这种诱惑太强,或者你被分配了太多工作却没有足够预算把它做好,那么至少——尽你所能——去编辑这些生成文本,让它更像你自己的。重塑、重构、删改都可以。你对输出贡献得越少,你成长得越慢,你作品的价值也越低。
我也同样理解,现实里确实存在大量并不那么重要的文字——希望那不是你作为创意从业者的主要工作。法律重要文本应该交给律师;但如果你的工作是写有说服力的文案,你就应该把这份工作做好。如果你把核心能力外包出去,客户为什么不找一个更便宜、用同样 AI 工具的人?
最后,一些服务(如 Spiral)声称能学习你的风格,然后替你生成更多“仿你风格”的内容。这个方向确实在一定程度上解决了“个人声音与语气”的问题,但“你并没有真正做这份工作”的问题仍然存在:你依然会在创造力上萎缩;如果你从不真正参与、也不发展那些关键要点背后的概念,你就无法真正理解 brief;而且你的写作也不会变化和成长。
如果你有选择,就做更好的作品,而不是仅仅做更多作品。
那么,有没有一些生成式任务只是帮你减轻繁琐劳动?当然有。比如你需要为信息来源做引用:引用格式繁琐但更多是技术活。AI 能处理吗?
生成引用(Generating citations)
尽管引用更常见于学术领域,但有些客户也可能希望在提案、工作计划或年度报告中看到格式正确的引用。如果你负责这些长文档的版式设计,并且需要生成引用,你可能会想让 AI 来帮你处理所选引用规范里那些相当具体的格式要求。作为测试,我让三个主流 LLM 把一组 URL 转换成引用,结果的差异之大让我很意外。提示词如下:
将这些 URL 转换为 APA 格式引用。
www.techradar.com/computing/a…
www.digital.gov.au/initiatives…
housefresh.com/beware-of-t…
ChatGPT 至少在三个 URL 里的两个上,把关键细节错得很“自信”:
图 6.14——这里第一条和第三条参考文献的作者与日期都是不正确的
这种错误在多次尝试后仍然存在;而用同样提示词,Gemini 的表现更好:
图 6.15——经过一段很长的“思考”过程后的最终结果
但这个结果并不稳定;用同一个提示词再试一次,却得到了完全不同的输出。
图 6.16——同一个引擎竟然也会产出……这个?
我不想花太多篇幅堆例子,但 Claude 在这个任务上也失败了。让我担心的是:在我原本以为“相对简单”的任务上,这些服务的可靠性都很差。如果你需要经常做这件事,我建议用手动的引用生成器,比如 Grammarly 提供的那个(www.grammarly.com/citations):
图 6.17——这条手工组装的引用需要更多复制粘贴,但自动化选项不够可靠
我当然希望至少有一些 AI 工具能把这类任务做得可靠;但既然连最大的几个 LLM 现在都还做不对,我也不建议你去信任其他工具能把这件事“正确地自动完成”。规则依旧——除非你检查过,否则要非常谨慎地把 AI 生成的内容公开给外部世界。
好,点子搞定了,文档写完了,引用也处理好了,而现在客户又希望交付一个不同语言的版本。AI 能帮忙吗?
翻译(Translation)
虽然翻译是 AI 工具相对擅长的任务之一,但它们并不完美。如果你只是为了自己理解而把外语文本翻译成你懂的语言,AI 大概率够用。只要你能接受不完美的结果,你就可以理解那些原本完全读不懂的外语内容——这确实很好。
不过,如果你需要把自己语言里的创意内容翻译出来交付给另一种语言的母语读者,那就不要指望 AI 能单靠自己产出完美结果。
就像转写一样,输出会很快,而且大体正确。但转写里的错误相对容易校正;而如果你根本不懂目标语言,你就很难确认翻译是否准确。
很多廉价产品的网站列表和视频广告就能说明这一点。因为没有预算把产品描述翻成真正自然、正确的英文,于是就用自动翻译工具,输出也从不再编辑。结果就是:用户预期和对产品价值的感知被进一步拉低。
图 6.18——AliExpress 上这款廉价智能手表的描述错误百出
这当然不是什么新现象。但如果别的语言都做不到“无误翻成英文”,我们又凭什么期待英文能“无误翻成其他语言”?我曾负责设计英文以及多种语言的桌游说明书:每一次,翻译都由母语者完成,我负责排版,然后由同一位译者复核,再交由其他人继续校对。
译者当然可以把 AI 翻译当作起点,但不同语言与方言的微妙之处需要人来把关。翻译的细节并不好拿捏,即便是母语者也一样。比如欧洲西班牙语与墨西哥西班牙语之间的差异既细微又繁多;即便有人类监督,翻译也依然会有错误,需要很多校对者才能逐步修正。在创意语境里(比如视频、桌游)出现微妙翻译问题的概率,也往往比事实型新闻更高。
工具方面,Google Translate 网站多年来一直表现不错;在 Apple 平台上,Safari 浏览器也内置了翻译功能,可以把你访问的任何网页翻译出来:
图 6.19——Safari(以及其他浏览器)可以翻译外语网站
来自 Google、Apple 等公司的翻译 App 还能实时把音频翻成另一种语言的文字(甚至再输出为音频)。这在旅行时足够好用,但对创意制作而言还不够可靠。
不过,对于需要制作无障碍 PDF 或网站的人来说,AI 有一个非常明确的用武之地。
用于无障碍的替代文本描述(Alt text descriptions for accessibility)
Alt text 是图片的文字等价物,用来为无法看到图片的人描述内容。虽然 alt text 主要面向盲人或视力障碍读者,但它对搜索引擎也很重要。事实上,图片的文字描述正是 LLM 能理解“图片里有什么”的关键方式之一——它们把这些描述作为训练数据的一部分。
因此,许多 LLM 都能解读图片内容,也就能生成 alt text。设计师可以把它粘贴到 Adobe InDesign 或 Bridge 之类的应用里,或者粘贴到 WordPress 这样的 CMS 里。很多国家要求面向公众的文档必须无障碍,因此这并不是一个可选项。
写一句话描述一张图片并不难,但如果要描述很多图片,就会很耗时。而且 alt text 通常要求简洁、直接的语言,因此“在人类监督下由 LLM 辅助生成”看起来很合适……对吧?
在评估输出之前,先给出哈佛大学数字无障碍指南里关于 alt text 的一些最佳实践(accessibility.huit.harvard.edu/describe-co…):
- 保持简短,通常 1–2 句。别想太多。
- 关注你选择这张图的关键要素,而不是描述每个小细节。
- 不需要写 “image of” 或 “picture of”。
- 但要说明它是否是 logo、插画、绘画或漫画。
- 不要重复文档或网页中相邻位置已经出现的文字。
- alt text 以句号结束。
生成 alt text 还有很多微妙之处。除了上述要点外,alt text 必须包含图片呈现时的“语境”。同一张校园照片,如果用于讨论建筑,它的 alt text 会和用于学生招生手册时不同。更多建议见:www.visionaustralia.org/business-co…。
用 AI 生成 alt text 最简单的方式,是使用专门为此设计的免费工具,例如 Ahrefs(ahrefs.com/writing-too…)或 TailWind(www.tailwindapp.com/marketing/t…)。
或者,你也可以用 ChatGPT、Gemini、Claude 这类通用 LLM。它们的额外优势在于你能“微调”输出——比如先给它们更好的 alt text 写作要点,或提供图片出现的上下文。以我自己的一张照片为例,Tailwind 给出的简洁 alt text 如下:
图 6.20——这段文字很简洁,但缺少语境,就不够完整
这个描述长度合适,也传达了足够含义,但没有语境。而且并非所有描述都准确。Ahrefs 给了三个选项,但它们都把 Apple Park 误解成了一条步道:
图 6.21——Ahrefs 提供了选项,但都不正确
人当然可以手动编辑这些描述,把语境补进去;更高级的 LLM 也能替你补。这里,ChatGPT 先给出通用描述,然后在你提出要求后加入语境:
图 6.22——加入语境能改善 alt text——不过可能还是稍微太长了
所以,AI 生成 alt text 虽然令人印象深刻,但一如既往,它只是起点。人类输入往往仍然必要:要么直接改掉生成文本,要么要求 LLM 补充新的信息。
图 6.23——这款免费移动应用可以详细描述任何照片——但并不是瞬时完成
盲人用户已经能使用像 Be My Eyes 这样的免费工具:它是一款手机 App,可以描述手机摄像头看到的任何东西;它也支持像 Meta AI 那样的智能眼镜。自动生成 alt text 已经是最低标准;如果你要提供 alt text,你应该能做到更好。
总结(Summary)
AI 生成文本确实有潜力让许多任务更轻松;在输出要求正式且规范明确的项目里,它甚至能非常出彩。但在创意领域,完全拥抱它会带来真实风险。
如果你的创意写作目标是从人群中脱颖而出,你就不能用和所有人一样的工具与套路;如果你想作为创作者持续成长,也不能把创意任务简单外包出去。
话虽如此,接受帮助并没有错,AI 的确可以为你的作品提供反馈,也能提供点子。向 LLM 要灵感几乎没什么坏处,因为你始终能决定怎么用它的建议。想在职业上“伸展能力边界”的创作者,向 LLM 求助不失为一种选择——而且你对某个主题越熟,你问得越好,结果也往往越有用。
如果可以,把文本生成当作“帮助你”的工具,而不是“替代你”的工具。
带着这个基本原则,我们接下来进入也许对创意从业者而言最具争议的 AI 应用:生成图像。