文本领域的实用型 AI

24 阅读37分钟

文字是创意制作领域中许多人类任务的骨架:我们写脚本、收集客户反馈、头脑风暴新点子、做总结、做编辑。文字同样也是许多面向计算机的创意应用任务的关键——比如用于视频字幕的 SRT 文件,以及用来描述剪辑时间线的 XML 文件。

不过,并不是所有 AI 能帮上的文本任务都应当归类为 Utility AI。若文本是从一个想法出发“被创作出来”的,那是 Generative AI(生成式 AI),会在下一章讲到。而如果你用 AI 去做大量驱动工作流的重度处理任务,那是 Automation AI(自动化 AI),我们会在本书后续部分讨论。Utility AI 的任务更偏向于提供建议、给予帮助、或做一些小修小补,而不是替你把工作做完。

由于像 ChatGPT 这样的 LLM 本质上围绕文本构建,它们非常适合许多文本处理任务。那些繁琐、耗时、缺乏创造性的文字工作,很可能都能被某种 AI 服务帮助到,而且你会有很多选择。事实上,可选项多到数不过来,而且变化速度极快,试图把它们全部覆盖反而是不明智的。

因此,这里我不把重点放在具体应用上,而是聚焦在“任务”本身。基于这一点,如果某些工具在语境上有独特优势——例如能在本地设备运行,或直接集成在你最可能用到的工具里——我也仍然愿意推荐它们。

对于大多数通用任务——也就是“输入一个文本文件、输出一段文本”的任务——你完全可以试用任何你喜欢的 LLM。请记住,本地运行的 LLM 在隐私方面风险更低,但它们通常没那么强大。

本章将覆盖的主要任务如下:

  • 文档总结(Summarizing documents)
  • 语法纠错(Grammar correction)
  • 检查与核验(Checking and verifying)
  • 文本重排版(Reformatting text)

总结(Summarizing)

如果又长又无聊的文档能变短,那不是很棒吗?虽然并非所有创意制作工作都会涉及大篇幅文字文档,但你迟早会遇到一堵你并不需要逐字逐句阅读的“文字墙”,这正是 AI 能派上用场的地方。尽管我把它归为 Utility AI,但它多少带有生成性质——只不过它高度依赖你提供的输入内容。

如果一份文档很长,而你需要快速掌握要点,那么用一个快速摘要来“顶一下”并没有问题。不过,如果客户给你发了非常详细的说明,明确写着如何满足他们的 brief,那么你的工作不仅是把整份文档读完,还要读懂字里行间,从中找出最好的实现方式。别偷懒!花时间把全文读完,你会做得更好。

这听上去也许很显然,但最近一家非常知名公司的广告里,就出现了他们的 AI 助手在替创意人员总结客户 brief,因为那位创意人员懒得读。AI 绝不该因为你懒得把工作做好而被使用,但这并不意味着它完全没有用。

如今的 AI 摘要早已不止用于长文档,它们已经集成进邮箱应用和操作系统。Apple Intelligence(macOS 免费提供)可以在系统自带的 Mail 应用里总结通知和邮件,而 Microsoft 的 Copilot 则在 Outlook 里处理摘要。甚至你也可以使用带 AI 功能的浏览器(如 Arc、Dia 或 Comet),它们内置了网页总结之类的功能。

image.png

Figure 5.1 – Holding the Shift key while hovering over a link produces an AI summary of the linked page in the Arc browser

搜索引擎也提供摘要:Google 的 AI 工具几乎会总结每一次 Google 搜索结果,导致出版方网站的访问量显著下降。搜索者更可能停留在 Google,而不是点击链接去看原始信息来源(arstechnica.com/ai/2025/07/…)。

image.png

Figure 5.2 – Google’s own summary of its AI summarization feature

遗憾的是,这些摘要常常包含不准确的信息——最著名的例子之一,是它曾建议在披萨配料里加胶水(www.techradar.com/computing/a…)。更糟的是,在做产品调研时,这些摘要可能会非常误导:它会推荐根本不存在的产品,并且完全不提某些产品的问题(housefresh.com/beware-of-t…)。大多数人不会点进去核验摘要是否属实,但你应该会。

就像 AI 经常呈现的那样,“大体正确”依然可能有用——前提是你能够回到原文去核验关键点。一封邮件的摘要如果能帮你在大海捞针时迅速定位重点,那就很有价值;而如果摘要明显不准确,你也可以直接忽略。在网页上,最好总是点进去查看被引用的原始来源。

回到“长文档摘要”这个场景,并不是所有 LLM 在这件事上都同样擅长。在一次近期测试中,用技术文章做对比时,Gemini 表现最佳。Dan Russell(groups.google.com/g/searchres…)用一个简单提示对比了Gemini 2.5 Pro、ChatGPT 4o、Claude 3.7 Sonnet、Grok、Perplexity 和 NotebookLM:

I am a PhD computer scientist. Please summarize this paper for me.

由于大多数创意从业者不会处理技术论文,这个结果未必直接相关,但你可以用你自己的文件做一个类似实验,看看不同模型之间的差异到底有多大。

模型会持续变化和进化。另外请记住:每次你运行这类请求,拿到的结果都会略有不同。AI 并非完全可预测;如果某次输出不理想,往往值得再试一次。

给 LLM 写提示(Prompting an LLM)

提示词很重要。一个简单提示常常就够用,但有时你会通过更复杂的提示得到更好的结果:比如指定要多少条要点、限制最大字数、或要求按特定结构输出(例如 “Introduction, Key Points, Conclusion”)。这些策略会随着文档不同、以及你的偏好不同而变化;也有许多人很乐于分享他们关于高级 prompting 的建议——大胆试验就好。

有些人觉得,在每个提示里明确指定 LLM 的角色、任务和输出格式很有用。虽然未必总需要这么细,但如果某个提示没产生你想要的结果,那么这种“角色-任务-格式”(Role Task Format,RTF)的思路会把 LLM 往你的目标推近一些:

  • Role(角色) :相当于给 LLM 一个“岗位头衔”,它会定义分析时采用的思路和语气
  • Task(任务) :你要它做的工作;若你希望它改写/变换文本,这里能提供重要上下文
  • Format(格式) :你希望得到的输出形式

把这些组合到一个摘要任务里,你可能会得到类似这样的提示:

You are an analyst. Please generate a summary of the attached files that's no more than 400 words long. Format your output in Markdown with headings and use bold and italics to highlight key points.

提示越具体,你越可能从 AI 模型那里得到你想要的结果——但并不是所有人都认同“越具体越好”。作为一种你也许会觉得有用的策略示例,这里有一个 YouTube 视频介绍了“prompt optimizer prompt”(提示优化器提示词):

www.youtube.com/watch?v=1r5…

会议摘要(Meeting summaries)

在办公室场景里,澳大利亚政府的一次 Copilot 试点发现:更高级别的员工更可能使用摘要工具——这很合理。但几乎所有参加会议的人,都能从“可检索的会议逐字稿 + 会议摘要”中获益。

放到创意制作上,转录客户会议能确保你会后可以复盘关键点;而把讨论要点做成摘要,则能帮助你确认自己没有漏掉任何重要信息。“不完美”依然有用,转录-再总结(transcribe-then-summarize)的服务正在医疗和心理健康服务中快速变得常态化。经常与客户开会的创意从业者也应当跟进,因为没有人能靠记忆把每一次会议的每个关键点都完整记住。

为了让会议摘要发挥最大价值,请在会议结束后尽快阅读,并在关键点仍然清晰的时候检查:要点是否确实被正确提取?如果缺了什么,你自己补上;如果出现幻觉内容,把它删掉。它确实比没有好,但如果你不趁“新鲜”核对,就很难纠错。

书籍摘要(Book summaries)

那做研究呢?如果你希望从一本书里获得新洞见,你不可能从封底文案里得到,也不可能从 AI 摘要里得到——细节很重要。当然,世界上也没时间把所有书都读完。如果你只来得及读某个主题的一本书,但要在几本候选中做选择,摘要也许能帮你更好地决定哪本值得投入时间。

LLM 理论上应该能给出一本书的“元分析”:它讲什么、口碑如何。但不意外的是,这些摘要未必总准确。你对某个领域了解得越多,就越可能在该领域的结果里挑出毛病。

比如,我在 2020 年写过一本关于 Final Cut Pro 的书。它仍在印刷,并且定期更新,而我也很了解这个领域。问 ChatGPT:“Which are the best books to read about Final Cut Pro?” 时,它(令人欣慰地)会提到我的书,但它给出的首个“入门推荐”针对的是一个十多年前就不再销售的软件版本;而对 Apple Pro Training 系列的推荐也同样过时了好多年。

image.png

Figure 5.3 – Books about Final Cut Pro; yes, I’m biased, but there are clear flaws in this list

如果 AI 连在我熟悉的领域都无法给出好答案,那我凭什么信它在我不熟悉领域里的说法?任何其他主题的书单推荐,听起来都会像上面一样自信;但如果你没有足够的专业知识去验证其准确性,这些建议可能会离谱到不可思议。只要条件允许,就去问人——当面问,或阅读真实的人类评价——因为你不能完全信任 AI。

核验是关键(Verification is key)

对你无法访问原文的内容做摘要,会带来问题;相反,核验一封邮件摘要或一篇新闻稿就容易得多,因为你自己可以把全文读完。我们被新闻淹没,任何能帮我们处理信息洪流的工具都值得欢迎——只要它足够准确。

对我而言,Apple 的 Mail 和 Messages 摘要已经“好到足以有用”,所以我一直开着。但有一段时间,Apple 不会对新闻文章生成摘要,因为刚发布不久后,就出现过对新闻故事的摘要不准确的情况。

由于“曲解新闻来源”的声誉风险,远高于“曲解一封普通邮件”,Apple 在这方面一直很谨慎:它曾停用该功能,并在升级后再重新上线。考虑到不准确的风险,如果你的邮箱服务商提供摘要功能,试试看它是否对你有用。

如果你需要从长文档中提炼要点,任何 LLM 都应该能帮上忙,而且这些结果也应当容易被你核验。为了便利,如果你经常做这件事,可以考虑使用 AI 浏览器。和往常一样:所有细节都要自己确认;如果你做不到确认,就要保持警惕。看起来很好的结果,也可能并不准确。

语法纠错(Grammar correction)

良好的写作是良好沟通的关键,而这个领域已经挤满了由 AI 驱动的工具,帮助你避免错误。尽管我可能愿意相信自己算是个不错的写作者,但 macOS 以及常见文字处理应用内置的工具,仍然经常能发现一些我自己怎么练也没彻底改掉的错误。

语法检查器标出的某些错误很直观;但在另一些情况下,如果完全照着它们的建议改写,反而会把句子的风味与风格抹掉。若你想作为写作者脱颖而出,就需要保留自己的声音;有时,优先保留这种声音,比严格的技术正确性更重要。

不过,如果你对自己的写作还没有足够信心,暂时还做不到忽略 AI 建议,那就尽管采纳它们。这些建议通常值得你认真考虑——即使你最后决定不听。比如,我想在本段第一句里保留 “own” 这个词,尽管语法检查器会把它标成多余。

多数文字处理器多年来都内置了某种形式的语法检查器,混合使用启发式规则与机器学习功能。更现代的选择,比如知名的 Grammarly(www.grammarly.com/),在 AI 依赖上更重,给出的建议也更进一步。有时这些建议很有帮助;但另一些时候(至少对我来说)它们显得过于激进,像是试图移除任何稍微“怪一点”的表达。

image.png

Figure 5.4 – Grammarly’s Pro suggestion, which I chose to ignore

这类帮助对新手很有用,但如果不加思考地全盘接受所有建议,可能会导致文字变得平淡、过度同质化。在创意写作里,“古怪”有时反而是优点;并不是每份文档都需要对每一种读者都“友好可读”。另外,一个同样有点棘手的问题是上下文不足:因为 Grammarly 是叠在文字处理器之上,而不是“真正住在”文字处理器里。

公平地说,Grammarly 的广告目标大多是学生与办公室人群,他们的需求与创意从业者不同。如果你从事创意制作,这个世界需要更多独特的声音;而如果我把 Grammarly 给我的每条建议都接受了,它会改变我原本想表达的含义与语气。我建议你修正错误,但务必小心保留你文本的风味——抱歉,flavour——也就是你自己的味道。

集成式语法检查器(Integrated grammar checkers)

用 AI 有选择地提升写作的难点在于:如果你希望它深度集成到你常用的写作平台里,你就得容忍一个更“吵”的写作体验。常见错误(比如 you’re/your 或 its/it’s)当然应该修正,而 Word 的红色波浪线早就让最明显的错误变得很容易改。

Grammarly 会加上更多彩色下划线,你可能觉得分心;但代价换来的是更低的摩擦:你可以在原地右键修复问题,而不必把整份文档丢给某个 LLM 去处理。

Grammarly 的集成方式,会把它那套“花哨的下划线”放进 Word、Apple 的 Notes 应用,以及一切使用 Apple 标准文本服务的应用等。

注意:你可能会想阻止 Grammarly 出现在诸如 BBEdit 这类文本处理工具中,因为针对标准英文文本的建议,在处理代码、脚本或标记语言文件时并不总是相关。

在 Apple 平台上,另一个集成选项是 Apple Intelligence,它在 Apple 自家应用里可用,其中 Proofread 功能至少提供基础的语法检查。(Rewrite 功能会做更大幅度的改写,我们会在下一章讨论。)

image.png

Figure 5.5 – Apple Intelligence’s Proofread, as seen in Notes on an iPad

启用后,Proofread 会相当称职地标出它打算修复的问题,并且你可以逐条批准或忽略。基础拼写检查仍然像过去一样工作(红色波浪线万岁),而这种更深入的分析只会在你请求时出现。它不像 Grammarly 那样“常驻开启”,如果你觉得常驻过于侵入,这一点会更舒服。

Word 的拼写与语法检查多年来基本保持原样,但现在也有 AI 助手可用。Microsoft Copilot 已内置到 Word(以及其他 Office 应用)里,但要避免使用 Copilot 侧边栏,因为它其实并没有很好地融入宿主应用。那个侧边栏更像是一个独立应用在 Word 旁边跑,而不是一个集成特性。想要更好的集成方式:选中你想要反馈的文本,右键,选择 Copilot,然后选 Writing Suggestions。最好一次至少选中几段文字,因为这能给 Copilot 更多上下文来做反馈。在我看来,这里的建议也有点太靠近“生成式”了,我们会在下一章更仔细地看这类变化。

外置语法检查器(External grammar checkers)

当然,如果你只需要检查某一个句子的语法,Copilot 当然够用;事实上,只要你愿意复制粘贴,很多 LLM 都能胜任。

如果你打算用 LLM,请确认你的私密数据不会被用于训练:要么在设置里关掉相应选项,要么干脆用本地 LLM。

那么,你该走“集成式”的路吗?

我会建议:使用 AI 语法检查器的终极目标,应当是提升你自己写好文章的能力。如果你发现 Grammarly 能帮你做到这一点——很好。但如果你觉得它在文字处理器里太“碍眼”,那 Apple Intelligence 的 Proofread、Microsoft 的 Copilot,或者把整篇文档发给某个 LLM 让它提建议,都是不错的替代方案。下面是一个把段落发给 Claude 的例子:

image.png

Figure 5.6 – Claude’s feedback on this draft paragraph is mostly sound, but it doesn’t understand what I was doing with my em-dash

这种方式会明确告诉你哪些句子可以改进,把“创作”和“编辑”两个阶段清楚分开,而不是你一边写一边点“帮我修好”。同样的请求发给 ChatGPT 的效果如下:

image.png

Figure 5.7 – An earlier draft of the preceding paragraph, plus pointers on how to make it better

如果你想提供更多上下文,ChatGPT 可以吃下整份文档:它不仅会返回一份已经改好的版本,还会告诉你具体哪里错了。Claude 则会指出我大部分错误,但除非我额外要求,否则它不会直接给我一份“改好后的文件”。

把文档发给 LLM 也很适合扩展到更大的制作任务:比如你和同事一起写一份大材料,每人负责一节。LLM 可以从“元视角”指出不同部分在语气或风格上可能存在的不一致。我仍然建议最终的修订由你手工完成,但让 AI 先给出意见,会是一个很好的起步方式。

最后,你也可以考虑直接在“以 AI 为中心”的写作工具里写作,利用更高级的写作辅助功能。由于许多此类工具更偏向 GenAI,我们会在下一章里讨论它们。

AI 写作辅助有很多形态。你也许更喜欢把写作与编辑分成两次完成,那就应该试试不同的 LLM,看看更偏好哪个。如果你更喜欢高度集成的方式,就试试 Grammarly、Apple Intelligence,或某个专门的 AI 写作应用。

就我个人而言,虽然我欣赏这些工具带来的帮助,但我还没准备好相信任何 AI 能每次都产出完美结果,而且我也确实想知道我(或我的转录软件)到底哪里错了。这是一条贯穿始终的主线:AI 有用,但不完美。用一个 AI 服务去检查并改进另一个 AI 服务的输出,是降低错误的聪明办法。

这个思路——请 AI 给出“意见”——正好引出下一节。

Checking and verifying(核对与验证)

在创意工作过程中,你会接触到各种计划、观点和被陈述为“事实”的内容,而能够快速验证它们当然很有价值。由于许多验证类问题都可以用文字表达,你很容易就能问 AI:某个工作计划是否有漏洞、一篇文章目前是否遗漏了关键点、或者别人给你的电脑采购建议是否靠谱。

当然,我们一直反复提到的一点是:AI 的建议并不可靠,所以最好对比多个不同的 LLM,并跟进它们引用的链接。但如果你觉得某件事大概率是对的,只是想要一个快速的“第二意见”,那 LLM 就很合适——尤其是在身边没有合适的人可问的时候。

把文本交给 AI 模型很简单:复制粘贴、上传文档,或者使用像 Grammarly 这样的集成式方案。为了测试准确性,我给 LLM 提供过以下内容:

  • 我打算在本章写的一份早期关键点草稿(用要点列出),并请它给反馈
  • 我最近写的一篇关于立体(stereoscopic)视频的文章,请它核对准确性
  • 我收到的关于哪款 Mac 适合视频剪辑的建议,请它验证
  • 一个关于印刷文档标准出血(bleed)尺寸的问题
  • 一个关于 4K 视频制作工作流建议的问题

这些话题我自己都能给出不错的建议,因此也更容易判断它们的准确性。令人欣慰的是:这些问题上得到的高层建议都很靠谱。下面逐条说说我的观察:

关于本章应该覆盖哪些主题的建议是扎实的;但因为它不了解本书的结构语境(Utility、Generative 与 Automation AI),所以它给的建议并不总能“干净地”归入 Utility 类别。尽管如此,如果你计划写任何偏论文式的非虚构内容,LLM 仍然可以作为一个很好的“回声板”,帮你确认自己是否漏掉了明显要点。

image.png

图 5.8 —— ChatGPT 提了几点建议,但缺少更大的语境时,它的建议不一定总有用

Claude 能核对文章中提到的若干观点,并提供可验证的在线文章链接来支撑其中很多点。内容包括:两台相机的间距规则、专用硬件设备、以及文中提到的相机分辨率等。

image.png

图 5.9 —— Claude 对这篇文章给出正面反馈,并找到链接来支撑它

“做视频剪辑是不是一定需要 Max 或 Ultra 芯片的 Mac?”这类问题在社交媒体上经常有人回答;其中有细微差别,但大意是:简单剪辑不需要,但复杂任务会有帮助。AI 给出的回答是准确的。

image.png

图 5.10 —— Claude 对当前 Mac 各机型规格了解得足够好,能把这个问题答对

这个简单问题是从数字设计转向印刷的人可能会问到的;AI 的回答正确且覆盖面很全。

image.png

图 5.11 —— 印刷标准出血是多少?我会说“通常 3mm,按规范走”,但这个回答更全面

最后这个问题提出了一个糟糕的工作流:用旧硬盘,并在项目结束后删除源文件。Claude 和 ChatGPT 都给出了正确回应:先指出风险,然后提出更好的替代方案。并非每条建议都完美,但它是进一步调研的很好起点。

image.png

图 5.12 —— 这个相对复杂的问题超出了你对搜索引擎的期待;回答比论坛里常见的更系统、更全面,非常有帮助

不完美的建议

最后一点值得展开说说:工作流问题往往很棘手,不同评论者也常常对“正确做法”意见不一。我继续追问了更细的问题,包括:如果我在 Final Cut Pro 里处理 6K 多机位素材怎么办?以及:我必须把原始媒体存放在 Final Cut Pro 的资料库(library)里吗?ChatGPT 表现很好,而 Claude 则夹杂了一些可疑(但论坛里很常见)的说法。

image.png

图 5.13 —— Claude 对追问的回答并不完美;挖得越深,你越应该去问真人专家

例如,Claude 说:“Final Cut 的多机位剪辑在同步和剪辑过程中会创建额外的渲染文件”,但“优化多机位片段”和“后台渲染”这两项其实都是可选功能。它还说:“FCP 会创建优化媒体和代理文件,可能让存储需求翻倍”,这在技术上没错,但听起来像是两种格式都必须生成;而通常情况下,你只会用其中一种。

总之,解释大体正确,但瑕疵比 ChatGPT 的更多。ChatGPT 输出里唯一的主要错误,是它假定 6K 母版文件一定比 4K ProRes 422 HQ 更大——如果最初拍摄使用更高压缩率的编码,这个假设并不成立。

所以,用常见聊天机器人做验证到底值不值得?我会说:值得……大多数时候。只要你对主题了解得足够多,能把问题问得充分、准确,通常就没问题。由于平面设计、视频、音频领域的许多问题,早就被无数人在无数论坛里讨论过,LLM 往往能把这些“集体智慧”综合成正确答案。

因为 LLM 训练时吸收了大量论坛内容,只要你的问题保持在相对高层的抽象度,LLM 就很可能交付“互联网的共识经验”。但你需要的答案越具体,LLM 就越可能不够准确——尽管总体而言它们依然做得不错。

对于复杂文档的反馈、或一个新的工作流方案,LLM 看起来确实能帮上忙。真人也许能给出更具体的答案、更深的洞见或另一种路径,但我在这里得到的回答总体有用且基本准确。

一个相关想法——让 LLM 教你如何完成某个创意任务——也很有潜力。因为你可以提出复杂问题并持续追问更细的点,LLM 有时能扮演“私人家教”的角色。由于这和“让 AI 直接帮你做事”存在交叉,我们会在本书的 Automation AI with Digital Assistants and Agents(使用数字助理与智能体的自动化 AI)部分回到这个话题。

本书另一个与自动化章节有交叉的领域,是把文本从一种格式迁移到另一种格式。

Reformatting text(重排文本)

拿到一种格式的数据、却需要把它转换成另一种格式,这种情况很常见。若是成批量执行,那就属于自动化,我们会在后面的章节更细地讨论。但如果只是一次性的定制任务,AI 有时能帮你完成一些否则你可能要花无聊一小时去做的工作,或者你得去麻烦欠你人情的同事代劳。

一个基础且常见的设计类任务,是清理别人提供的文本或 Word 文档。你可能也有过惨痛经验:平面排版软件通常要求段落之间只用一个回车分隔,并且句号后只留一个空格。虽然 Adobe InDesign 里有预置的 GREP 查找模式可以修这些问题,甚至还有一个脚本(FindReplaceByList)能一次跑完,但这同样是 AI 非常擅长的任务——还能顺手修掉一些常见拼写错误。

作为测试,我把同一个“问题很多”的短 Word 文档交给了三个 LLM:

  • ChatGPT 做得不错,额外加分项是它会提出给我生成一个可下载的新 Word 文档。
  • Claude 改得更细,能把 “em dash” 正确改成 “em-dash”。但它不会回传一个 Word 文档。
  • Gemini 找到了大部分错误,但输出的文本完全没有段落分隔,也没有提供下载选项。

这还是比较基础的任务,那更复杂一点呢?我最近碰到一个很烦的活:在删掉一本书某章的一张图之后,要把整章后续图片编号重新排序。一个章节可能有很多图,每张图的图注里都有唯一编号;如果较前面的图(比如 Figure 4.5)被删掉,那么这之后的所有图片编号都得整体减一。原始 Word 文档(含图片)有 6.7MB。AI 能帮忙做这类枯燥活吗?

ChatGPT 正确理解了:后续编号都应该减一:

image.png

图 5.14 —— 图表清单一直延伸到 Figure 4.45

然后它做得很到位,直接给出一份修正后的 Word 文档供下载:

image.png

图 5.15 —— 这正是我希望数字助理能提供的结果

Claude 也理解了问题,并给出正确方案,但 Claude 无法输出 Word 文档;而在免费账号下,它也无法处理这个文件。
Gemini 则直接拒绝,说它不能编辑该文档:

image.png

图 5.16 —— 我对它拒绝处理 Word 文档感到意外,但在这里确实成了问题

处理学术内容时,一个常见任务是更改引用格式。因为这是结构相对规整、规则可预测的工作,你会期待它很顺畅——事实是,在主流大模型上确实很顺畅。下面这个提示词完全没难度:

Reformatting text
It’s relatively common to be given data in one format and need to transform it into another. When this is a task performed in bulk, it’s automation, and we’ll certainly look at that in more detail in a later chapter. But if it’s a one-off bespoke task, sometimes AI can help with a job you might otherwise spend a boring hour doing or perhaps outsource to a colleague who owes you a favor.
One basic, common design task is to clean up provided text or Word documents. As you may know from hard personal experience, graphic design apps expect you to separate paragraphs with only a single return and use only one space after a full stop. While there are preset GREP search patterns in Adobe InDesign to fix these issues, and even a script (FindReplaceByList) that runs them all at once, this is also the kind of task that AI excels at, fixing common typos along the way.
As a test, I gave the same short problematic Word document to three LLMs.
ChatGPT did well, getting extra points for offering to create a new Word doc for me to download.
Claude went further in its corrections, correctly changing “em dash” to “em-dash.” However, it didn’t offer a Word doc in return.
Gemini found most errors, but produced text without any paragraph breaks at all and didn’t offer a download option.
While this is a relatively basic task, what about something more complex? One task I’ve been faced with recently is having to renumber images in a book chapter after removing an image. A chapter might contain many images, each with a unique number in a caption, and if an early image, say Figure 4.5, were to be removed, all the images after that point must now be renumbered. The original Word document, including images, was 6.7MB. Can AI help with this boring job?
ChatGPT correctly figured out that subsequent numbers should be reduced by one:

Figure 5.14 – This list of figures extended to Figure 4.45
Then, it did a great job, offering a corrected Word document for download:

Figure 5.15 – This is exactly what I’d want a digital assistant to offer
Claude understood the problem and proposed the correct solution, but Claude can’t output a Word document, and with a free account, it couldn’t process the file either.
Gemini outright refused to help, saying it couldn’t edit the document:

Figure 5.16 – I was surprised at the refusal to work with a Word document, but it was an issue here
A common task when working with academic content is to change the format of citations. Because this is a fairly ordered, predictable job, you’d expect it to proceed smoothly, and with major LLMs, it does. This prompt was no trouble:
Please reformat these citations as Harvard.
Delaney, M. (2025, May 16). Google's AI Overviews are often so confidently wrong that I've lost all trust in them. TechRadar. https://www.techradar.com/computing/artificial-intelligence/googles-ai-overviews-are-often-so-confidently-wrong-that-ive-lost-all-trust-in-them
Digital Transformation Agency. (2025, February). Australian Government trial of Microsoft 365 Copilot. digital.gov.au. https://www.digital.gov.au/initiatives/copilot-trial/microsoft-365-copilot-evaluation-report-full/executive-summary-glossary
Navarro, G. (2025, July 7). Beware of the Google AI salesman and its cronies. HouseFresh. https://housefresh.com/beware-of-the-google-ai-salesman/
Here’s Gemini’s output, though ChatGPT’s output was identical:

Figure 5.17 – Gemini nailing a citation format conversion
However, a local LLM (Gemma 3) failed completely on this task, not transforming the text at all, though it was confident of its success, apologized when told of its failure, and then failed again. A local copy of DeepSeek did better, but failed to list the day and month of publication before the words “Available from”:

Figure 5.18 – A distilled, local DeepSeek not quite getting there
Note that generating these original APA-format citations from just their URLs is covered in the next chapter, and it did not proceed as smoothly as you might hope.
Here’s another one. What if you’ve been sent a somewhat casually-written list of names and positions, and you need to generate “lower thirds” title cards for these people in a video you’re producing? A short list won’t take too much time, but a longer task along these lines certainly can. Just ask an LLM to clean it up for you:
I've been sent a list of names and positions in an email, listed below. Can you please extract all the names and positions, expand any contractions to the full titles, put everything in the same order, and sort the list into alphabetical order based on surname?
You'll be interviewing MD John Smith, Dave Jones who's the CTO, Jenny Davis the Accounts Manager, Admin Assistant Dave Kelly, and Jessica Keyes, a trainee.
ChatGPT gets it just right:

Figure 5.19 – This list is only five names long, but sanitizing data would work with a longer list too
Gemini was nearly there, but it put the surnames first in its final output. Still useful, and if you ask to swap the first and last names, it gets all the way there.
Most local LLMs aren’t quite there
A local copy of DeepSeek can’t quite get the sorting right and doesn’t separate the title from the name, but it’s better than nothing. Unfortunately, asking the model to fix the error causes it to think for a full minute before making it worse:

Figure 5.20 – How did the model throw one of the names away?
Another local model from Google, gemma-3-12b, did a similarly mixed job. It was able to extract the full names and produce a list, but it got the order wrong, just like DeepSeek.

Figure 5.21 – Gemma’s output; useful, yet imperfect
Unfortunately, asking the model to re-sort the output didn’t quite work either; while the first two items were transposed, items 3 and 4 remained in the wrong order.
I also tried this query with the on-device AI model available in macOS 26 Tahoe, in the Shortcuts app. It failed in interesting ways, too:

Figure 5.22 – Contractions were expanded, but the order is wrong
Happily, the local model released by OpenAI (gpt-oss-20b) was able to perform this task flawlessly:

Figure 5.23 – The open version of ChatGPT seems to be more capable than other open models
It seems clear that although local models preserve privacy and are free, they’re mostly not as powerful or reliable as the cloud-based models—although OpenAI’s effort bucks the trend and is worth downloading. For more complex tasks, if a cloud model can do the job quickly and you’re able to upload the data online, that’s likely to be more efficient.
Although the local models couldn’t quite get the order right, if you can ask for the data to be in a tabular format, such as CSV, it’s easy to open and sort the data in a spreadsheet such as Excel or Numbers. Also, if you’re struggling to get good results, consider showing the model an example of what you’re looking for.

Figure 5.24 – Giving an AI an example of what you want from it is an easy way to improve its output
Export formats are key for production
There are many other text processing tasks that prove tedious for humans but that aren’t too much for an AI. For example, let’s say a client is changing the style of their documents. While they previously used just italics to indicate quotes, they’d now like to revert to a more standard pattern with “quote marks.” Can AI help? When asked, Claude thinks it can:

Figure 5.25 – Claude suggests a good solution and seems to be on the right track
While the offer is great, Claude can’t actually fix a Word document and provide it for download. Copying and pasting fixes manually isn’t that helpful, and while ChatGPT is capable, regularly uploading files isn’t really feasible on a free account.
In fact, if you ask the major LLMs what they can take as input and provide as output, only ChatGPT can actually read InDesign Markup Language (IDML) files that could be useful in a graphic design workflow. It’s limited to text-based rather than binary formats, and while it sometimes offers to create IDML files, which can be opened in Adobe InDesign, this seems to be a hallucination.
Here’s one example of a task I hoped would work:

Figure 5.26 – This tedious, non-trivial task is something that ChatGPT is happy to attempt, but you’ll quickly need a paid account for file manipulation
Right now, despite the confidence, this process fails. An IDML file was indeed created, and it did open in Adobe InDesign, but it looked identical to the file I uploaded. Curiously, when ChatGPT is asked explicitly what formats it can create, IDML files are not on the list—a shame, then, that it pretended the task was possible. While this is a dead end for now, it’s worth trying again in the future.
To be fair, IDML is a complex, compressed format, and many formats used in production are similarly tricky for a text-based system to work with. However, you may have more luck creating simpler formats, such as the text-based FCPXML files, which work with Final Cut Pro. Still, images, videos, and text files aren’t enough to get most jobs done, and not every file can be exported to a text-based format. Complex format support remains a serious roadblock between LLMs and creative production.
However, since input of IDML is possible, and any InDesign layout can be exported to IDML, you can ask ChatGPT to work with the text in your layouts. And since many editing applications can export to XML-based formats, you’ve got a fair chance of extracting any text from titles or clip names in a video timeline.
So far, ChatGPT has more export flexibility than the other leading LLMs, but as the field changes rapidly, I’d recommend running your own tests on your own files to see how they do. Start free, then move to paid (on a monthly basis to avoid lock-in) if you find it valuable. Do note that you’ll hit the limits of a free account fairly quickly with regular use, especially if you use analysis or upload large files.
Summary
If you’re working with text, you’re in luck—AI can provide an assistant that’s pretty good at boring text processing jobs.
Summaries can save a decent amount of time, as long as you can avoid becoming so addicted to summaries that you skip all the details. You may end up using integrated summaries in your email application more than anything else, however.
Grammar correction is a task that can be integrated or separated from the writing process, depending on your preferences, and while AI does enhance this process, it should be used with care.
Verification, especially when applied to common design workflows and questions, is a task for which AIs are well-suited. When you’re asking about facts near to your existing knowledge, you should be able to spot obvious issues but be careful not to stray too far from your expertise.
Text transformations can be a powerful time-saver in design and video workflows. Many text processing tasks are dull and too hard to automate by traditional means, so throw them to an AI. You just might have to start paying for the privilege.
With all these tasks, be sure to check the output carefully, and never simply copy and paste. These jobs might be on the less controversial side of AI, but if you present a hallucinated summary to a client as fact, the egg is on your face.
Next up, we’ll stay with text but shift gears to GenAI.

这是 Gemini 的输出(不过 ChatGPT 的输出也一模一样):

image.png

图 5.17 —— Gemini 把引文格式转换做得很稳

但本地 LLM(Gemma 3)在这个任务上彻底失败:它完全没有转换文本,却对自己的成功非常自信;在你指出失败后它会道歉,然后又失败一次。本地部署的 DeepSeek 做得更好一些,但在 “Available from” 前没有列出发布日期的日与月:

image.png

图 5.18 —— 蒸馏版本地 DeepSeek 还差一点点

注意:仅根据 URL 生成这些原始 APA 引用会在下一章讲到,而那一步并没有你期望得那么顺。

再来一个例子:如果你收到一份比较随意的“姓名 + 职位”列表,而你需要为视频制作这些人的下三分之一字幕条(lower thirds)标题卡怎么办?短列表不算费劲,但列表一长就会很磨人。你可以直接让 LLM 帮你清理:

I've been sent a list of names and positions in an email, listed below. Can you please extract all the names and positions, expand any contractions to the full titles, put everything in the same order, and sort the list into alphabetical order based on surname?
You'll be interviewing MD John Smith, Dave Jones who's the CTO, Jenny Davis the Accounts Manager, Admin Assistant Dave Kelly, and Jessica Keyes, a trainee.

ChatGPT 做得刚刚好:

image.png

图 5.19 —— 只有五个人名,但“数据清洗”同样适用于更长列表

Gemini 基本也对,但最后把姓放在了最前面。依然可用;你让它把名和姓对调一下,就能完全正确。

多数本地 LLM 还差一口气

本地 DeepSeek 不能把排序做对,也没把头衔和姓名分开,但至少“比没有强”。遗憾的是,让模型修正错误反而会让它思考很久,最后把结果弄得更糟:

image.png

图 5.20 —— 模型怎么还把一个名字直接弄丢了?

Google 的另一个本地模型 gemma-3-12b 表现也差不多:它能抽取完整姓名并生成列表,但排序错了,和 DeepSeek 一样:

image.png

图 5.21 —— Gemma 的输出:有用,但不完美

更糟的是,让它重新排序也没完全奏效:虽然前两项对调了,但第 3、4 项依旧顺序不对。
我还在 macOS 26 Tahoe 的 Shortcuts 里试了设备端模型,也以很“有趣”的方式失败:

image.png

图 5.22 —— 缩写倒是展开了,但顺序还是错的

好消息是:OpenAI 发布的本地模型(gpt-oss-20b)在这个任务上做得完全无误:

image.png

图 5.23 —— 开源版 ChatGPT 似乎比其他开源模型更可靠

很明显:本地模型更隐私、也免费,但总体上仍不如云端模型强大和稳定——不过 OpenAI 的这次尝试打破了部分规律,值得下载试试。

即使本地模型排序不对,如果你能让模型输出成表格格式(比如 CSV),你也可以把数据丢进 Excel 或 Numbers 里轻松排序。另外,如果你一直拿不到好结果,给模型一个你想要的输出示例也很有效:

image.png

图 5.24 —— 给 AI 一个你想要的示例,是提高输出质量的简单方法

生产工作里,“可导出格式”是关键

还有很多文本处理任务对人类很无聊,但对 AI 不算难。比如客户要改文档风格:以前用斜体表示引用,现在想改回更标准的“引号”。AI 能帮吗?问 Claude 的话,它觉得自己能:

image.png

图 5.25 —— Claude 提出一个好方案,看起来方向正确

但问题在于:Claude 实际上无法修 Word 文档并提供下载。手工复制粘贴修复并不省事;而 ChatGPT 虽然能做,但在免费账号下频繁上传文件也不现实。

事实上,如果你问主流 LLM “能输入/输出哪些格式”,只有 ChatGPT 声称能读取用于平面设计工作流的 InDesign Markup Language(IDML)文件。它只能处理文本类格式而不是二进制格式;而且虽然它有时会说自己能生成可在 InDesign 中打开的 IDML 文件,这看起来像是幻觉。

下面是一个我原本以为能跑通的任务:

image.png

图 5.26 —— 这种烦人又不简单的活,ChatGPT 很愿意试,但很快你就需要付费账号来做文件级操作

目前即使它很自信,这条路也失败了:它确实生成了 IDML,也能在 Adobe InDesign 打开,但效果和我上传的原文件完全一样。更离谱的是,当你明确问 ChatGPT “你能创建哪些格式”时,IDML 并不在列表里——可它之前又假装能做,这就尴尬了。虽然这条路目前走不通,但未来值得再试。

公平地说,IDML 是复杂的压缩格式,生产中很多格式对“纯文本系统”来说都同样棘手。不过,你也许更容易让模型生成较简单的文本格式,比如 Final Cut Pro 的 FCPXML。可惜现实里,图片、视频、文本文件并不足以完成多数工作,并不是每个文件都能导出为文本格式。复杂格式支持仍然是 LLM 进入创意生产的一个重大路障。

但既然 IDML 的“输入”是可行的,而且任何 InDesign 布局都能导出 IDML,你至少可以让 ChatGPT 帮你处理版面里的文本内容。再加上很多剪辑软件都能导出 XML 格式,因此你也有不错的机会去抽取视频时间线里标题或片段名称等文本。

目前,ChatGPT 在导出灵活性方面仍领先其他主流 LLM;但行业变化很快,我建议你用自己的文件自己做测试:先用免费版试水,再按月付费(避免被长期绑定)——如果你确实觉得有价值的话。要注意的是:只要你开始高频使用,尤其是用分析能力或上传大文件,免费额度很快就会碰顶。

Summary(小结)

如果你的工作核心是文本,那你算走运——AI 作为“无聊文本处理助手”确实挺能打。

  • 总结能省不少时间,但别沉迷到忽略细节。你可能最终最常用的是邮箱里的集成式摘要功能。
  • 语法纠错可以融入写作过程,也可以与写作分离,取决于你的偏好;AI 确实能提升效率,但要谨慎使用。
  • 核对验证,尤其是针对常见设计工作流与问题,AI 很适合;当问题离你的知识边界太远时要格外小心。
  • 文本转换在设计与视频工作流里是强力省时工具。很多任务又枯燥又难用传统方式自动化——丢给 AI 试试。但你可能得为此开始付费。

无论是哪类任务,都要仔细检查输出,别无脑复制粘贴。这些任务相对不那么“道德争议”,但如果你把一个幻觉出来的摘要当事实交付给客户,那丢脸的就是你。

Next up,我们会继续聚焦文本,但会切换到 GenAI。