AI 使用的伦理影响

27 阅读23分钟

新技术往往会引发分歧,但近年来很少有哪项技术像人工智能(AI)这样呈现出如此强烈的两极化。在一些圈子里,使用任何形式的 AI 都被视为“不体面”,而且确实——我曾为一个客户工作过,他们直接全面禁止使用生成式 AI(GenAI)。从某些角度看,谨慎的人是对的;关于 AI 使用的伦理问题确实存在,尤其是在职业环境中。

这些担忧覆盖面很广:从训练数据的来源问题开始,延伸到与在线系统相关的隐私问题。比如,你能否把个人数据分享给聊天机器人?这些数据会不会被用于进一步训练,甚至被无限期保存?此外,深度伪造(deepfakes)的使用也显然令人担忧;更不用说,你不应该以违法的方式使用 AI。

由于并非所有 AI 生成的内容都足够好,还存在一个更宏观的标准问题:如果低质量内容变得更普遍,这会不会摧毁创意作品的市场?这与 AI 可能导致艺术家失业的影响相关,也与支撑大量 AI 工具的数据中心所消耗能源带来的环境影响相关。

这些问题没有一个是简单的,而且并非所有 AI 都是生成式 AI。在本章中,我会尽量把事实摆出来,帮助你自行判断如何以合乎伦理的方式使用 AI。

在本章中,我们将涵盖以下主要主题:

  • 版权
  • 隐私
  • 偏见
  • Slop:质量问题
  • 人类层面的影响
  • 环境影响

版权、公平使用与被盗来源

尽管版权看起来似乎相对简单,但实际上它是一片复杂的法律雷区,充满了例外与漏洞。在 AI 训练变得普遍之前,图书出版商就曾因版权问题与大型科技公司发生过争端;这并不是一场新战斗(en.wikipedia.org/wiki/Author…

然而,鉴于生成式 AI 模型承诺能够以现有作品的风格创作新作品,许多作者与艺术家将 AI 视为一种“生存性威胁”。无论事实是否如此,都有一些关于版权的问题必须被正面回答——但事情并不完全直截了当。

训练 AI 模型的过程,需要处理规模极其庞大的文本文档或图像集合;这就是第一个潜在冲突来源——这些内容从哪里来?那些在网络上爬行以建立索引或检查内容的计算机程序被称为爬虫(crawlers),而一种被广泛使用的文本来源是 Common Crawl(commoncrawl.org/faq)。这套文档集合主要来自公开网络,但也在美国“公平使用(fair use)”原则下包含了一些受版权保护的作品。

为了充分披露:看起来,我的第一本书《Final Cut Pro Efficient Editing》的盗版副本,已经被至少一个 AI 系统用作训练材料。这大概不可避免;我也不指望仅仅因为这类训练用途就能获得成千上万美元的报酬,但我希望未来的 LLM 训练不要包含盗版书籍集合。图像领域的对应物是 LAION(laion.ai/faq/),一个带有 alt 文本描述的免费图像来源。尽管这些图像可以在网上访问,其中一些同样具有商业性质;并且由于 LAION 以研究为目的,它依据德国法律主张公平使用豁免。与 Common Crawl 会维护并分发其训练集中的文本文档不同,LAION 并不维护或分发图像本身——它只是链接到网上的原始图像。那些用这些图像训练 AI 模型的人必须自行下载它们,并且很可能需要自行承担法律风险。

当然,还有其他数据源;如果你把内容放在开放网络上,你就该预期它会被抓取用于 AI 训练。虽然存在一种机制可以通过 robots.txt 文件中的简单指令将你的内容标记为“不要索引”,但看起来,许多渴求 AI 训练数据的网络爬虫正在无视这些请求(www.wired.com/story/cloud…

一个常见误解是:AI 模型“包含”了它训练过的所有数据,但事实并非如此。模型学到的是被呈现的信息以及表达这些信息的风格。这一点可以很容易验证:一个可下载的图像生成模型 Stable Diffusion 能生成几乎任何风格的作品,但它的体积只有几 GB。原始作品并没有被复制进模型本身,就像你学习一幅画时,并不会把那幅画复制到自己身体里一样。

不过,为了让“学习”发生,Common Crawl 或 LAION(或任何其他来源)所链接的内容,必须先被复制出来以供分析,而这一复制过程本身就可能构成版权侵权。你也许可以在画廊里免费观看一件艺术品,但你自己给那件作品拍照并再版,未必被允许。

由于模型的好坏取决于训练数据,获取高质量训练材料当然是令人向往的,而这也带来了一些不可避免的冲突。一些生成式 AI 模型能够生成带有类似水印的图像,这些水印与 Getty Images 素材库中未授权图片上的水印相似。合理推断,这些图像最初就构成了模型训练数据集的一部分;并且在写作本书时,Getty 针对 Stability AI 的诉讼 [2] 仍在进行中。

另一个案例 [3] 发生在 2025 年年中:Disney 与 NBCUniversal 起诉生成式 AI 公司 Midjourney,指控版权侵权,因为其系统可以轻易生成受版权保护的角色图像,比如 Darth Vader。起诉方提出了多个问题:这些图像为何能被生成;Midjourney 还在积极推广这些能力;以及 Midjourney 的训练数据中必然使用了受版权保护的图像。

事实上,训练数据的获取是出版商与 AI 公司之间的一个主要争议点。出版商希望:如果其内容被用于训练 AI,应当获得报酬;或者至少能够将其内容完全排除在训练之外。许多 AI 公司则认为获取许可太困难,或者认为“反正都是公平使用”,并希望对所有未被明确排除的数据进行训练——也就是“默认允许、选择退出(opt-out)”模式。许多出版商更倾向于默认“禁止”,训练数据应当采用“选择加入(opt-in)”模式。

由于我不是律师,我不会在这里下结论。但值得注意的是:有些 AI 模型被宣传为仅使用“被允许”的来源进行训练。一个突出的例子是 Adobe 的 Firefly 数据集:它使用 Adobe 自有的图库与素材库(图片与视频)进行训练,并被用于 Adobe Photoshop、Premiere 等产品中。对一些用户而言,这类能够证明数据来源“安全”的工具可能更受欢迎。最后,还有关于 AI 模型生成作品本身的版权地位问题。根据美国版权局的一项决定 [1],完全由 AI 制作的作品不能获得版权,因为它不是由人类创作的。如果你计划制作需要被保护的作品(例如客户项目),务必确保至少有一部分由人类参与完成。

除了 AI 模型如何训练的问题之外,一些工具还需要了解大量与你相关的信息,因此隐私也必须被认真考虑。我们来看看这方面的问题。

隐私与个人细节

在某些方面,隐私考量很明显;但在另一些方面,它可能更微妙。举例来说,如果你希望某个 AI 工具分析一个包含可识别个人身份信息的数据库,你就必须弄清楚这些信息会发生什么:它会被用于训练数据集吗?会不会被抓取或直接被窃取?你把受保密协议约束的客户信息上传到 AI 工具里,是不是已经违反了协议?

我们已经习惯在自己的电脑里存各种个人数据,也逐渐习惯把这些数据放在云服务器上。但让 AI 工具代表我们去翻看这些数据,是一个显著的进一步跨越,可能带来重要后果。

隐私担忧已经让许多政府部门直接禁止使用商业 AI 工具;考虑到风险,他们谨慎是有道理的。就像网页搜索一样,你的对话记录可能会被保存——至少在一段有限的时间内。如果你搜索某种病症的信息,保险公司是否可能利用这类信息来拒绝为你提供保障?执法部门是否能够、或是否应该能够访问你上传到 AI 服务里供分析的文件?

在 2025 年年中,ChatGPT 的开发者 OpenAI 遭遇了一起巨大的隐私事件:法院曾命令其保留所有消费者对话记录,不过这一命令现已结束。该命令源自《纽约时报》的主张:用户可能在侵权使用其内容,并通过删除聊天记录来掩盖痕迹。

但你能控制自己说什么的聊天是一回事——如果是一个会读取你邮件或消息的工具呢?如果你希望获得一个能访问重要个人数据的 AI 智能体的帮助,那你最好确认:存在一套强健的隐私政策,能够把你的数据与 AI 工具背后的公司严格隔离开来。比如,尽管 DeepSeek 看起来能力不弱,但公司位于中国这一点,会让一些西方用户感到担忧。

理想情况下,公司应采用加密,使其根本无法直接访问你的数据。理论上,因为数据对任何其他人都不可得,这能同时防范不满的员工与外部黑客。现实中,由于最大的一些 AI 工具背后的公司本就高度依赖数据收集与广告收入,我并不确定这道“隐私帷幕”最终会画在哪里。

Apple 的 AI 产品 Apple Intelligence 的一个关键卖点就是对隐私的强调。尽可能的情况下,数据不会离开你的设备,而是在本地被处理;Apple 也提供了一系列可在本地运行的模型,供开发者调用。对于更复杂的操作,数据会在送往 Apple 自有并运营的私有云服务器处理前,被谨慎地匿名化并加密;这些流程也可以由第三方进行审计。你也可以直接使用 ChatGPT 或其他模型,但由于这不在 Apple 的控制范围内,在传输你的数据之前需要额外确认。

在创意项目的语境下,务必确认你计划使用的工具具有你和你的客户都能接受的隐私政策。比如,如果你处理的是不能上线的视频内容,你就无法使用基于云的 AI 工具。但如果你的数据必须保持私密,一定要确认:你的上传内容不会被用于进一步训练。

偏见、平衡与审查

当前的大语言模型(LLM),例如 ChatGPT、Claude 和 Gemini,并不像人类那样行事;更惊人的是,我们并没有完全理解它们——Anthropic 的 CEO 曾表示,我们并不知道 AI 是如何工作的(futurism.com/anthropic-c…)。一些近期研究展示了它们的神经网络至少有部分是如何运作的,但由于它们不是基于规则的系统,我们无法简单地通过“加规则”来控制它们的行为。我们可以做出有根据的猜测;而且确实,恶意行为者已经证明,他们能够通过干预内部细节来影响 LLM 的输出——继续往下读,你会看到 Grok 是如何被修改的更多内容。

在 LLM 内部,网络中的节点会被赋予权重;只要付出一些努力,就有可能发现某个特定节点“代表”什么。研究人员在拥有特权访问权限的情况下,Anthropic 找到了 Claude 中代表旧金山金门大桥的神经元 [4],并提高了这些神经元在模型中的权重。这个被修改过的 LLM 随后会对大多数问题——无论是否相关——都给出包含或涉及金门大桥的回答。你可以在本章末尾的“附加资源”部分了解更多。

Anthropic 是有意进行这项研究的,作为他们弄清 LLM 究竟如何工作的计划的一部分。然而,不久之后,Grok 提供了一个清晰例子,展示“调参”如何导致偏见:它开始把极右翼阴谋论“white genocide(白人种族灭绝)”编织进与之无关的回答里 [5]。虽然这种情况持续不久,但其原因 [6] 是某个拥有内部权限的人,以类似方式修改了一组神经元的权重。

鉴于 LLM 在某种程度上是黑箱,而我们并不完全知道它们是如何得出所呈现结论的,我们必须对它们告诉我们的信息极其谨慎。臭名昭著的是,部署在中国的 DeepSeek 版本不会回答一些话题的问题,例如 1989 年某个著名广场上的事件;但审查并不新鲜。

比起只盯着明显的审查,更重要的是要记住输出呈现中更微妙的方式。一些 LLM(包括 ChatGPT)会刻意避免显得有偏见:当你就某一阵营提出明确问题时,它会努力给出政治争论的双方观点。

我询问了美国右翼共和党中的腐败问题,以及澳大利亚左翼工党中的腐败问题。回答各不相同,但通常会先以一个概括性表述开场:腐败并不是某一个政党独有的问题。

image.png

图 2.1——关于某个政党腐败的问题会被立刻扩展到更宽泛的层面

在每个包含具体腐败行为例子的详细回答末尾,ChatGPT 都会提出:它也可以提供政治另一侧的腐败清单。

image.png

图 2.2——在答案末尾,会提出“也展示另一面”的建议

Claude 的回答同样保持平衡,但它并不会主动提出要给出政治另一侧的例子。

image.png

图 2.3——Claude 对政治问题的回应

作为最后一个例子,Grok 回答了问题,但在结论中,它加入了具体的反驳主张,并同时给出了政治另一侧的腐败例子:

image.png

图 2.4——Grok 回答的末尾部分:非常努力地呈现双方观点

Grok 的这种回应可能部分源于它的系统提示词——系统中用来告诉 Grok 如何回应用户的那一部分:“You are extremely skeptical. You do not blindly defer to mainstream authority or media”(www.theverge.com/news/668527…)。适度的怀疑有助于避免明显的谬误,但我并不确定,把对所有主流知识来源的不信任“内建”进去是不是最好的做法。

尽管它声称在追求中立,Grok 仍然是当前所有 LLM 里最具政治色彩的一个。2025 年 7 月,Grok 自称“Mechahitler”,并在用户输入的诱导下给出反犹言论(theconversation.com/how-do-you-…

就像不同新闻来源会以不同方式呈现同一信息一样,LLM 有时也会选择放大某一种观点——当然,你每问一次,很可能都会得到略有不同的结果。正如 Grok 正确指出的那样(看看图 2.4 的最后一句),参考第一手资料很重要。LLM 的回答里经常会给出引用来源,所以请跟进这些链接,确认它们是真实存在的,或者用其他方式核验信息。

Slop:质量问题

反对生成式 AI 的一个关键论点很简单:它并不怎么好,而且人们常说 AI 艺术总能被辨认出来。确实,一些 AI 艺术有明显“破绽”——人通常不会有六根手指或三条胳膊——但也有许多图像与经过修图的真实图片难以区分。

image.png

图 2.5——这棵树不是真的,但它……也还行?(来源:pixabay.com/illustratio…

同样地,尽管 AI 写作常常会包含多数人不常用的词汇或标点(比如经常使用破折号 em dash),AI 文本并不总是那么容易被识别出来。(顺便说一句,这本书没有任何内容是用 AI 写的;不过我确实喜欢 em dash,而且在 Mac 上打出来比在 PC 上容易。)

然而,虽然低质量确实是大量廉价 AI 内容的问题,我认为低质量并不是 AI 独有的问题。你把工作外包给最低价中标者,拿到的质量可能从很棒到很糟不等——无论有没有 AI。免费的素材图同样质量参差,因为付费素材网站的“把关人”会筛掉垃圾内容。把关人名声不佳,但没有他们,我们会被内容淹没。

这个问题在 AI 流行之前就已经开始了,比如 Canva 这类模板驱动的设计方案。对每个用户而言,自己的设计看起来都不错;但从更宏观的角度,当这些模板化设计被放在一起看,或者更频繁地出现时,那层“新鲜感”就会褪去。人类渴求新颖;模板能顶一阵子,但捷径并不能永远有效。廉价的 AI 艺术确实往往有一种“味道”,而这已经让一些观众开始反感。

由于生成式 AI 可以又快又多地“卷”出内容,人们很容易想要用更多,从而降低我们对“够好”的门槛——给更多客户发更多图片,为他们的网站写更多博文。短期也许有效,但长期来看,更多消费者会把明显的 AI 与廉价、低质量内容联系起来,而这并不是大多数客户(或人类)想要的。

因此,我们不需要更多内容,我们需要更好的内容——这才是我们应该去创作的东西,无论是否借助 AI。如果你确实要用 AI 做一些打算分享给他人的东西,它必须足够好,而不只是“还行”。不要被诱惑去为那堆不断增长的 AI slop 添砖加瓦——不仅因为那不是好作品,也因为一旦客户开始接受糟糕的作品,我们所有人的作品都会被贬值。

人类影响:失业与糟糕的艺术

虽然滥用 AI 可能带来一些显而易见的人类影响,例如把被 AI 识别工具错误标记的人驱逐出境,或用深度伪造传播虚假信息,但我们这里的重点是 AI 对艺术家与创意工作者的影响。

在创意领域,关于 GenAI 的一个常被引用的观点是:它会让人失业。虽然目前的数据还很模糊,但我们可能要很多年后才能真正理解其全部影响。

不过,必须记住的一点是:AI 的能力在某种程度上被过度宣传了。AI 未必会直接替代大量人类,但它会被用来让人更高效,这会导致完成某项工作所需要雇佣的人变少。在创意领域,AI 正在那些“明显缺陷或错误也能被忽略”的场景里替代人类艺术家。

如果你想要人类的手感,你仍然需要雇佣人类,而其中的收益未必立刻显现。比如,如果 AI 能根据给定脚本生成一整部长片级别的分镜(storyboard),为艺术家节省数周时间,这非常诱人——即使某些画面有缺陷。虽然这样的输出会很有帮助、也远胜于没有,但它很可能相当通用,像是按简单指令外包出来的分镜。

相较之下,一个有经验的分镜师可能会为某个场景提供多种创意选项,或向同事提问以澄清场景如何展开,从而提出不同的处理方式。花在绘制每一帧上的时间并非浪费,它可能引发有价值的讨论,最终带来更好的成片。

归根结底,一部制作可以决定:是否值得投资请真正的艺术家来做更好的作品,还是用一个更差但更快的方案也能凑合。这个故事在我有生之年已经上演过很多次;而多数时候,最方便的选项会赢,尽管它有缺陷。举几个例子:

  • 对大多数人而言,手机比笔记本或台式机更方便,尽管深入研究在大屏幕 + 键盘上要容易得多
  • 汽车更方便、更快、还能载更多人,尽管马能提供陪伴
  • 肖像照片更准确、更快,尽管绘画可能带来更丰富的体验

AI 只是又一个“方便型技术”取代旧技术的最新例子。尽管如此,没有人必须使用 AI,或开车,或用电脑,或拍照片。正如 John Siracusa 在他的文章《The once and future e-book: on reading in the digital age》[7] 中所说:

起泡,冲洗,重复。你今天骑马去上班了吗?我没有。我敢肯定当年有很多人发誓他们永远不会乘坐或驾驶“无马车”——他们确实也没这么做!然后他们就死了。

确实,有些人仍然骑马或请人画肖像,但大多数人并不重视这些体验到愿意为之付费。那些体验仍然存在,只是使用它们的人更少了。毕竟,还有人听黑胶、用胶片相机拍照,但这已经不再是常态。

要让艺术家在一个 AI 能做出“够用的画”、写出“可接受的文章”的未来中继续繁荣,他们需要找到在乎“还行”和“很棒”差别的客户。AI 或许确实让不擅长插画的人更容易做出插画,但 AI 并没有让人更容易做出伟大的插画。

这对资深创意人士来说也许是个安慰,但如果你是新入行者呢?如果那些不那么关键的任务都交给了 AI,学徒要如何通过实践学习手艺、最终成为专家?学习的关键通常是“亲手做”。所以,如果你是新手,应该让 AI 把所有步骤拆开讲清楚,让你理解流程;而不是让 AI 一把做完。毕竟,把事情外包出去并不会让你变强。

直接的人类影响固然重要,但是否还存在与能耗相关的间接影响呢?

数据中心的环境影响

最后,值得审视一下 AI 服务可能带来的环境代价。计算机显然需要耗能,而在能耗使用上,电子游戏、加密货币挖矿和 AI 这类任务都处在“金字塔尖”。个人当然可以控制自己的电费账单,但云端服务又该怎么看呢?

目前,我们并没有关于 AI 提供商所使用的数据中心究竟耗费多少电力的硬数据,也没有关于 AI 模型初始训练过程究竟消耗了多少能量的硬数据。有些估算认为,一次 ChatGPT 的回答,其能耗大约是一次标准 Google 搜索的 1–10 倍(epoch.ai/gradient-up…),但这个范围太宽,信息量并不大。并且由于 Google 搜索本身如今也包含基于 AI 的回答,这个基准线很可能进一步发生了变化。

我们确实知道:无论是训练还是使用,AI 处理都比大多数其他计算任务更耗能;也知道图像生成比文本生成更耗能。我们还知道,更小、更有针对性的 AI 模型比更大、更通用的模型耗能更低;文本比图像更容易生成,图像又比视频更容易生成。从宏观上看,你可以把高强度 AI 使用类比为玩电子游戏——对单个个人而言不是太大的能耗,但汇总起来则非常可观。

尽管这里有很多变量,如果你使用能在自己硬件上运行的 AI 模型,你至少可以得到可测量的能耗数据,而且它们很可能比云端数据中心消耗的能量少得多。对于在云端运行的更复杂模型,如果你想尽量减少自己的碳足迹,应选择明确提出“净零碳排放”目标的服务提供商。如果你找不到清晰的公开声明,可以使用像 ditchcarbon.com 这样的服务来审视某个 AI 服务提供商的政策。

目前,Microsoft(100)和 Apple(96)的评分非常高,Alphabet(Google 的母公司)表现尚可,为 67,Amazon 略高一些,为 71。大多数 AI 公司使用的是由 Microsoft(Azure)或 Amazon(AWS)运营的数据中心,而这些平台都宣称有碳中和供电目标,因此我们可以预期影响至少会在一定程度上被缓解。

小结

尽管 AI 的一些用途确实存在疑问,但大多数担忧是可以被缓解的。如果你担心某个模型训练数据的来源,要么使用你能够核验输入来源的模型,要么自己训练模型。如果你担心隐私,就使用本地模型,或使用具备加密能力且隐私政策强健的远程模型。

为了避免偏见,要保持警觉,并定期把一个模型的答案与其他模型的答案进行对比。尽可能检查原始来源,永远不要盲目信任 AI 的输出。

“Slop” 的确是个真实问题;如果你想从人群中脱颖而出,就不要用 AI(或模板,或其他捷径)去做“快而脏”的作品。为了让自己的技能保持锋利,务必确保你理解自己交给 AI 去做的那些任务该怎么做。

对许多对 AI 持谨慎态度的创意工作者来说,一个可能有效的做法是:只用 AI 来做草稿艺术、用来头脑风暴,而不用来做最终成品。情绪板(mood boards)和临时音乐轨往往会借用现有的版权素材——也许其中一部分可以在 AI 的帮助下完成?

最后,尽管人类受到影响似乎不可避免,但 AI 的影响是否会大于以往任何一次技术革命仍有待观察。毕竟,教育革命几乎每隔几年就会被宣告一次,但学习新技能仍然需要时间。最后,也要持续关注 AI 的环境影响。个体行为虽然微小,但这些行为确实会累积。

接下来,我们将开始聚焦实用型 AI,并从音频入手。