当你信任 AI 的时候，实际上信任了什么？当你把 AI 的回复当成答案，准备照着做的时候，你有没有想过，AI 这个结果是

当你把 AI 的回复当成答案，准备照着做的时候，你有没有想过，AI 这个结果是怎么来的？

你信任的，究竟是什么？

当我们信任任何一个产品或者企业，实际上信任的都是它背后的人。AI 也不例外。

AI 本质上仍然是一个工业产品，只不过它是有史以来人类最复杂的工业产品。

它是经过数以十万、百万计的人、历经多个环节创造出来的。

虽然它看似有意识、有感情，但终究还是一种“机器”。

AI的风险.001.png 信任 AI，实际上你等于信任了它背后这些人——只是 AI 背后的人实在太多，环节太过复杂而又难以一一追溯，所以才让 AI 本身的风险具有更大的不确定性。

AI 的生产过程

我们当下所使用的 AI，基本上都由以下环节生成：

数据采集、过滤、标记、清洗
模型设计与实现；数据清洗与模型训练
测试、部署、维护、运营
统筹以上环节的总体设计与管理每一个环节，都有非常多的人参与；而每一个参与者，就都可能引入两种风险：能力风险与道德风险。

AI 的“起源”：数据采集、过滤、标记

AI 并不是直接博览群书，也不是把它连接到网上让它自己随便看。

它的数据来源都是经过选择和过滤的，被认为有效的数据才会进入训练集。

作为 AI 学习的基础，训练数据必须要打上标签。比如一张图片，必须要由人来定义“是猫还是狗”，AI 才可以把相应的概念和形象联系起来。

这部分工作涉及的人员规模，超乎人的想象：全球有数百万名数据标记员在为各个不同的大模型工作，其中很多都来自于不发达地区。

受限于条件，他们可能受教育程度不高，报酬低廉，生存条件恶劣，甚至连一些必要的劳动保障都没有。

对于他们来说，能力风险就在于，他们是否有能力准确地过滤和标记数据，尤其在待遇恶劣的情况下。

这并不是危言耸听。根据以往的信息，OpenAI 用来过滤 ChatGPT 有害内容的早期外包团队在肯尼亚，工人时薪不到2美元。他们每天要看数以千计的虐待、暴力、性侵文本。有工人因心理创伤离职，而他们的离职又导致新手上岗，标注质量断崖式下跌。

而道德风险，则在于他们是会在工作中尽力，还是因为条件不够好而胡乱对付，甚至故意出错；更进一步，他们可能会被对手公司收买，从而在工作中混入错误信息。

我们所信任的 AI，就起源于这些人的工作成果。

AI 的“灵魂”：模型算法设计与架构设计

这一环节的工作人员，包括AI科学家、算法工程师、系统架构师、产品经理、以及制定技术路线决策的高管。

他们要负责设计、实现并调整模型本身，把它们从构思中搬运到现实世界。

设计模型本身就是非常困难的，需要考虑到方方面面，包括各种极端和边缘情况。他们能够负担起这样的任务吗？他们的思考足够完整吗？

即使我们认为他们都是经过重重筛选、有足够的能力能够完成工作的，能力问题仍然存在。

每个参与者，都会有自己的想法。

比如考虑到 AI 要解决的最重要的问题，可能有的人最首先想到的是，我家的猫和狗应该吃什么；有的人想到的是我应该如何教育孩子；有的人想到的是我要如何保证身体健康；有的人想到的是如何为老年人提供帮助和关怀；还有的人想到的是怎么发展自己的职业生涯。

这些都不能算是错误，然而分歧就此产生。

在模型里，哪些特征会被更加重视，这反应出设计者的价值判断，直接影响 AI 本身的能力。

参与者们各自不同的倾向，本身就会给这个环节带来极大的不稳定性。这就是能力风险。

而在这一环节上，道德风险的影响更加深远。

是精心设计一个优秀的算法，还是随便从网上找一个差不多的糊弄过去？

是在每一个环节精益求精，还是在一些细节上粗枝大叶？

会不会因为有私心（比如想把算法留给自己的产品，或者收受贿赂），而在工作上使用较差的算法？这都是道德风险。

AI 的“成长”：数据清洗与模型训练

这一过程涉及的角色，包括训练工程师、机器学习运维工程师、以及管理训练过程的技术负责人。

数据已经有了，但仍然不能直接用于模型训练，必须要再次进行筛选，以保证在训练成本和效果上尽可能达到最佳平衡点。

那么，他们有能力分辨出有害的信息吗？对于信息是否有害的评估，一般并没有准确的参数，而是凭借个人或者小团体的判断，这个判断一定准确吗？

如果考虑到道德风险，他们中如果有人有恶意，就更可怕了。

研究表明，哪怕训练集中只有0.01%的虚假文本，也足以让模型输出的有害内容增加11.2%。仅用250篇精心设计的恶意文档，就能成功让一个130亿参数的大模型中毒，即使这些文档仅占训练数据的约0.00016%。

抛开数据本身的问题，训练过程中的倾向，同样会影响大模型的能力。

我们现在都知道，AI 是会有“幻觉”的，也就是在没有相关知识的情况下，会倾向于胡说八道。

经过证实，“幻觉”有一部分就源于，在训练过程与评估机制里，训练师无意识地鼓励模型在不确定时进行“猜题”，而非直接坦承无知。就像在学校里，老师会告诉我们，在考试的时候，即使不会的题目，也尽量不要空着，写一点是一点，总比空着要强。我们就是这样被训练出来的，AI 也有同样的问题。

训练工程师在设置优化目标时，如果过于追求“有用性”和“流畅性”而牺牲了“真实性”，就是在系统性地鼓励模型说谎。

这个“度”，仍然没有办法精确定义，更不要说有可能会有人故意使坏。

而随着 AI 进一步发展，所谓的“数据回音壁”的问题也开始凸显。

更学术的说法叫做模型自噬（Model Autophagy），指的是 AI 生成的信息充斥着网络，后续的 AI 训练会混入越来越多之前的 AI 生成的“二手”信息。这就像用复印机反复复印一张图，几次之后就会全是噪点和扭曲。

我们信任的AI，可能正在学习另一个AI瞎编的“知识”。

AI 的“生存”：测试、部署、维护、运营

这部分工作人员有测试工程师、DevOps 工程师、安全工程师、产品发布经理、以及做出上线决策的管理层。

测试足够全面吗？2023—2025年间，全球发生了30多起影响重大的企业级AI应用失败案例，横跨金融、医疗、交通、零售等多个关键行业，根本原因就包括“不充分的场景测试”和“人类监督不足”。许多 AI 系统在“正常”条件下表现完美，却在遇到未曾训练过的边缘场景时彻底失效。

AI的风险.002.png 部署是不是会引入人为操作的错误？3月31日，Anthropic 无意泄漏了 Claude Code 的完整源代码；3月底，Apple 自研的 AI Agent 在夜里错误地推送给了部分用户。这两件事刚的热度还没完全消退呢。

所使用的工具、模块、软件、组件等等，是否都足够安全可靠？不到一个月前（3月19日），开源的漏洞扫描工具 Trivy 被黑客获取到了 CI / CD 凭证，仅13分钟就上传了两个恶意版本，影响到的客户量在千万级别，很多用户的敏感信息被窃取，包括一些公司的所有财务信息。

这已经不是某个人的能力所能控制的范围；如果再考虑到道德风险，就越发不可控了。

同时，这一步还出现了新的道德风险点：用户数据安全风险。

大模型在这一阶段已经开始接触用户数据，而这些数据往往涉及隐私。

这些数据安全吗？像前面提到的黑客攻击，已经很可怕了。

但工作人员的道德是否足够可信？现有的管理体系能否有效管控他们接触隐私数据的权限？如果他们拥有权限，他们会不会泄露或贩卖用户隐私数据来牟利？

永远不要对人性丧失信心，但也永远不要高估人性。

AI 的一切：总体设计与管理

我们当前所有的这些流程拆分、架构设计、策略模型设计、算法、这些模块的划分与整合，从整体到细节是否是合理的？是否是达成 AI 的最佳组织形式或者分配形式？

这一点，即使是世界上最优秀的科学家，也不敢拍着胸脯说自己设计的一定是对的，一切都需要慢慢地摸索和试验。

在这个过程中，出现错误就是不可避免的，这就是架构和设计方面的的风险。

可以说，这是最大的风险，也是最不可避免的风险。比如我们现在都有所耳闻的“提示词注入攻击”（在提示词、文件或者图片中加入恶意指令让 AI 执行），其漏洞就来自于现在 AI 的设计方式，几乎不可能完全消除。

而这些风险同样来自于人（包括设计师、决策者等等）。

用户自身带来的风险

我们都爱听好话。

我们在理智上都推崇刘墉和纪晓岚，但真到了现实生活中，恐怕绝大多数人会喜欢的是和珅。

就这一点，就足以让用户在无意间引导 AI 在自己的倾向中寻找美化点，而不是提出建设性的批评和意见。

齿轮误差理论：风险的累积

在 AI 的链条上，错误往往会累加，最后成指数级暴涨。

从非洲数据标注员的一次走神，到硅谷工程师的一次偷懒，再到用户的一次盲从——错误在超长的链条上逐级放大。

这就是 AI 时代的“蝴蝶效应”。

AI的风险.003.png 那么对于我们最终用户来说，所能涉及到、所使用的 AI 模型本身是否可信，它的答案是否准确，就是一个风险很大的问题了。

现在，当各个环节都逐渐引入 AI 作为辅助工具甚至是决策节点的时候，风险就会进一步被放大。

这些风险听起来非常严重——然而 AI 还是很好用的，不是吗？

风险的解决方案

这些风险虽然可怕，但也有一些办法来控制。做不到完全消除，但有办法把风险控制在合理的范围内。

多重审核。在关键环节增加审核，可以把风险极大降低。这和 AI 无关，而是当下所有流程都会使用的方法。
概率控制。错误并不总是会造成关键影响；比如数据集中，错误信息虽然多，但是正确的信息更多，错误会被淹没，最终影响未必很大。
用户自己的判断。最终，如何使用 AI，在什么程度上采用 AI 的建议，还是由我们用户来自行决定。我们要对自己负责，不能放弃自己的判断能力。

用户有没有办法判断 AI 是否可信？

在很大程度上可以做到。

不可能完全避免，就像我们不可能保证自己永远不会被谎言欺骗一样。

但是有一些手段，可以让我们判断出 AI 的结论是否正确。

我们要把使用场景区分开，是能够容忍一定错误的低风险场景，还是需要绝对正确的高风险场景。

比如问问菜谱、辅助写写周报、发发短视频，像这种低风险场景，即便错了一般也没大碍。

但如果涉及到财务建议、医疗诊断、代码逻辑这些高风险场景，我们必须警觉，启动“怀疑模式”。

下一篇文章，我们来聊一聊在“怀疑模式”中，我们有哪些手段和方法可用。