当你把 AI 的回复当成答案,准备照着做的时候,你有没有想过,AI 这个结果是怎么来的?
你信任的,究竟是什么?
当我们信任任何一个产品或者企业,实际上信任的都是它背后的人。AI 也不例外。
AI 本质上仍然是一个工业产品,只不过它是有史以来人类最复杂的工业产品。
它是经过数以十万、百万计的人、历经多个环节创造出来的。
虽然它看似有意识、有感情,但终究还是一种“机器”。
信任 AI,实际上你等于信任了它背后这些人——只是 AI 背后的人实在太多,环节太过复杂而又难以一一追溯,所以才让 AI 本身的风险具有更大的不确定性。
AI 的生产过程
我们当下所使用的 AI,基本上都由以下环节生成:
- 数据采集、过滤、标记、清洗
- 模型设计与实现;数据清洗与模型训练
- 测试、部署、维护、运营
- 统筹以上环节的总体设计与管理 每一个环节,都有非常多的人参与;而每一个参与者,就都可能引入两种风险:能力风险与道德风险。
AI 的“起源”:数据采集、过滤、标记
AI 并不是直接博览群书,也不是把它连接到网上让它自己随便看。
它的数据来源都是经过选择和过滤的,被认为有效的数据才会进入训练集。
作为 AI 学习的基础,训练数据必须要打上标签。比如一张图片,必须要由人来定义“是猫还是狗”,AI 才可以把相应的概念和形象联系起来。
这部分工作涉及的人员规模,超乎人的想象:全球有数百万名数据标记员在为各个不同的大模型工作,其中很多都来自于不发达地区。
受限于条件,他们可能受教育程度不高,报酬低廉,生存条件恶劣,甚至连一些必要的劳动保障都没有。
对于他们来说,能力风险就在于,他们是否有能力准确地过滤和标记数据,尤其在待遇恶劣的情况下。
这并不是危言耸听。根据以往的信息,OpenAI 用来过滤 ChatGPT 有害内容的早期外包团队在肯尼亚,工人时薪不到2美元。他们每天要看数以千计的虐待、暴力、性侵文本。有工人因心理创伤离职,而他们的离职又导致新手上岗,标注质量断崖式下跌。
而道德风险,则在于他们是会在工作中尽力,还是因为条件不够好而胡乱对付,甚至故意出错;更进一步,他们可能会被对手公司收买,从而在工作中混入错误信息。
我们所信任的 AI,就起源于这些人的工作成果。
AI 的“灵魂”:模型算法设计与架构设计
这一环节的工作人员,包括AI科学家、算法工程师、系统架构师、产品经理、以及制定技术路线决策的高管。
他们要负责设计、实现并调整模型本身,把它们从构思中搬运到现实世界。
设计模型本身就是非常困难的,需要考虑到方方面面,包括各种极端和边缘情况。他们能够负担起这样的任务吗?他们的思考足够完整吗?
即使我们认为他们都是经过重重筛选、有足够的能力能够完成工作的,能力问题仍然存在。
每个参与者,都会有自己的想法。
比如考虑到 AI 要解决的最重要的问题,可能有的人最首先想到的是,我家的猫和狗应该吃什么;有的人想到的是我应该如何教育孩子;有的人想到的是我要如何保证身体健康;有的人想到的是如何为老年人提供帮助和关怀;还有的人想到的是怎么发展自己的职业生涯。
这些都不能算是错误,然而分歧就此产生。
在模型里,哪些特征会被更加重视,这反应出设计者的价值判断,直接影响 AI 本身的能力。
参与者们各自不同的倾向,本身就会给这个环节带来极大的不稳定性。这就是能力风险。
而在这一环节上,道德风险的影响更加深远。
是精心设计一个优秀的算法,还是随便从网上找一个差不多的糊弄过去?
是在每一个环节精益求精,还是在一些细节上粗枝大叶?
会不会因为有私心(比如想把算法留给自己的产品,或者收受贿赂),而在工作上使用较差的算法? 这都是道德风险。
AI 的“成长”:数据清洗与模型训练
这一过程涉及的角色,包括训练工程师、机器学习运维工程师、以及管理训练过程的技术负责人。
数据已经有了,但仍然不能直接用于模型训练,必须要再次进行筛选,以保证在训练成本和效果上尽可能达到最佳平衡点。
那么,他们有能力分辨出有害的信息吗?对于信息是否有害的评估,一般并没有准确的参数,而是凭借个人或者小团体的判断,这个判断一定准确吗?
如果考虑到道德风险,他们中如果有人有恶意,就更可怕了。
研究表明,哪怕训练集中只有0.01%的虚假文本,也足以让模型输出的有害内容增加11.2%。仅用250篇精心设计的恶意文档,就能成功让一个130亿参数的大模型中毒,即使这些文档仅占训练数据的约0.00016%。
抛开数据本身的问题,训练过程中的倾向,同样会影响大模型的能力。
我们现在都知道,AI 是会有“幻觉”的,也就是在没有相关知识的情况下,会倾向于胡说八道。
经过证实,“幻觉”有一部分就源于,在训练过程与评估机制里,训练师无意识地鼓励模型在不确定时进行“猜题”,而非直接坦承无知。就像在学校里,老师会告诉我们,在考试的时候,即使不会的题目,也尽量不要空着,写一点是一点,总比空着要强。我们就是这样被训练出来的,AI 也有同样的问题。
训练工程师在设置优化目标时,如果过于追求“有用性”和“流畅性”而牺牲了“真实性”,就是在系统性地鼓励模型说谎。
这个“度”,仍然没有办法精确定义,更不要说有可能会有人故意使坏。
而随着 AI 进一步发展,所谓的“数据回音壁”的问题也开始凸显。
更学术的说法叫做模型自噬(Model Autophagy),指的是 AI 生成的信息充斥着网络,后续的 AI 训练会混入越来越多之前的 AI 生成的“二手”信息。这就像用复印机反复复印一张图,几次之后就会全是噪点和扭曲。
我们信任的AI,可能正在学习另一个AI瞎编的“知识”。
AI 的“生存”:测试、部署、维护、运营
这部分工作人员有测试工程师、DevOps 工程师、安全工程师、产品发布经理、以及做出上线决策的管理层。
测试足够全面吗?2023—2025年间,全球发生了30多起影响重大的企业级AI应用失败案例,横跨金融、医疗、交通、零售等多个关键行业,根本原因就包括“不充分的场景测试”和“人类监督不足”。许多 AI 系统在“正常”条件下表现完美,却在遇到未曾训练过的边缘场景时彻底失效。
部署是不是会引入人为操作的错误?3月31日,Anthropic 无意泄漏了 Claude Code 的完整源代码;3月底,Apple 自研的 AI Agent 在夜里错误地推送给了部分用户。这两件事刚的热度还没完全消退呢。
所使用的工具、模块、软件、组件等等,是否都足够安全可靠?不到一个月前(3月19日),开源的漏洞扫描工具 Trivy 被黑客获取到了 CI / CD 凭证,仅13分钟就上传了两个恶意版本,影响到的客户量在千万级别,很多用户的敏感信息被窃取,包括一些公司的所有财务信息。
这已经不是某个人的能力所能控制的范围;如果再考虑到道德风险,就越发不可控了。
同时,这一步还出现了新的道德风险点:用户数据安全风险。
大模型在这一阶段已经开始接触用户数据,而这些数据往往涉及隐私。
这些数据安全吗?像前面提到的黑客攻击,已经很可怕了。
但工作人员的道德是否足够可信?现有的管理体系能否有效管控他们接触隐私数据的权限?如果他们拥有权限,他们会不会泄露或贩卖用户隐私数据来牟利?
永远不要对人性丧失信心,但也永远不要高估人性。
AI 的一切:总体设计与管理
我们当前所有的这些流程拆分、架构设计、策略模型设计、算法、这些模块的划分与整合,从整体到细节是否是合理的?是否是达成 AI 的最佳组织形式或者分配形式?
这一点,即使是世界上最优秀的科学家,也不敢拍着胸脯说自己设计的一定是对的,一切都需要慢慢地摸索和试验。
在这个过程中,出现错误就是不可避免的,这就是架构和设计方面的的风险。
可以说,这是最大的风险,也是最不可避免的风险。比如我们现在都有所耳闻的“提示词注入攻击”(在提示词、文件或者图片中加入恶意指令让 AI 执行),其漏洞就来自于现在 AI 的设计方式,几乎不可能完全消除。
而这些风险同样来自于人(包括设计师、决策者等等)。
用户自身带来的风险
我们都爱听好话。
我们在理智上都推崇刘墉和纪晓岚,但真到了现实生活中,恐怕绝大多数人会喜欢的是和珅。
就这一点,就足以让用户在无意间引导 AI 在自己的倾向中寻找美化点,而不是提出建设性的批评和意见。
齿轮误差理论:风险的累积
在 AI 的链条上,错误往往会累加,最后成指数级暴涨。
从非洲数据标注员的一次走神,到硅谷工程师的一次偷懒,再到用户的一次盲从——错误在超长的链条上逐级放大。
这就是 AI 时代的“蝴蝶效应”。
那么对于我们最终用户来说,所能涉及到、所使用的 AI 模型本身是否可信,它的答案是否准确,就是一个风险很大的问题了。
现在,当各个环节都逐渐引入 AI 作为辅助工具甚至是决策节点的时候,风险就会进一步被放大。
这些风险听起来非常严重——然而 AI 还是很好用的,不是吗?
风险的解决方案
这些风险虽然可怕,但也有一些办法来控制。做不到完全消除,但有办法把风险控制在合理的范围内。
-
多重审核。在关键环节增加审核,可以把风险极大降低。这和 AI 无关,而是当下所有流程都会使用的方法。
-
概率控制。错误并不总是会造成关键影响;比如数据集中,错误信息虽然多,但是正确的信息更多,错误会被淹没,最终影响未必很大。
-
用户自己的判断。最终,如何使用 AI,在什么程度上采用 AI 的建议,还是由我们用户来自行决定。我们要对自己负责,不能放弃自己的判断能力。
用户有没有办法判断 AI 是否可信?
在很大程度上可以做到。
不可能完全避免,就像我们不可能保证自己永远不会被谎言欺骗一样。
但是有一些手段,可以让我们判断出 AI 的结论是否正确。
我们要把使用场景区分开,是能够容忍一定错误的低风险场景,还是需要绝对正确的高风险场景。
比如问问菜谱、辅助写写周报、发发短视频,像这种低风险场景,即便错了一般也没大碍。
但如果涉及到财务建议、医疗诊断、代码逻辑这些高风险场景,我们必须警觉,启动“怀疑模式”。
下一篇文章,我们来聊一聊在“怀疑模式”中,我们有哪些手段和方法可用。