AI素养02-AI是怎么练出来的1. AI犯傻，往往不是代码错，而是书读少了。 2. AI从例子里学本事，像上学读书一样

1. AI犯傻，往往不是代码错，而是书读少了。
2. AI从例子里学本事，像上学读书一样。
3. AI的课本，就是数据。
4. 数据直接决定了AI能成什么事。
5. AI错误来源，常是数据不对。
  
AI训练 数据重要 AI学习 AI错误 机器学习

AI素养02-AI是怎么练出来的？

你有没有见过AI犯傻？

比如给它看一张雪山照片，问上面有什么，它硬说”这是一只狗”。用语音输入法说”我想去西湖”，它能给你打成”我想去嬉戏”。

是不是很离谱？这些错误到底哪来的？

很多人第一反应：程序写错了呗？

真不是。

大部分时候，不是程序员写错了代码，是AI”书读少了”——或者说，它读的”书”本身就不对。

上个视频我们说了，AI不是按固定程序干活，它是自己从例子里学本事。

那它到底是怎么学的？其实就跟你上学读书一模一样：AI也有自己的”课本”，这个课本，就是数据（Data）。

今天我们就把这事说透：AI是怎么训练出来的，为什么说数据本身，直接决定了AI能成什么事。

AI学习，跟你背单词真的差不多

我先问你：你是怎么学会认猫的？

没人给你写过一本《认猫说明书》，说”猫有两只耳朵一根尾巴，毛长这样那样”。你就是从小见多了，真猫、照片上的、图画里的，见得多了自然就懂：哦，这东西就是猫。下次再看到，一眼就能认出来。

AI学本事，跟这个一模一样。

要训练一个能认猫的AI，你得喂它好几万张照片，告诉它：这张是猫，那张不是。它自己一遍一遍看，慢慢就总结出规律：原来长这样、有这些特征的，就是猫。

这个过程，就叫”训练”。

你背单词，一个词背上十遍才记得住。AI也一样，一张图片要看好多遍，不断调整自己的”判断标准”，准确率慢慢就上去了。

一开始它可能把老虎也当成猫，错个几百次，就知道猫和老虎区别在哪了。你考试前刷题，刷得越多，考得越准。AI训练也是这个道理——给它的例子越多，刷的”题”越多，将来认对的概率就越高。

说白了，AI学习真没那么神秘，本质上跟你上学刷题就是一回事。

训练AI就三步，看完你也懂

具体怎么训练一个AI？说穿了就是三步，普通人都能听懂。

第一步，准备数据。

你要让AI做什么，就得准备什么样的数据。

想让它认猫，就找一堆带猫和不带猫的照片；
想让它会聊天，就找一堆聊天记录；
想让它写诗，就喂它一整部《唐诗三百首》。

这些数据就是AI的课本。课本越好，AI学得越好。

要是课本本身错字连篇，它肯定学不好。

第二步，建立模型。

模型是什么？你就把它当成AI的”大脑”。当然不是真的血肉，就是一堆数学公式。

模型里有好多好多”参数”，就像你脑子里的神经连接，一开始都是乱的，什么也不会。参数不用懂什么数学细节，理解成AI脑子里的”判断题标准”就行。一开始它啥也不会，标准都是乱蒙的，给它看猫，它随便说是狗，错了再改。

第三步，不断调整。

AI看完一个例子，做出判断，我们告诉它：你错了，正确答案应该是这样。

它就调整一下自己的判断标准。错一次，调一次；再错，再调。几万几十万个例子看下来，参数调得越来越准，AI也就越来越聪明了。这个过程，跟你学骑车一模一样。刚开始总是摔，摔一次调一下重心，摔多了自然就找到平衡了。AI训练也是这么回事——错了就改，改多了就会了。

现在最火的深度学习，听起来玄乎得不行，基本原理就是这个：一遍一遍错，一遍一遍改，越改越好。

关于数据，有个反常识的冷知识

你觉得训练AI是不是数据越多越好？

大部分时候是这样，但有件事你绝对想不到：数据质量，比数据数量重要一万倍。

一百张标注清楚的好照片，比一万张乱七八糟的更管用。

什么叫”标注清楚”？就是你得告诉AI，这张照片里确实是猫，不能错。如果你自己都标错了，把狐狸标成猫，那AI就被你教坏了，以后它也会认错。

我听过一个真事：有人训练AI识别皮肤癌，找了几千张皮肤病照片。结果发现AI总是把皮肤上有尺子的照片当成癌症。

为什么？

因为医生拍恶性肿瘤的时候，习惯放一把尺子在旁边当尺寸参考，良性的就很少放。AI学着学着，最后学会了：有尺子就是癌症。可尺子跟癌症有半毛钱关系啊？

这真不是AI笨，是训练数据本身就带了”坑”。

AI没有人类的常识，它只会老老实实地从数据里找规律。你数据里有坑，它就跟着跳。

还有个更经典的例子：

以前有人训练AI区分狼和哈士奇，结果这个AI特别”聪明”，准确率高得离谱，但后来发现不对劲。它根本没学认狼长什么样，它只是学会了：背景是雪的就是狼，背景是草地的就是哈士奇。因为训练数据里，狼的照片几乎都是在雪地里拍的，哈士奇都在草地上。

AI找到了这个偷懒的规律，你能怪它吗？

所以说，训练AI的人，最大的功夫其实不是写程序，是找对数据、整理好数据。

行业里有句老话：“垃圾进，垃圾出（Garbage In，Garbage Out）”

你给AI喂垃圾数据，它只能还给你垃圾结果。

AI训练完，就一劳永逸了？

很多人以为，AI训练好了，放到网上给大家用，就完事了。真不是这样。很多AI上线之后，还会继续学习。

比如你用输入法，输入一个词，它自动联想下一个。有时候联想错了，你删掉重打，输入法其实悄悄记下来了：哦，原来这个人不是这么用的，我下次调整。

这就是AI在继续学习。

再比如推荐算法，你刷短视频，推这个你看完了，推那个你划走了。你的每一次点赞、每一次划走，其实都是在给AI喂新数据，告诉它”你喜欢这个，不喜欢那个”。它每天都在根据你的行为调整，越来越懂你。

所以很多AI不是训练完就不变了，它一直在学。你每天在用它，其实也在顺便训练它。

但持续学习也带来新问题：如果很多人都教它错的东西，它就学坏了。

比如以前有个聊天机器人，放在网上让大家随便聊，结果好多人教它说脏话，没几天它就满嘴脏话，开发团队赶紧把它下线了。

说白了，AI学什么，完全看你给它喂什么数据。喂它好书，它就学好事；喂它脏话，它就学坏。就这么简单。

“数据就是权力”，这句话到底是什么意思？

现在回到开头那个问题：数据是如何决定人工智能能做什么的？

答案已经出来了：AI从数据里学习，你给它什么数据，它就变成什么样子。

这件事为什么重要？因为谁掌握了数据，谁就决定了AI会变成什么样。

如果训练数据里只有大城市人的生活，AI可能就不懂农村人关心什么。如果数据里只有男人喜欢的东西，它就不懂女人的需求。

说个真实的例子：以前有个公司训练AI做简历筛选，想让AI自动挑好简历。结果训练数据里，过去十年公司招的基本上都是男的，AI学着学着，最后学到一个规律：简历上是男性名字就高分，女性名字就低分。这就变成性别歧视了。

你看，不是AI天生歧视女性，是训练数据本身就带着过去的歧视，AI只是把这个歧视原封不动学进去了而已。

所以说，AI不只是技术问题，背后其实是人的问题，是数据的问题。你给它什么样的数据，其实就是给它灌输什么样的价值观。这件事我们后面讲AI偏见的时候还会细说，但你现在要记住：

数据不是冷冰冰的数字，它记录了我们人类社会的样子，好的坏的，AI全都会学进去。

最后总结

AI是怎么训练出来的？其实没那么神秘：

给它一大堆例子，告诉它正确答案是什么，让它一遍一遍错，一遍一遍改，改到它自己能做对为止。

数据就是AI的课本。课本质量好不好，内容全不全，基本上就决定了这个AI最终能变成什么样。下次你用AI，它犯傻了，先别骂它笨——停下来想想：会不会是它读的课本，本身就有问题？