1. AI犯傻,往往不是代码错,而是书读少了。
2. AI从例子里学本事,像上学读书一样。
3. AI的课本,就是数据。
4. 数据直接决定了AI能成什么事。
5. AI错误来源,常是数据不对。
AI训练 数据重要 AI学习 AI错误 机器学习
AI素养02-AI是怎么练出来的?
你有没有见过AI犯傻?
比如给它看一张雪山照片,问上面有什么,它硬说”这是一只狗”。用语音输入法说”我想去西湖”,它能给你打成”我想去嬉戏”。
是不是很离谱?这些错误到底哪来的?
很多人第一反应:程序写错了呗?
真不是。
大部分时候,不是程序员写错了代码,是AI”书读少了”——或者说,它读的”书”本身就不对。
上个视频我们说了,AI不是按固定程序干活,它是自己从例子里学本事。
那它到底是怎么学的?其实就跟你上学读书一模一样:AI也有自己的”课本”,这个课本,就是数据(Data)。
今天我们就把这事说透:AI是怎么训练出来的,为什么说数据本身,直接决定了AI能成什么事。
AI学习,跟你背单词真的差不多
我先问你:你是怎么学会认猫的?
没人给你写过一本《认猫说明书》,说”猫有两只耳朵一根尾巴,毛长这样那样”。你就是从小见多了,真猫、照片上的、图画里的,见得多了自然就懂:哦,这东西就是猫。下次再看到,一眼就能认出来。
AI学本事,跟这个一模一样。
要训练一个能认猫的AI,你得喂它好几万张照片,告诉它:这张是猫,那张不是。它自己一遍一遍看,慢慢就总结出规律:原来长这样、有这些特征的,就是猫。
这个过程,就叫”训练”。
你背单词,一个词背上十遍才记得住。AI也一样,一张图片要看好多遍,不断调整自己的”判断标准”,准确率慢慢就上去了。
一开始它可能把老虎也当成猫,错个几百次,就知道猫和老虎区别在哪了。你考试前刷题,刷得越多,考得越准。AI训练也是这个道理——给它的例子越多,刷的”题”越多,将来认对的概率就越高。
说白了,AI学习真没那么神秘,本质上跟你上学刷题就是一回事。
训练AI就三步,看完你也懂
具体怎么训练一个AI?说穿了就是三步,普通人都能听懂。
第一步,准备数据。
你要让AI做什么,就得准备什么样的数据。
- 想让它认猫,就找一堆带猫和不带猫的照片;
- 想让它会聊天,就找一堆聊天记录;
- 想让它写诗,就喂它一整部《唐诗三百首》。
这些数据就是AI的课本。课本越好,AI学得越好。
要是课本本身错字连篇,它肯定学不好。
第二步,建立模型。
模型是什么?你就把它当成AI的”大脑”。当然不是真的血肉,就是一堆数学公式。
模型里有好多好多”参数”,就像你脑子里的神经连接,一开始都是乱的,什么也不会。参数不用懂什么数学细节,理解成AI脑子里的”判断题标准”就行。一开始它啥也不会,标准都是乱蒙的,给它看猫,它随便说是狗,错了再改。
第三步,不断调整。
AI看完一个例子,做出判断,我们告诉它:你错了,正确答案应该是这样。
它就调整一下自己的判断标准。错一次,调一次;再错,再调。几万几十万个例子看下来,参数调得越来越准,AI也就越来越聪明了。这个过程,跟你学骑车一模一样。刚开始总是摔,摔一次调一下重心,摔多了自然就找到平衡了。AI训练也是这么回事——错了就改,改多了就会了。
现在最火的深度学习,听起来玄乎得不行,基本原理就是这个:一遍一遍错,一遍一遍改,越改越好。
关于数据,有个反常识的冷知识
你觉得训练AI是不是数据越多越好?
大部分时候是这样,但有件事你绝对想不到:数据质量,比数据数量重要一万倍。
一百张标注清楚的好照片,比一万张乱七八糟的更管用。
什么叫”标注清楚”?就是你得告诉AI,这张照片里确实是猫,不能错。如果你自己都标错了,把狐狸标成猫,那AI就被你教坏了,以后它也会认错。
我听过一个真事:有人训练AI识别皮肤癌,找了几千张皮肤病照片。结果发现AI总是把皮肤上有尺子的照片当成癌症。
为什么?
因为医生拍恶性肿瘤的时候,习惯放一把尺子在旁边当尺寸参考,良性的就很少放。AI学着学着,最后学会了:有尺子就是癌症。可尺子跟癌症有半毛钱关系啊?
这真不是AI笨,是训练数据本身就带了”坑”。
AI没有人类的常识,它只会老老实实地从数据里找规律。你数据里有坑,它就跟着跳。
还有个更经典的例子:
以前有人训练AI区分狼和哈士奇,结果这个AI特别”聪明”,准确率高得离谱,但后来发现不对劲。它根本没学认狼长什么样,它只是学会了:背景是雪的就是狼,背景是草地的就是哈士奇。因为训练数据里,狼的照片几乎都是在雪地里拍的,哈士奇都在草地上。
AI找到了这个偷懒的规律,你能怪它吗?
所以说,训练AI的人,最大的功夫其实不是写程序,是找对数据、整理好数据。
行业里有句老话:“垃圾进,垃圾出(Garbage In,Garbage Out)”
你给AI喂垃圾数据,它只能还给你垃圾结果。
AI训练完,就一劳永逸了?
很多人以为,AI训练好了,放到网上给大家用,就完事了。真不是这样。很多AI上线之后,还会继续学习。
比如你用输入法,输入一个词,它自动联想下一个。有时候联想错了,你删掉重打,输入法其实悄悄记下来了:哦,原来这个人不是这么用的,我下次调整。
这就是AI在继续学习。
再比如推荐算法,你刷短视频,推这个你看完了,推那个你划走了。你的每一次点赞、每一次划走,其实都是在给AI喂新数据,告诉它”你喜欢这个,不喜欢那个”。它每天都在根据你的行为调整,越来越懂你。
所以很多AI不是训练完就不变了,它一直在学。你每天在用它,其实也在顺便训练它。
但持续学习也带来新问题:如果很多人都教它错的东西,它就学坏了。
比如以前有个聊天机器人,放在网上让大家随便聊,结果好多人教它说脏话,没几天它就满嘴脏话,开发团队赶紧把它下线了。
说白了,AI学什么,完全看你给它喂什么数据。喂它好书,它就学好事;喂它脏话,它就学坏。就这么简单。
“数据就是权力”,这句话到底是什么意思?
现在回到开头那个问题:数据是如何决定人工智能能做什么的?
答案已经出来了:AI从数据里学习,你给它什么数据,它就变成什么样子。
这件事为什么重要?因为谁掌握了数据,谁就决定了AI会变成什么样。
如果训练数据里只有大城市人的生活,AI可能就不懂农村人关心什么。如果数据里只有男人喜欢的东西,它就不懂女人的需求。
说个真实的例子:以前有个公司训练AI做简历筛选,想让AI自动挑好简历。结果训练数据里,过去十年公司招的基本上都是男的,AI学着学着,最后学到一个规律:简历上是男性名字就高分,女性名字就低分。这就变成性别歧视了。
你看,不是AI天生歧视女性,是训练数据本身就带着过去的歧视,AI只是把这个歧视原封不动学进去了而已。
所以说,AI不只是技术问题,背后其实是人的问题,是数据的问题。你给它什么样的数据,其实就是给它灌输什么样的价值观。这件事我们后面讲AI偏见的时候还会细说,但你现在要记住:
数据不是冷冰冰的数字,它记录了我们人类社会的样子,好的坏的,AI全都会学进去。
最后总结
AI是怎么训练出来的?其实没那么神秘:
给它一大堆例子,告诉它正确答案是什么,让它一遍一遍错,一遍一遍改,改到它自己能做对为止。
数据就是AI的课本。课本质量好不好,内容全不全,基本上就决定了这个AI最终能变成什么样。下次你用AI,它犯傻了,先别骂它笨——停下来想想:会不会是它读的课本,本身就有问题?