AI素养05-AI也会偏心眼？1. AI是面镜子，照出人类的偏见 2. 数据有偏见，AI就有偏见 3. 谁的数据多，AI

1. AI是面镜子，照出人类的偏见
2. 数据有偏见，AI就有偏见
3. 谁的数据多，AI对谁就更准
4. 标注者的偏见，悄悄藏进数据里
5. 意识到偏见，就是改变的开始
  
AI偏见 算法公平 数据伦理 人工智能 科技伦理

AI素养05-AI也会偏心眼？

你觉得人工智能会偏心吗？

换作以前，我可能想都不想就说：怎么可能？

算法冷冰冰的，只认数据不认人，公平公正不就是AI最大的优势吗？

但事实真的挺打脸的——AI不仅会偏心，而且偏得厉害，有时候比人还离谱。

说穿了也不复杂：AI所有知识都是从数据里学来的，而数据从哪儿来？

还不是从我们人类社会来的。

我们这个社会本来就带着各种偏见，AI学着学着，自然就把这些毛病都学走了。

今天就跟你聊聊，AI的”偏心眼”到底是怎么回事。

先讲三个真实的事儿

先说简历筛选那档子事。

有家挺有名的大公司，前几年搞了个AI筛简历的系统，想省点人力。结果用着用着发现不对劲——这AI特别不喜欢女性候选人。后来一查才明白，训练数据用的是这家公司过去十年的招聘记录，而这十年招进来的人里，大部分都是男的。AI一看，哦原来招的都是男的，那男性肯定就是更合适的啊！于是看到女性名字的简历，直接就打低分。

你说这是AI天生歧视女性吗？

真不是。它就是个老实孩子，数据里有什么就学什么。

数据本身带偏见，出来的结果当然就有偏见。

再说说人脸识别。

早几年就有人拿不同的人脸识别系统做测试，发现一个特别有意思的现象：对白人男性的识别准确率特别高，但是对黑人女性，错误率居然能高出几十倍。原因也简单——训练数据里，大部分都是白人男性的照片，黑人女性的照片少得可怜。AI见都没见过多少，当然认不对。

这个也不是AI故意的，就是数据不平衡。

谁的数据多，AI对谁就更准；谁的数据少，谁就得承担更高的错误率。

说白了，这也是一种不公平。

最后说搜索引擎。

你现在去网上搜”CEO”，出来的照片基本全是男的。搜”护士”，跳出来的几乎都是女性。这不就是偏见吗？但搜索引擎为什么会这样？因为网上现有的图片就是这样啊——大部分CEO的新闻配图都是男的，大部分护士配图都是女的。

AI只不过是按统计结果，给你展示了最”常见”的画面而已。

你看，这三个例子里，AI本身没什么坏心思，它就是在老老实实地学习。偏见不是AI带来的，是我们人类社会本来就有，数据把它记下来了，AI又给我们重复了一遍而已。

AI的偏见到底从哪儿来？

讲完这几个故事，你大概也有点感觉了。AI的偏心眼，一般就这么几种情况。

第一种，训练数据本身就带着偏见。

人类社会发展了这么多年，很多偏见早就根深蒂固了——性别刻板印象、地域歧视、对不同肤色不同宗教的偏见…这些东西自然而然就会反映在我们收集的数据里。AI从数据里学，当然把这些偏见也一块儿学走了。

就说刚才简历筛选的事，不是AI歧视女性，是这个行业过去本来就很少招女性，数据反映了这个现实，AI只是把这个现实延续下去而已。

第二种，训练数据不全，代表性不够。

就是人脸识别那个例子。收集数据的人可能图方便，就只收集了身边一群人的数据，其他群体的根本没覆盖到。结果就是，谁的数据多，AI对谁就更擅长；谁的数据少，谁就得吃亏。说穿了，它对你不公平，不是因为你不好，是因为它根本就没怎么见过你这样的例子。

这个在大语言模型里特别明显。现在大部分模型的训练数据主要都是英文，中文相对少一点，其他小语种就更少了。所以AI说英文特别溜，说小语种就经常出错。对说小语种的人来说，这就是实实在在的不公平。

第三种，收集数据的时候，选择本身就有偏差。

举个例子，你要训练一个AI预测”哪个学生更容易毕业”，用的是学校过去的数据。但过去这些年里，很多家庭条件不好的学生，不是因为成绩差毕不了业，是因为交不起学费提前辍学了。AI从这些数据里学到的规律就是”家庭不好的学生更容易辍学”，然后就给这些学生打低分。

但问题是，这些学生当初辍学，不是因为不优秀，是因为没钱啊！数据本身就带着不公平，AI学了之后，自然就把这个不公平又延续下去了。

所以你看，不管是哪种情况，偏见的根子都不在AI，而在人，在我们收集的数据。

AI就像一面镜子，照出了我们这个社会本来就有的问题。

还有个你可能没想到的：标注也会带来偏见

很多人忽略了一点：给数据做标注的时候，偏见也会悄悄混进去。

训练AI需要人给数据打标签——这张图是猫，那张是狗，这个邮件是垃圾邮件，那个不是。标注的人也是人，人有偏见，标出来的数据自然就带偏见。

以前有个研究挺有名的，训练AI识别图片里的”攻击性武器”。结果发现，标注员看到黑人手里拿东西，更容易标成”武器”，看到白人拿一模一样的东西，更容易标成”工具”。AI学了这些标注好的数据，自然就觉得”黑人更容易携带武器”——这个偏见就这么坐实了，还挺严重的。

这能怪AI吗？真怪不着。怪就怪做标注的人，自己脑子里就带着这个偏见，不知不觉就带到数据里去了。而且这个问题特别隐蔽——标注的人自己可能都没意识到，偏见藏在潜意识里，悄悄就影响了判断。

那为什么不把偏见去掉呢？

既然偏见都是从数据里来的，那我们把数据里的偏见去掉不就行了？

为什么到现在，AI偏见还是个老大难的问题？

首先，很多偏见藏得太深了，不是你想找就能找出来。

就说标注偏见，标注的人自己都不知道自己有偏见，你怎么改？

其次，你改了这个偏见，可能又冒出来那个。比如说，为了让更多女性得到工作机会，你给女性简历加分，那会不会对男性又不公平了？这里面的度，真的很难把握。

最关键的是，AI偏见的根源是人类社会的偏见。只要社会上还有偏见，数据里就会有，AI就会有。你不可能只改AI，不改社会，就把这个问题彻底解决了。

但也不是说我们什么都做不了。至少我们可以做到一点：时刻意识到AI可能会有偏见，然后在设计、训练AI的时候，多问自己一句——这个数据有没有问题？这个设计对所有人都公平吗？

很多时候，意识到问题的存在，就是解决问题的第一步。

最后说一句

AI为什么会有偏见？

说白了就是：AI有偏见，不是因为AI坏，是因为它学的数据里就有偏见。

数据里的偏见，说到底就是我们人类社会的偏见。AI只是把已经存在的偏见，用算法的方式又重复了一遍，让它变得更隐蔽，也更有影响力。

以后你用AI的时候，可以多留个心眼：这个AI的训练数据是从哪儿来的？它会不会对某些人不公平？

多问这么一句，你就比大多数人更清醒了。