1. AI是面镜子,照出人类的偏见
2. 数据有偏见,AI就有偏见
3. 谁的数据多,AI对谁就更准
4. 标注者的偏见,悄悄藏进数据里
5. 意识到偏见,就是改变的开始
AI偏见 算法公平 数据伦理 人工智能 科技伦理
AI素养05-AI也会偏心眼?
你觉得人工智能会偏心吗?
换作以前,我可能想都不想就说:怎么可能?
算法冷冰冰的,只认数据不认人,公平公正不就是AI最大的优势吗?
但事实真的挺打脸的——AI不仅会偏心,而且偏得厉害,有时候比人还离谱。
说穿了也不复杂:AI所有知识都是从数据里学来的,而数据从哪儿来?
还不是从我们人类社会来的。
我们这个社会本来就带着各种偏见,AI学着学着,自然就把这些毛病都学走了。
今天就跟你聊聊,AI的”偏心眼”到底是怎么回事。
先讲三个真实的事儿
先说简历筛选那档子事。
有家挺有名的大公司,前几年搞了个AI筛简历的系统,想省点人力。结果用着用着发现不对劲——这AI特别不喜欢女性候选人。后来一查才明白,训练数据用的是这家公司过去十年的招聘记录,而这十年招进来的人里,大部分都是男的。AI一看,哦原来招的都是男的,那男性肯定就是更合适的啊!于是看到女性名字的简历,直接就打低分。
你说这是AI天生歧视女性吗?
真不是。它就是个老实孩子,数据里有什么就学什么。
数据本身带偏见,出来的结果当然就有偏见。
再说说人脸识别。
早几年就有人拿不同的人脸识别系统做测试,发现一个特别有意思的现象:对白人男性的识别准确率特别高,但是对黑人女性,错误率居然能高出几十倍。原因也简单——训练数据里,大部分都是白人男性的照片,黑人女性的照片少得可怜。AI见都没见过多少,当然认不对。
这个也不是AI故意的,就是数据不平衡。
谁的数据多,AI对谁就更准;谁的数据少,谁就得承担更高的错误率。
说白了,这也是一种不公平。
最后说搜索引擎。
你现在去网上搜”CEO”,出来的照片基本全是男的。搜”护士”,跳出来的几乎都是女性。这不就是偏见吗?但搜索引擎为什么会这样?因为网上现有的图片就是这样啊——大部分CEO的新闻配图都是男的,大部分护士配图都是女的。
AI只不过是按统计结果,给你展示了最”常见”的画面而已。
你看,这三个例子里,AI本身没什么坏心思,它就是在老老实实地学习。偏见不是AI带来的,是我们人类社会本来就有,数据把它记下来了,AI又给我们重复了一遍而已。
AI的偏见到底从哪儿来?
讲完这几个故事,你大概也有点感觉了。AI的偏心眼,一般就这么几种情况。
第一种,训练数据本身就带着偏见。
人类社会发展了这么多年,很多偏见早就根深蒂固了——性别刻板印象、地域歧视、对不同肤色不同宗教的偏见…这些东西自然而然就会反映在我们收集的数据里。AI从数据里学,当然把这些偏见也一块儿学走了。
就说刚才简历筛选的事,不是AI歧视女性,是这个行业过去本来就很少招女性,数据反映了这个现实,AI只是把这个现实延续下去而已。
第二种,训练数据不全,代表性不够。
就是人脸识别那个例子。收集数据的人可能图方便,就只收集了身边一群人的数据,其他群体的根本没覆盖到。结果就是,谁的数据多,AI对谁就更擅长;谁的数据少,谁就得吃亏。说穿了,它对你不公平,不是因为你不好,是因为它根本就没怎么见过你这样的例子。
这个在大语言模型里特别明显。现在大部分模型的训练数据主要都是英文,中文相对少一点,其他小语种就更少了。所以AI说英文特别溜,说小语种就经常出错。对说小语种的人来说,这就是实实在在的不公平。
第三种,收集数据的时候,选择本身就有偏差。
举个例子,你要训练一个AI预测”哪个学生更容易毕业”,用的是学校过去的数据。但过去这些年里,很多家庭条件不好的学生,不是因为成绩差毕不了业,是因为交不起学费提前辍学了。AI从这些数据里学到的规律就是”家庭不好的学生更容易辍学”,然后就给这些学生打低分。
但问题是,这些学生当初辍学,不是因为不优秀,是因为没钱啊!数据本身就带着不公平,AI学了之后,自然就把这个不公平又延续下去了。
所以你看,不管是哪种情况,偏见的根子都不在AI,而在人,在我们收集的数据。
AI就像一面镜子,照出了我们这个社会本来就有的问题。
还有个你可能没想到的:标注也会带来偏见
很多人忽略了一点:给数据做标注的时候,偏见也会悄悄混进去。
训练AI需要人给数据打标签——这张图是猫,那张是狗,这个邮件是垃圾邮件,那个不是。标注的人也是人,人有偏见,标出来的数据自然就带偏见。
以前有个研究挺有名的,训练AI识别图片里的”攻击性武器”。结果发现,标注员看到黑人手里拿东西,更容易标成”武器”,看到白人拿一模一样的东西,更容易标成”工具”。AI学了这些标注好的数据,自然就觉得”黑人更容易携带武器”——这个偏见就这么坐实了,还挺严重的。
这能怪AI吗?真怪不着。怪就怪做标注的人,自己脑子里就带着这个偏见,不知不觉就带到数据里去了。而且这个问题特别隐蔽——标注的人自己可能都没意识到,偏见藏在潜意识里,悄悄就影响了判断。
那为什么不把偏见去掉呢?
既然偏见都是从数据里来的,那我们把数据里的偏见去掉不就行了?
为什么到现在,AI偏见还是个老大难的问题?
首先,很多偏见藏得太深了,不是你想找就能找出来。
就说标注偏见,标注的人自己都不知道自己有偏见,你怎么改?
其次,你改了这个偏见,可能又冒出来那个。比如说,为了让更多女性得到工作机会,你给女性简历加分,那会不会对男性又不公平了?这里面的度,真的很难把握。
最关键的是,AI偏见的根源是人类社会的偏见。只要社会上还有偏见,数据里就会有,AI就会有。你不可能只改AI,不改社会,就把这个问题彻底解决了。
但也不是说我们什么都做不了。至少我们可以做到一点:时刻意识到AI可能会有偏见,然后在设计、训练AI的时候,多问自己一句——这个数据有没有问题?这个设计对所有人都公平吗?
很多时候,意识到问题的存在,就是解决问题的第一步。
最后说一句
AI为什么会有偏见?
说白了就是:AI有偏见,不是因为AI坏,是因为它学的数据里就有偏见。
数据里的偏见,说到底就是我们人类社会的偏见。AI只是把已经存在的偏见,用算法的方式又重复了一遍,让它变得更隐蔽,也更有影响力。
以后你用AI的时候,可以多留个心眼:这个AI的训练数据是从哪儿来的?它会不会对某些人不公平?
多问这么一句,你就比大多数人更清醒了。