您当前的位置:首页 >> 插画
算法歧视?大数据折射人类社会偏见与阴暗
发布时间:2019-04-05
 

来源 S-Tech

ID | S-Tech1014

作者 | 罗锦霖

本文已获授权转载



IG夺冠的喜讯让互联网沸腾,玩家们奔走相告,竞相庆祝。作为IG战队老板的王思聪随即在微博抽奖,随机抽113位用户每人发放一万元现金为奖励。


可是抽奖结果出乎意料,获奖名单中有112名女性获奖者和1名男性获奖者,女性获奖者比率是男性的112倍;然而根据官方数据显示,在本次抽奖中,所有参与用户的男女比率是1:1.2,性别比并不存在悬殊差异。


(获奖者名单,来源自微博@夜的咖啡)

 

于是不少网友开始质疑微博的抽奖算法,甚至有用户主动测试抽奖算法,将获奖人数设置大于参与人数,发现依然有大量用户无法获奖。


这些无法获奖的用户很有可能已经被抽奖算法判断为“机器人”,在未来的任何抽奖活动中都可能都没有了中奖的机会。网友们纷纷开始测算自己是否为“垃圾用户”,微博的“算法事件”一时满城风雨。

 

这已经不是第一次人们质疑算法背后的“公正性”。在大数据时代,人类会有越来越多的利益分配和大数据直接相关;谁都不想在求职中被大数据自动判断为“缺乏竞争力的求职者”或者在法庭审判上被大数据抓进监狱。



然而事实却是,在算法决策的“黑匣子”面前,人类无法了解到算法的决策过程,而只能够了解到结果。

 

纵观近几年,众多科技公司的算法都被检测出歧视,谷歌的搜索算法将黑人标记为“大猩猩”;微软公司的人工智能聊天机器人Tay出乎意料的被“教”成了一个集反犹太人、性别歧视、种族歧视等于一身的“不良少女”……这些事件都引起了轩然大波,并且最终也导致了算法被叫停。

为什么大数据算法会歧视?

上梁不正下梁歪


在计算机领域,有一句非常有名的缩写是GIGO(Garbage in, Garbage Out),翻译过来就是说,输入的如果是垃圾数据,那么输出的也将会是垃圾数据。而在大数据领域也有类似的说法,《自然》杂志曾用BIBO表示Bias In, Bias Out,也就是说偏见进,偏见出

 


大数据可以理解成是社会的明镜,能够折射出人类社会中意识到的和没意识到的偏见;如果整个社会对某少数族裔或者性别有偏见,那么大数据也将在结果中展现出这种偏见。

 

亚马逊公司曾经在2014年开发了一套“算法筛选系统”来帮助亚马逊在招聘的时候筛选简历,开发小组开发出了500个模型,同时教算法识别50000个曾经在简历中出现的术语让算法学习在不同能力分配的权重,但是久而久之,开发团队发现算法对男性应聘者有着明显的偏好,当算法识别出“女性”(women and women’s)相关词汇的时候,便会给简历相对较低的分数,比如,女子足球俱乐部等;算法甚至会直接给来自于两所女校的学生降级。

 

这个算法最终被路透社曝光,而亚马逊公司也停止了算法的开发和使用,但是为什么看似人畜无害的算法会变坏呢?



亚马逊全球员工构成


通过上图不难发现,亚马逊公司的整体员工构成以男性为主,而从路透社整理的自2017年起这些公司公布的数据中得知,像谷歌、苹果、微软、Facebook这些公司,整体上男性占了2/3,而单独挑出技术岗位,男性比例则达到了将近4/5。

 

亚马逊用来训练算法的“老师(简历数据)”本身就带有很强的性别偏好,而年幼无知的算法则只能邯郸学步,从以往的简历数据学习,自然而然就学到了这个偏好,算法清楚的将互联网产业的性别偏好摆在了台面上。


也就是说,算法的歧视是从人类社会学来的

                                

数据不够,没法凑


现行算法中很难存在绝对公平。


众所周知的是,当算法学习的数据量越大时,算法的错误会越少,而且结果会越趋向于精准。就算人类能够开发出一套筛选系统排除带偏见的数据,将不带偏见的数据输入算法中给算法学习,算法也无法达到绝对公平。


因为非主流总是拥有更少的数据,而主流永远拥有更多的数据;所以当两套算法相比较的时候,数据少的一方的错误会更多,而数据多的一方错误会更少,久而久之,两套算法之间的还是会拉开差距。

 

举个例子,如果你加入IG,同时训练两款游戏,CS1.6和英雄联盟,而你在此之前从没有涉猎过相似的游戏。在加入训练之后,每天让你在完全相同的心理和生理状态下玩3个小时的CS1.6和3个小时的英雄联盟,剩下的时间吃饭睡觉,如果其他条件相同的情况下,你玩这两个游戏的水平应该是以相同的速度稳步提升。


 

但是实际情况是,CS1.6这款游戏已经过时,玩CS1.6的人很少,你只能通过和少数玩家一起对战,在对战中提升水平,学习到的地图枪法相对固定,无法准确的衡量自己的水平提高的程度,并且玩家数量的缺乏让你的水平在有限范围内提高,容易达到瓶颈。


但英雄联盟就不同,它是一款非常火爆的游戏,每天有无数的玩家能够和你对战,在每次对战中你都能够学到最新的战法,对英雄的熟练程度稳步提高,并且足够数量的玩家能够形成训练梯队,在对战中能够你能够清楚的了解到自己的水平提升情况;而且永远能够遇到比自己强的玩家。久而久之,虽然每天都是花相同的时间玩两款游戏,但是水平却会产生巨大的差距。

 


现行算法中没有任何算法的准确率和公正率是百分之百的,这是一个算法学习领域暂时还未能解决的问题。


在不远的未来可能有依靠少量数据学习的算法,但是当算法被应用到现实中的时候,算法还是有可能会根据实际情况调整偏好,倾向于主流人群。


不能向“算法歧视”低头

公平是每个人
相关阅读