《纽约书评》:在屏幕的对面,数据克隆了一个完整的"你"

社科报 观察

大数据正在塑造另一个“你”

苏·哈尔彭 桑暘/编译

◤海外的数据信息公司、商业集团和政府正从各个层面搜集关于个体的大数据,从而服务于自身。“事实上,我们自认为不需要任何代价的获取,其实是牺牲了98%的自由而换来的。”

斯诺登事件发生之后,有很多人都开始考虑社会过度数据化的弊端以及数据隐私的保护。

近日,《纽约书评》刊发了苏·哈尔彭(Sue Halpern)围绕《数学杀伤性武器:大数据如何加剧不平等和威胁民主》和《虚拟竞赛:算法驱动式经济的风险与承诺》这两本书的评论。

用数据牟利非常普遍

几个月前,《华盛顿邮报》揭露了脸书(Facebook)的一个后台行为——它收集了近20万用户每人98个数据点,其中包括种族、收入、净资产、住房价值、是否是一位母亲、是否是一位足球妈妈、是否已婚、信贷额度、是否对斋月感兴趣、何时购买了车辆,等等——这些都是情报数据库需要的内容。

脸书是如何收集到这些个人生活和身份信息的呢?

首先是用户自主登记的信息,比如婚姻状态、年龄、大学入学时间,以及用户上传的度假照片、婴儿照、毕业照——不仅限于单人照片,脸书的面部识别软件可以将你从多人照片中识别出来。

同时,脸书还可以追踪用户的网站浏览记录,尽管用户设置了“不要追踪”选项。只要用户访问过的网站上嵌有脸书的“点赞”按钮,脸书就会收到记录。

一些公司会向全球近5000个数据经纪人购买用户个人信息。这些数据经纪人从商店积分卡、保修单、药房记录、工资单,还有百万个公共数据链中挖掘信息。政府也出售数据,例如投票信息、机动车辆注册信息,甚至死亡证明、企业关系,等等。理论上,就像脸书收集这些数据点一样,分析所得的结果大多用以配合用户喜好推送广告。也就是说,实际上他们将这些个人信息卖给了广告商用以谋利。

英国剑桥大学心理测量中心的研究者研发了一款被称为“预测引擎”的软件,使用个人用户的脸书“点赞”记录来预测用户一系列的个人变量,包括幸福度、智力、政治取向等,并自动生成“五大人格”简介——“五大人格”是指经验开放性、亲和性、外向性、尽责性和情绪不稳定性,往往被雇主用来评估求职者。

研究者认为,在点赞的背后,真正驱动这些行为的是用户微妙的心理关联。研究人员向企业出售他们的预测分析服务,承诺可以根据用户的在线行为进行心理评估。公司可以实时收到客户反馈和建议,从而细分产品种类。

数据的误读与偏见

但是,这同样也存在数据被误读和误解的可能性。我们生活在这样一个历史时刻,强大的计算机可以解析和排序庞大的数据集,令我们看到过去不可预见的东西。

但事实上,任何事物的数据化都是在抛开所有无法量化的东西之后的还原过程。例如,信用评级是衡量一个好雇员的代表,但剑桥心理测量中心使用的“五大人格”测试结果则表明,性格测试在工作绩效预测中实际呈弱相关。

有一种趋势认为数据是中性的,它并不会反应固有偏见。例如,很多人相信脸书没有对“最新动态”做后台调整,而实际上它恰恰做了。

一些人决定了哪些信息可以被加权并列入计算程序中,因而这些数据的分析处理过程也自然涵盖了可能的人为误差和文化隔阂,结果便是他们所期望的我们的样子——这不是科学,而是推测,却被其放在了计算程序里。我们必须认识到对人类的误读是由人类自己写入程序中的。

然而,当我们在看类似剑桥心理测试中心的分析时,这个问题也许显而易见,但如果是在预测一个未来可能性犯罪事件时,就不那么容易了。脸书正在基于用户的朋友圈开发一款信用评级计算程序,这对有很多金融圈好友的人来说十分有益,而对那些拥有落魄艺术家朋友的人则不然。

当看到在网页、脸书或gmail上推送的广告时,我们开始想象它们出现的原因——是广告公司利用我们的浏览记录或在邮件中提到的关键词,或是谷歌中搜索的历史记录,指向我们可能感兴趣购买的物品?我们并不会意识到这些植入广告之所以存在,是因为我们居住在一个特定的小区,或是混迹于某些固定领域的朋友圈所致。

当然,我们更加不会相信,这些广告的存在是源于计算机程式将我们归于一个阶层,一个特定种族或宗教团体。

凯西·尼尔在书中写道:“推送广告的背后是商家对用户私人信息的深度挖掘,去触碰个人最脆弱的地方,也就是人们常说的‘痛点’,从而去迎合他们的需求。”

不仅是脸书,亚马逊、亿客行(Expedia)等网站也在采用类似的策略。它们通过用户注册的个人信息,包括居住地、收入水平,以及购买历史,推送不同的折扣信息。这些动态价格体系的发展已经在这几年中逐渐成熟。一位英国经销商甚至在测试一款电子标价软件,网站上的产品价格将随不同手机用户的背景而有所不同。脸书只是收集每个用户98个数据点,而数据公司例如安客诚(Acxiom),则收集并拥有每个用户1500个数据点,并且所有这些数据都可以出售给有需求的客户。

我们拿所有自由换取生活便利

我们将自己的信息一点一点奉送给他人,不曾想过数据经纪人会将它们收集起来并出售给对付我们的人。现在社会上还有一种非正规的私人DNA数据库,用户为了寻找先祖的足迹而将个人DNA样本提供给基因工程网站,这些信息同时在没有法院准许或任何警告的情况下被用作罪犯现场的DNA匹配。

电子前线基金会估计,这会导致更多人卷入与其无关的犯罪事件中。再举一个健身记录器的例子,例如Fitbit系列产品。

在2013联邦贸易委员会“架设健康与健身的桥梁”分会场上,科罗拉多大学法律教授斯科特·匹派(Scott Peppet)说:“我可以根据你的Fitbit数据勾勒出一个完整的你,这些数据的质量非常高,我可以将它们用来制定你的个人保险金计划,还可以精确估计出你的信用额度。”

类似的数据收集也会发生在网上随机问答中,例如手写字与性格小测试,等等。其中暴露的不仅仅是字迹,往往还有参与者姓名和一些其他有价值的信息。

同时,每当用UBER叫车,或者查找谷歌地图时,你也在向一些人泄露你的行踪——警察当然是其中之一,网络骇客或是其他犯罪团伙也有可能,更有可能的则是那些有商业企图的公司。也许有些人认为简单的公开个人信息相较于他们换来的好处而言微不足道,但这才正是真正的商业目的所在。

马克·扎克伯格说,隐私早已不再是一种社会规范,何时起它也不再是一种政治常态了呢?何时起我们所谓的个人优先于国家、公民自由、有限政府已悄然不在?不要天真地认为政府不会对私人购买习惯,或昨天下午四点我们的行踪,或我们有哪些朋友感兴趣。

安全部门、警察局都公开向数据经纪公司购买数据,因为它便宜、多层面、强大、稳定、健全,而且不受政策限制。曾几何时,我们了解到,雅虎代表美国政府监控所有的接收邮件。还有一款警用软件Geofeedia,结合几十个社交网站三方监控个人网络信息和活动,可随时关闭个人权限设置。当然还有硅谷数据分析公司Palantir,由中央情报局设立,NSA、CIA、FBI都在使用它,大量警备力量、美国运通,还有成百个合作方、情报部门、金融机构都牵涉其中。它的程序系统可以从庞大的数据中,包括交通摄像头、网上购物、社交媒体、亲友关系、邮件交换等,快速作出针对个人的分析判断。

不要再幼稚了,商业监视和政府监视之间的防火墙并不存在。我们当中很多人都考虑过政府对数据的掌控,特别是在斯诺登事件后。但消费主义冲动下的个人信息泄露同样威胁到了我们的个人权利以及我们的集体福利。事实上,我们自认为不需要任何代价的获取,其实是牺牲了98%的自由而换来的。(文章仅代表作者观点,不代表本报立场。本文原载于社科报总1547期,图片来自网络)