大数据万岁？请三思！

责任编辑：editor005 |来源：企业网D1Net 2014-11-27 13:36:39 本文摘自：Think

大数据

「大数据」是当今最流行的用语，也是科技界对世上各种棘手难题的万用解答，意指藉由分析庞大资讯后，归纳出模式、精辟见解，并预测复杂问题的答案，听来或许有些无趣，但无论是阻止恐怖份子、终结贫穷、拯救地球，大数据支持者都深信可迎刃而解。

在《Big Data: A Revolution That Will Transform How We Live, Work, and Think》一书中，两位作者写道，「对于气候变迁、根除疾病、促进良好治理与经济发展等全球迫切问题，大数据均可提供部分答案，为社会提供众多好处」。

只要握有足够数据，例如iPhone内部资料、杂货店购物内容、网路交友档案、全国匿名医疗纪录，电脑运算即可拆解这些塬始资料，从中挖掘出无数见解。美国欧巴马政府亦倾力投入，于5月9日「首开先例」，公开「过往无法取用或管理的资料」，供企业家、研究人员及大众使用。

欧巴马总统表示，「我们希望促成更多民间创新与发现，因此史上首次释出大量美国资料，开放人们轻松取用，优秀企业家也已开发出众多用途」。

可是大数据的威力是否名实相符?在庞大电脑数据里，是否真能揭露人类行为的秘密?《外交政策》杂志邀请麻省理工学院「公民媒体中心」成员Kate Crawford，说明数字背后的真相。-编按

「只要资料足够，数字自会说话。」

不可能。大数据支持者希望我们相信，在程式码字里行间与巨大资料库内，必有客观及通用的见解，能解释人类行为模式，包括消费情况、犯罪或恐怖主义行动、健康习惯、员工产能等，但他们却总不愿正视缺点。数字不会说话，资料不论规模大小，仍受人类设计限制，Apache Hadoop软体架构等大数据工具亦无法排除偏斜、落差与假设错误。当大数据试图归纳社会状态，这些因素影响格外显着，但我们却常误以为分析结果比个人意见更客观。其实大数据、个人观感及体验皆然，充满偏见及盲点，可是许多人却以为资料量越大就代表品质越好的资料，也以为「相关」与「因果」一样好。

例如社群媒体常成为大数据分析主题，其中也确实充斥大量资讯，据称从Twitter资料里可见，人们离家愈远愈开心，且情绪在每周四晚上最低落。可是我们必须懂得质疑资料背后真正的涵义，例如「皮犹研究中心」指出，美国只有16%的成年网路用户使用Twitter，亦无法如实代表社会结构，通常年纪较轻、较集中于都会区。此外，许多Twitter帐号均为自动机器人或假档案，近期估计总数可能高达2000万，因此讨论如何从Twitter分析舆论之前，得先厘清这些反应究竟来自真人或电脑演算式。

纵然各位相信绝大多数Twitter用户均为真人，偏见依然存在，例如为分析2013年澳洲网球公开赛中，人们在社群媒体对哪些选手「看法最佳」，IBM透过「社会观感指数」，大量分析Twitter讯息，结果由Victoria Azarenka夺冠，但许多讯息提到她时，都在批评她滥用伤停时间，如此看来，很难相信IBM的演算式确能反映现实。

即便排除不良资料问题，演算式本身亦有偏见，新闻汇整网站取用你我的个人偏好与浏览纪录，编排出用户感兴趣的最新消息，其中假设频率与重要性呈正比，或个人社群最常分享的资讯，也必定与你兴趣相符。演算式过滤庞大资料时，也订定呈现世界的塬则，一般用户不会感受到这些规则，可是大大左右民众观点。

不少资讯工程专家正在努力解除疑虑，Ed Felten为普林斯顿大学教授，曾为美国联邦贸易委员会首席科技专家，最近发起一项计画，测验各项演算式的偏见，尤其是美国政府也运用演算式评估个人，例如联邦调查局与运输安全局即汇整多项官方大数据，列出航空旅客黑名单，做为飞安制度之用。

「大数据可提高城市智慧及效能。」

仍有上限。大数据可提供珍贵见解，协助改善城市，但也仅止于此，由于资料生成与收集过程并不均等，其中会出现「信号问题」，造成有些民众及社区遭到漠视或代表性不足，若以大数据处理城市规划问题，必须仰赖官员同时了解资料及其局限。

例如美国波士顿的Street Bump应用程式里，收集行经坑洞的驾驶人智慧型手机资料，能以低成本途径收集资讯，类似应用程式也与日俱增，可是城市若完全依赖智慧型手机用户提供资料，等于自动排除部分样本，某些社区内智慧型手机用户比例若较低，通常年龄层较高，经济条件也较弱势，因此遭到排挤。波士顿市政单位尽力想弥补潜在资料缺口，但假若官员对此警觉性较低，就可能忽略这项问题，导致资源分配不均，进一步扩大既有社会失衡现象。2012年Google的流感趋势预测中，就曾犯下相同错误，严重高估年度流感比例，证明若依赖有瑕疵的大数据，将大大影响公共服务与政策。

「开放政府」计画将公部门资料张贴于网路上，如Data.gov或美国白宫「开放政府计画」，也可能面临相同问题，资料增加未必可改善透明度、责信等政府功能，必须搭配公众参与机制，政府也得懂得如何诠释资料，再运用适当资料因应。这些条件都不简单，况且目前优秀的资料科学家也不足，各大学仍在赶紧划定学科领域、编写课程，希望能满足需求。

人权团体也希望运用大数据，了解各种冲突和危机，但资料与分析品质同样令人存疑，麦克阿瑟基金会最近核准17.5万美元的奖助金，由卡内基梅隆大学人权科学中心投入为期18个月的研究，分析大数据数据如何改变人权运动发展，例如开发「可信度测验」，以验证张贴于Crisis Mappers、Ushahidi、Facebook、YouTube等网站的人权侵害控诉真伪。该中心主任Jay D. Aronson指出，「包括学界及人权组织的消息来源，以及资料使用情况，都产生严重问题，有了这些新科技之后，对于通报者的人身安全是利或弊，许多时候仍不得而知」。

「大数据对各个社会族群一视同仁。」

未必如此。大数据号称客观，因为塬始资料似乎能排除社会偏见，故可减少歧视少数族群的机率，让大规模分析避免族群歧视，但大数据之所以存在，就是为了将个人划入族群之中，再解释各族群行为有何异同。例如近期一篇论文才提到，在大数据基因体研究内，科学家如何让个人立场左右研究方向。

如Alistair Croll所言，人们可能运用大数据制造价格歧视，引起众多公民权疑虑，在「个人化」名义下，大数据却可能用来针对特定社会族群，给予不一样的待遇，法律通常禁止企业与个人出现此种歧视行为。企业购买网路广告宣传信用卡时，可能依据家户所得或信贷纪录，挑选特定目标群众，导致他人完全无从得知该项优惠。Google甚至握有浮动设定内容价格的专利，例如你过往消费纪录若显示，可能花高价购买鞋子，下回在网路上打算买鞋时，搜寻结果也将倾向高价品。雇主如今也希望在人力资源方面运用大数据，完全透过分析电脑使用习惯，评估如何提高员工生产力，而员工可能对这些资料与用途毫不知情。

其他因素也可能产生歧视，例如《纽约时报》曾报导，量贩店Target多年前便已开始收集消费者分析数据，如今消费纪录相当庞大，在某些情况下，甚至可单纯根据消费品项歴史，判断该名女性顾客是否怀孕，可靠度甚至高达87%。尽管该公司代表在报导内强调，这些资料是用来改善对准妈妈的行销策略，可是这种手段很容易用于歧视，大大影响社会平等与隐私。

英国剑桥大学最近发表一项大数据研究，运用58000则Facebook网站的按赞纪录，预测用户相当敏感的个人资讯，例如性倾向、族裔、宗教与政治立场、个性、智商、幸福程度、菸毒习惯、父母婚姻状况、年龄、性别等，记者Tom Foremski指出，「取得如此敏感的资讯后，可能遭雇主、房东、政府机关、教育机构、民间组织利用，刻意歧视与惩罚个人，且对方完全无法抵抗」。

大数据也会影响执法，无论是华府或德拉瓦州的新堡郡，警方都开始采用大数据「预防巡逻」模型，希望有助调查悬案，甚至避免犯罪发生，可是若将警力集中在大数据判断出的潜在犯罪热点，却可能强化某些社会族群的污名，认为他们较可能犯案，也等于将区域警力落差视为常态。一名警官曾表示，虽然预防巡逻演算式刻意避免种族、性别等分类，但若随意使用这些系统，又未察觉差别待遇可能造成的后果，将会造成「警察与社区关系恶化，欠缺程序正义、遭指控种族歧视，也威胁执法基础」。

「大数据属匿名，不会侵犯隐私。」

大错特错。许多大数据供应者都尽其所能，希望避免个人身分曝光，但风险却仍存在，大量手机资料或许看似匿名，但近期研究欧洲150万手机用户资料显示，只要四点参考点，即可辨识95%的民众。研究人员提到，人们往来城市路径有其独特性，又能以大量公开资料组推论，让隐私「疑虑愈来愈强烈」。拜Alessandro Acquisti等学者之赐，只要交叉分析公开资料，即可预测个人社会安全码。

可是大数据的隐私问题，不只是一般身分辨识风险，目前医疗资料转售给分析公司后，可能用来追踪个人身分，许多人都在讨论个人化医学，希望药品及其他疗程能够针对个人需求，让治疗效果如同取自个人DNA。此举可改善疗效，但基本上得辨识人体分子和基因，假若使用不当或外流，可能造成高风险。尽管RunKeeper、Nike+等个人健康资料收集装置迅速增加，尚无太多大数据实际改善医疗服务的案例。

大数据能源计画亦收集各种私密资讯，智慧电力网即为一例，分析庞大消费者用电量资料后，希望改善住家与企业能源配送效能，虽然前景可期，隐私风险也很高，不仅可预测能源用量及需用时间，亦包括住户在家中动向及行为的时刻资讯，例如何时洗澡、客人何时离开、何时关灯睡觉。

这些充满个人资讯的大数据，自然成为骇客及泄露情报者下手的目标，「维基解密」为近期释出大数据的知名案例，此外，英国境外金融产业资料最近也大量曝光，显见人们不论贫富，个人资料都可能公诸于世。

「大数据是科学的未来。」

部分属实，但仍在持续发展。大数据确实提供科学发展的新方向，例如在发现希格斯玻子的过程中，欧洲核子研究组织CERN即运用Hadoop分散式档案系统管理资料，可是除非我们正视及处理大数据反映人类生活的缺陷，就可能依据错误假设做出重大公共政策及企业决定。

为处理此事，资料科学家开始与社会科学家合作，因为后者处理资料的经验相当丰富，包括评估来源、资料收集方式、使用伦理等，发掘结合大数据策略与少量资料研究的新方式，不只是需要焦点团体、A/B测试等广告行销策略。新混成方式能思考行为背后的成因，而不只是计算事物发生频率，故除了资讯检索与机器学习，也需要社会学分析及民族志学见解。

科技公司很早就明白，社会科学家能协助解释消费者与产品互动的方式，例如PARC就曾聘请知名人类学家Lucy Suchman，资讯工程、统计、社会科学等领域未来将更密切合作，不仅是为测试彼此研究所得，也要以更严谨的态度提出各种问题。

每天各方都收集关于你我的大量资料，包括Facebook点击习惯、卫星定位资料、医疗处方、Netflix影片观赏纪录等，我们必须尽早决定可托付资料的对象及用途。资料永远不可能中立，也很难匿名，但我们可运用各项专业领域，以察觉种种偏见、落差与假设，进而面对有关隐私及公平性的新挑战。

关键字：PARC 手机资料网球公开赛