当前位置:大数据业界动态 → 正文

大数据万岁?请三思!

责任编辑:editor005 |来源:企业网D1Net  2014-11-27 13:36:39 本文摘自:Think

大数据
 

「大数据」是当今最流行的用语,也是科技界对世上各种棘手难题的万用解答,意指藉由分析庞大资讯后,归纳出模式、精辟见解,并预测复杂问题的答案,听来或许有些无趣,但无论是阻止恐怖份子、终结贫穷、拯救地球,大数据支持者都深信可迎刃而解。

在《Big Data: A Revolution That Will Transform How We Live, Work, and Think》一书中,两位作者写道,「对于气候变迁、根除疾病、促进良好治理与经济发展等全球迫切问题,大数据均可提供部分答案,为社会提供众多好处」。

只要握有足够数据,例如iPhone内部资料、杂货店购物内容、网路交友档案、全国匿名医疗纪录,电脑运算即可拆解这些塬始资料,从中挖掘出无数见解。美国欧巴马政府亦倾力投入,于5月9日「首开先例」,公开「过往无法取用或管理的资料」,供企业家、研究人员及大众使用。

欧巴马总统表示,「我们希望促成更多民间创新与发现,因此史上首次释出大量美国资料,开放人们轻松取用,优秀企业家也已开发出众多用途」。

可是大数据的威力是否名实相符?在庞大电脑数据里,是否真能揭露人类行为的秘密?《外交政策》杂志邀请麻省理工学院「公民媒体中心」成员Kate Crawford,说明数字背后的真相。-编按

「只要资料足够,数字自会说话。」

不可能。大数据支持者希望我们相信,在程式码字里行间与巨大资料库内,必有客观及通用的见解,能解释人类行为模式,包括消费情况、犯罪或恐怖主义行动、健康习惯、员工产能等,但他们却总不愿正视缺点。数字不会说话,资料不论规模大小,仍受人类设计限制,Apache Hadoop软体架构等大数据工具亦无法排除偏斜、落差与假设错误。当大数据试图归纳社会状态,这些因素影响格外显着,但我们却常误以为分析结果比个人意见更客观。其实大数据、个人观感及体验皆然,充满偏见及盲点,可是许多人却以为资料量越大就代表品质越好的资料,也以为「相关」与「因果」一样好。

例如社群媒体常成为大数据分析主题,其中也确实充斥大量资讯,据称从Twitter资料里可见,人们离家愈远愈开心,且情绪在每周四晚上最低落。可是我们必须懂得质疑资料背后真正的涵义,例如「皮犹研究中心」指出,美国只有16%的成年网路用户使用Twitter,亦无法如实代表社会结构,通常年纪较轻、较集中于都会区。此外,许多Twitter帐号均为自动机器人或假档案,近期估计总数可能高达2000万,因此讨论如何从Twitter分析舆论之前,得先厘清这些反应究竟来自真人或电脑演算式。

纵然各位相信绝大多数Twitter用户均为真人,偏见依然存在,例如为分析2013年澳洲网球公开赛中,人们在社群媒体对哪些选手「看法最佳」,IBM透过「社会观感指数」,大量分析Twitter讯息,结果由Victoria Azarenka夺冠,但许多讯息提到她时,都在批评她滥用伤停时间,如此看来,很难相信IBM的演算式确能反映现实。

即便排除不良资料问题,演算式本身亦有偏见,新闻汇整网站取用你我的个人偏好与浏览纪录,编排出用户感兴趣的最新消息,其中假设频率与重要性呈正比,或个人社群最常分享的资讯,也必定与你兴趣相符。演算式过滤庞大资料时,也订定呈现世界的塬则,一般用户不会感受到这些规则,可是大大左右民众观点。

不少资讯工程专家正在努力解除疑虑,Ed Felten为普林斯顿大学教授,曾为美国联邦贸易委员会首席科技专家,最近发起一项计画,测验各项演算式的偏见,尤其是美国政府也运用演算式评估个人,例如联邦调查局与运输安全局即汇整多项官方大数据,列出航空旅客黑名单,做为飞安制度之用。

「大数据可提高城市智慧及效能。」

仍有上限。大数据可提供珍贵见解,协助改善城市,但也仅止于此,由于资料生成与收集过程并不均等,其中会出现「信号问题」,造成有些民众及社区遭到漠视或代表性不足,若以大数据处理城市规划问题,必须仰赖官员同时了解资料及其局限。

例如美国波士顿的Street Bump应用程式里,收集行经坑洞的驾驶人智慧型手机资料,能以低成本途径收集资讯,类似应用程式也与日俱增,可是城市若完全依赖智慧型手机用户提供资料,等于自动排除部分样本,某些社区内智慧型手机用户比例若较低,通常年龄层较高,经济条件也较弱势,因此遭到排挤。波士顿市政单位尽力想弥补潜在资料缺口,但假若官员对此警觉性较低,就可能忽略这项问题,导致资源分配不均,进一步扩大既有社会失衡现象。2012年Google的流感趋势预测中,就曾犯下相同错误,严重高估年度流感比例,证明若依赖有瑕疵的大数据,将大大影响公共服务与政策。

「开放政府」计画将公部门资料张贴于网路上,如Data.gov或美国白宫「开放政府计画」,也可能面临相同问题,资料增加未必可改善透明度、责信等政府功能,必须搭配公众参与机制,政府也得懂得如何诠释资料,再运用适当资料因应。这些条件都不简单,况且目前优秀的资料科学家也不足,各大学仍在赶紧划定学科领域、编写课程,希望能满足需求。

人权团体也希望运用大数据,了解各种冲突和危机,但资料与分析品质同样令人存疑,麦克阿瑟基金会最近核准17.5万美元的奖助金,由卡内基梅隆大学人权科学中心投入为期18个月的研究,分析大数据数据如何改变人权运动发展,例如开发「可信度测验」,以验证张贴于Crisis Mappers、Ushahidi、Facebook、YouTube等网站的人权侵害控诉真伪。该中心主任Jay D. Aronson指出,「包括学界及人权组织的消息来源,以及资料使用情况,都产生严重问题,有了这些新科技之后,对于通报者的人身安全是利或弊,许多时候仍不得而知」。

「大数据对各个社会族群一视同仁。」

未必如此。大数据号称客观,因为塬始资料似乎能排除社会偏见,故可减少歧视少数族群的机率,让大规模分析避免族群歧视,但大数据之所以存在,就是为了将个人划入族群之中,再解释各族群行为有何异同。例如近期一篇论文才提到,在大数据基因体研究内,科学家如何让个人立场左右研究方向。

如Alistair Croll所言,人们可能运用大数据制造价格歧视,引起众多公民权疑虑,在「个人化」名义下,大数据却可能用来针对特定社会族群,给予不一样的待遇,法律通常禁止企业与个人出现此种歧视行为。企业购买网路广告宣传信用卡时,可能依据家户所得或信贷纪录,挑选特定目标群众,导致他人完全无从得知该项优惠。Google甚至握有浮动设定内容价格的专利,例如你过往消费纪录若显示,可能花高价购买鞋子,下回在网路上打算买鞋时,搜寻结果也将倾向高价品。雇主如今也希望在人力资源方面运用大数据,完全透过分析电脑使用习惯,评估如何提高员工生产力,而员工可能对这些资料与用途毫不知情。

其他因素也可能产生歧视,例如《纽约时报》曾报导,量贩店Target多年前便已开始收集消费者分析数据,如今消费纪录相当庞大,在某些情况下,甚至可单纯根据消费品项歴史,判断该名女性顾客是否怀孕,可靠度甚至高达87%。尽管该公司代表在报导内强调,这些资料是用来改善对准妈妈的行销策略,可是这种手段很容易用于歧视,大大影响社会平等与隐私。

英国剑桥大学最近发表一项大数据研究,运用58000则Facebook网站的按赞纪录,预测用户相当敏感的个人资讯,例如性倾向、族裔、宗教与政治立场、个性、智商、幸福程度、菸毒习惯、父母婚姻状况、年龄、性别等,记者Tom Foremski指出,「取得如此敏感的资讯后,可能遭雇主、房东、政府机关、教育机构、民间组织利用,刻意歧视与惩罚个人,且对方完全无法抵抗」。

大数据也会影响执法,无论是华府或德拉瓦州的新堡郡,警方都开始采用大数据「预防巡逻」模型,希望有助调查悬案,甚至避免犯罪发生,可是若将警力集中在大数据判断出的潜在犯罪热点,却可能强化某些社会族群的污名,认为他们较可能犯案,也等于将区域警力落差视为常态。一名警官曾表示,虽然预防巡逻演算式刻意避免种族、性别等分类,但若随意使用这些系统,又未察觉差别待遇可能造成的后果,将会造成「警察与社区关系恶化,欠缺程序正义、遭指控种族歧视,也威胁执法基础」。

「大数据属匿名,不会侵犯隐私。」

大错特错。许多大数据供应者都尽其所能,希望避免个人身分曝光,但风险却仍存在,大量手机资料或许看似匿名,但近期研究欧洲150万手机用户资料显示,只要四点参考点,即可辨识95%的民众。研究人员提到,人们往来城市路径有其独特性,又能以大量公开资料组推论,让隐私「疑虑愈来愈强烈」。拜Alessandro Acquisti等学者之赐,只要交叉分析公开资料,即可预测个人社会安全码。

可是大数据的隐私问题,不只是一般身分辨识风险,目前医疗资料转售给分析公司后,可能用来追踪个人身分,许多人都在讨论个人化医学,希望药品及其他疗程能够针对个人需求,让治疗效果如同取自个人DNA。此举可改善疗效,但基本上得辨识人体分子和基因,假若使用不当或外流,可能造成高风险。尽管RunKeeper、Nike+等个人健康资料收集装置迅速增加,尚无太多大数据实际改善医疗服务的案例。

大数据能源计画亦收集各种私密资讯,智慧电力网即为一例,分析庞大消费者用电量资料后,希望改善住家与企业能源配送效能,虽然前景可期,隐私风险也很高,不仅可预测能源用量及需用时间,亦包括住户在家中动向及行为的时刻资讯,例如何时洗澡、客人何时离开、何时关灯睡觉。

这些充满个人资讯的大数据,自然成为骇客及泄露情报者下手的目标,「维基解密」为近期释出大数据的知名案例,此外,英国境外金融产业资料最近也大量曝光,显见人们不论贫富,个人资料都可能公诸于世。

「大数据是科学的未来。」

部分属实,但仍在持续发展。大数据确实提供科学发展的新方向,例如在发现希格斯玻子的过程中,欧洲核子研究组织CERN即运用Hadoop分散式档案系统管理资料,可是除非我们正视及处理大数据反映人类生活的缺陷,就可能依据错误假设做出重大公共政策及企业决定。

为处理此事,资料科学家开始与社会科学家合作,因为后者处理资料的经验相当丰富,包括评估来源、资料收集方式、使用伦理等,发掘结合大数据策略与少量资料研究的新方式,不只是需要焦点团体、A/B测试等广告行销策略。新混成方式能思考行为背后的成因,而不只是计算事物发生频率,故除了资讯检索与机器学习,也需要社会学分析及民族志学见解。

科技公司很早就明白,社会科学家能协助解释消费者与产品互动的方式,例如PARC就曾聘请知名人类学家Lucy Suchman,资讯工程、统计、社会科学等领域未来将更密切合作,不仅是为测试彼此研究所得,也要以更严谨的态度提出各种问题。

每天各方都收集关于你我的大量资料,包括Facebook点击习惯、卫星定位资料、医疗处方、Netflix影片观赏纪录等,我们必须尽早决定可托付资料的对象及用途。资料永远不可能中立,也很难匿名,但我们可运用各项专业领域,以察觉种种偏见、落差与假设,进而面对有关隐私及公平性的新挑战。

关键字:PARC手机资料网球公开赛

本文摘自:Think

x 大数据万岁?请三思! 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

大数据万岁?请三思!

责任编辑:editor005 |来源:企业网D1Net  2014-11-27 13:36:39 本文摘自:Think

大数据
 

「大数据」是当今最流行的用语,也是科技界对世上各种棘手难题的万用解答,意指藉由分析庞大资讯后,归纳出模式、精辟见解,并预测复杂问题的答案,听来或许有些无趣,但无论是阻止恐怖份子、终结贫穷、拯救地球,大数据支持者都深信可迎刃而解。

在《Big Data: A Revolution That Will Transform How We Live, Work, and Think》一书中,两位作者写道,「对于气候变迁、根除疾病、促进良好治理与经济发展等全球迫切问题,大数据均可提供部分答案,为社会提供众多好处」。

只要握有足够数据,例如iPhone内部资料、杂货店购物内容、网路交友档案、全国匿名医疗纪录,电脑运算即可拆解这些塬始资料,从中挖掘出无数见解。美国欧巴马政府亦倾力投入,于5月9日「首开先例」,公开「过往无法取用或管理的资料」,供企业家、研究人员及大众使用。

欧巴马总统表示,「我们希望促成更多民间创新与发现,因此史上首次释出大量美国资料,开放人们轻松取用,优秀企业家也已开发出众多用途」。

可是大数据的威力是否名实相符?在庞大电脑数据里,是否真能揭露人类行为的秘密?《外交政策》杂志邀请麻省理工学院「公民媒体中心」成员Kate Crawford,说明数字背后的真相。-编按

「只要资料足够,数字自会说话。」

不可能。大数据支持者希望我们相信,在程式码字里行间与巨大资料库内,必有客观及通用的见解,能解释人类行为模式,包括消费情况、犯罪或恐怖主义行动、健康习惯、员工产能等,但他们却总不愿正视缺点。数字不会说话,资料不论规模大小,仍受人类设计限制,Apache Hadoop软体架构等大数据工具亦无法排除偏斜、落差与假设错误。当大数据试图归纳社会状态,这些因素影响格外显着,但我们却常误以为分析结果比个人意见更客观。其实大数据、个人观感及体验皆然,充满偏见及盲点,可是许多人却以为资料量越大就代表品质越好的资料,也以为「相关」与「因果」一样好。

例如社群媒体常成为大数据分析主题,其中也确实充斥大量资讯,据称从Twitter资料里可见,人们离家愈远愈开心,且情绪在每周四晚上最低落。可是我们必须懂得质疑资料背后真正的涵义,例如「皮犹研究中心」指出,美国只有16%的成年网路用户使用Twitter,亦无法如实代表社会结构,通常年纪较轻、较集中于都会区。此外,许多Twitter帐号均为自动机器人或假档案,近期估计总数可能高达2000万,因此讨论如何从Twitter分析舆论之前,得先厘清这些反应究竟来自真人或电脑演算式。

纵然各位相信绝大多数Twitter用户均为真人,偏见依然存在,例如为分析2013年澳洲网球公开赛中,人们在社群媒体对哪些选手「看法最佳」,IBM透过「社会观感指数」,大量分析Twitter讯息,结果由Victoria Azarenka夺冠,但许多讯息提到她时,都在批评她滥用伤停时间,如此看来,很难相信IBM的演算式确能反映现实。

即便排除不良资料问题,演算式本身亦有偏见,新闻汇整网站取用你我的个人偏好与浏览纪录,编排出用户感兴趣的最新消息,其中假设频率与重要性呈正比,或个人社群最常分享的资讯,也必定与你兴趣相符。演算式过滤庞大资料时,也订定呈现世界的塬则,一般用户不会感受到这些规则,可是大大左右民众观点。

不少资讯工程专家正在努力解除疑虑,Ed Felten为普林斯顿大学教授,曾为美国联邦贸易委员会首席科技专家,最近发起一项计画,测验各项演算式的偏见,尤其是美国政府也运用演算式评估个人,例如联邦调查局与运输安全局即汇整多项官方大数据,列出航空旅客黑名单,做为飞安制度之用。

「大数据可提高城市智慧及效能。」

仍有上限。大数据可提供珍贵见解,协助改善城市,但也仅止于此,由于资料生成与收集过程并不均等,其中会出现「信号问题」,造成有些民众及社区遭到漠视或代表性不足,若以大数据处理城市规划问题,必须仰赖官员同时了解资料及其局限。

例如美国波士顿的Street Bump应用程式里,收集行经坑洞的驾驶人智慧型手机资料,能以低成本途径收集资讯,类似应用程式也与日俱增,可是城市若完全依赖智慧型手机用户提供资料,等于自动排除部分样本,某些社区内智慧型手机用户比例若较低,通常年龄层较高,经济条件也较弱势,因此遭到排挤。波士顿市政单位尽力想弥补潜在资料缺口,但假若官员对此警觉性较低,就可能忽略这项问题,导致资源分配不均,进一步扩大既有社会失衡现象。2012年Google的流感趋势预测中,就曾犯下相同错误,严重高估年度流感比例,证明若依赖有瑕疵的大数据,将大大影响公共服务与政策。

「开放政府」计画将公部门资料张贴于网路上,如Data.gov或美国白宫「开放政府计画」,也可能面临相同问题,资料增加未必可改善透明度、责信等政府功能,必须搭配公众参与机制,政府也得懂得如何诠释资料,再运用适当资料因应。这些条件都不简单,况且目前优秀的资料科学家也不足,各大学仍在赶紧划定学科领域、编写课程,希望能满足需求。

人权团体也希望运用大数据,了解各种冲突和危机,但资料与分析品质同样令人存疑,麦克阿瑟基金会最近核准17.5万美元的奖助金,由卡内基梅隆大学人权科学中心投入为期18个月的研究,分析大数据数据如何改变人权运动发展,例如开发「可信度测验」,以验证张贴于Crisis Mappers、Ushahidi、Facebook、YouTube等网站的人权侵害控诉真伪。该中心主任Jay D. Aronson指出,「包括学界及人权组织的消息来源,以及资料使用情况,都产生严重问题,有了这些新科技之后,对于通报者的人身安全是利或弊,许多时候仍不得而知」。

「大数据对各个社会族群一视同仁。」

未必如此。大数据号称客观,因为塬始资料似乎能排除社会偏见,故可减少歧视少数族群的机率,让大规模分析避免族群歧视,但大数据之所以存在,就是为了将个人划入族群之中,再解释各族群行为有何异同。例如近期一篇论文才提到,在大数据基因体研究内,科学家如何让个人立场左右研究方向。

如Alistair Croll所言,人们可能运用大数据制造价格歧视,引起众多公民权疑虑,在「个人化」名义下,大数据却可能用来针对特定社会族群,给予不一样的待遇,法律通常禁止企业与个人出现此种歧视行为。企业购买网路广告宣传信用卡时,可能依据家户所得或信贷纪录,挑选特定目标群众,导致他人完全无从得知该项优惠。Google甚至握有浮动设定内容价格的专利,例如你过往消费纪录若显示,可能花高价购买鞋子,下回在网路上打算买鞋时,搜寻结果也将倾向高价品。雇主如今也希望在人力资源方面运用大数据,完全透过分析电脑使用习惯,评估如何提高员工生产力,而员工可能对这些资料与用途毫不知情。

其他因素也可能产生歧视,例如《纽约时报》曾报导,量贩店Target多年前便已开始收集消费者分析数据,如今消费纪录相当庞大,在某些情况下,甚至可单纯根据消费品项歴史,判断该名女性顾客是否怀孕,可靠度甚至高达87%。尽管该公司代表在报导内强调,这些资料是用来改善对准妈妈的行销策略,可是这种手段很容易用于歧视,大大影响社会平等与隐私。

英国剑桥大学最近发表一项大数据研究,运用58000则Facebook网站的按赞纪录,预测用户相当敏感的个人资讯,例如性倾向、族裔、宗教与政治立场、个性、智商、幸福程度、菸毒习惯、父母婚姻状况、年龄、性别等,记者Tom Foremski指出,「取得如此敏感的资讯后,可能遭雇主、房东、政府机关、教育机构、民间组织利用,刻意歧视与惩罚个人,且对方完全无法抵抗」。

大数据也会影响执法,无论是华府或德拉瓦州的新堡郡,警方都开始采用大数据「预防巡逻」模型,希望有助调查悬案,甚至避免犯罪发生,可是若将警力集中在大数据判断出的潜在犯罪热点,却可能强化某些社会族群的污名,认为他们较可能犯案,也等于将区域警力落差视为常态。一名警官曾表示,虽然预防巡逻演算式刻意避免种族、性别等分类,但若随意使用这些系统,又未察觉差别待遇可能造成的后果,将会造成「警察与社区关系恶化,欠缺程序正义、遭指控种族歧视,也威胁执法基础」。

「大数据属匿名,不会侵犯隐私。」

大错特错。许多大数据供应者都尽其所能,希望避免个人身分曝光,但风险却仍存在,大量手机资料或许看似匿名,但近期研究欧洲150万手机用户资料显示,只要四点参考点,即可辨识95%的民众。研究人员提到,人们往来城市路径有其独特性,又能以大量公开资料组推论,让隐私「疑虑愈来愈强烈」。拜Alessandro Acquisti等学者之赐,只要交叉分析公开资料,即可预测个人社会安全码。

可是大数据的隐私问题,不只是一般身分辨识风险,目前医疗资料转售给分析公司后,可能用来追踪个人身分,许多人都在讨论个人化医学,希望药品及其他疗程能够针对个人需求,让治疗效果如同取自个人DNA。此举可改善疗效,但基本上得辨识人体分子和基因,假若使用不当或外流,可能造成高风险。尽管RunKeeper、Nike+等个人健康资料收集装置迅速增加,尚无太多大数据实际改善医疗服务的案例。

大数据能源计画亦收集各种私密资讯,智慧电力网即为一例,分析庞大消费者用电量资料后,希望改善住家与企业能源配送效能,虽然前景可期,隐私风险也很高,不仅可预测能源用量及需用时间,亦包括住户在家中动向及行为的时刻资讯,例如何时洗澡、客人何时离开、何时关灯睡觉。

这些充满个人资讯的大数据,自然成为骇客及泄露情报者下手的目标,「维基解密」为近期释出大数据的知名案例,此外,英国境外金融产业资料最近也大量曝光,显见人们不论贫富,个人资料都可能公诸于世。

「大数据是科学的未来。」

部分属实,但仍在持续发展。大数据确实提供科学发展的新方向,例如在发现希格斯玻子的过程中,欧洲核子研究组织CERN即运用Hadoop分散式档案系统管理资料,可是除非我们正视及处理大数据反映人类生活的缺陷,就可能依据错误假设做出重大公共政策及企业决定。

为处理此事,资料科学家开始与社会科学家合作,因为后者处理资料的经验相当丰富,包括评估来源、资料收集方式、使用伦理等,发掘结合大数据策略与少量资料研究的新方式,不只是需要焦点团体、A/B测试等广告行销策略。新混成方式能思考行为背后的成因,而不只是计算事物发生频率,故除了资讯检索与机器学习,也需要社会学分析及民族志学见解。

科技公司很早就明白,社会科学家能协助解释消费者与产品互动的方式,例如PARC就曾聘请知名人类学家Lucy Suchman,资讯工程、统计、社会科学等领域未来将更密切合作,不仅是为测试彼此研究所得,也要以更严谨的态度提出各种问题。

每天各方都收集关于你我的大量资料,包括Facebook点击习惯、卫星定位资料、医疗处方、Netflix影片观赏纪录等,我们必须尽早决定可托付资料的对象及用途。资料永远不可能中立,也很难匿名,但我们可运用各项专业领域,以察觉种种偏见、落差与假设,进而面对有关隐私及公平性的新挑战。

关键字:PARC手机资料网球公开赛

本文摘自:Think

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^