大数据的常见五大误解

责任编辑：黄心怡 |来源：企业网D1Net 2013-05-28 10:37:10 原创文章企业网D1Net

《企业网D1Net》5月28日讯

“有足够的数据，结论不言自明。”

事实并非如此。大数据的发起者们希望让我们相信，计算机代码和数据库能洞察人类客观普遍的行为模式，不管是消费支出、犯罪或恐怖行为、健康的生活习惯，还是企业生产力。但许多大数据的推广者们忽视了大数据的弱点。数字不能自己开口说话，无论多大的数据集，仍然是由人设计的。大数据的工具，比如Apache的Hadoop软件框架，不能让我们完全避免错误或有差距的假设。当大数据试图反映我们生活的世界时，我们经常会误以为数据比人的意见更客观。但其实大数据中存在的偏见和盲点，与个人看法和经验中存在的一样多。同时，认为数据越多越好，也是有问题的。就像相关性不等同于因果性一样。

例如，社交媒体是一种非常流行的大数据分析来源，那里肯定有大量的信息等待挖掘。推特的数据告诉我们，人们远离家庭时更幸福，在周四晚上最悲伤。但我们很应该问问这个数据实际上反映了什么东西。首先，我们知道，在美国只有16％的成年网民使用Twitter，他们绝不是一个有代表性的样品。他们比一般人群更年轻，更为城市化。此外，许多Twitter账户是自动响应程序，它们被称为“机器人”、假账户、或“半机械人” ，是由机器人辅助控制的账户。最近的估计表明，可能有多达20万的假帐户。所以，当我们评估Twitter上的情绪时，需要先问问这些情绪是来自于人还是仅为自动的算法。

但即使你确信，绝大多数上Twitter的是真正有血有肉的人，仍然会存在偏颇。例如，要确定哪些球员在2013年澳网公开赛上是被社交媒体提到最多的。IBM使用Social Sentiment Index（社会情绪指数分析）对推特进行了大规模的分析。结果判定，阿扎伦卡位列第一。但许多人在推特上提到阿扎伦卡是因为有争议的超时伤停。因此人们是喜欢她还是讨厌她？IBM的分析算法很难得到正确的答案。

一旦我们理解了数据的偏颇，我们还可以思考让其产生偏见的原因。一些新闻聚合类的网站对此也感到棘手，它们需要研究读者的个人喜好，找寻最新受欢迎的话题。如何判别呢？是假设提到的频率多少等同于重要性，还是认为社交网站上最受欢迎的故事也对必然能吸引读者？由于算法过滤了大量数据，它将决定世界是如何呈现的，普通用户将永远不会意识到它，但它将有力地塑造他们的看法。

一些计算机科学家正在解决这些问题。埃德费尔顿是普林斯顿大学教授，也是前美国联邦贸易委员会的首席技术专家，他最近宣布了一项计划来测试算法会产生的偏见，尤其是那些美国政府用来评估个人状态的。

“大数据将会使我们的城市更聪明，更高效。”

这只在一定程度上是。

大数据可以提供有价值的见解，以帮助改善我们的城市，但它能做的有限。因为并不是所有的数据都被同等地创建或收集，总有一些社区和居民被忽视。因此，将大数据用于城市规划在很大程度上依赖当地官员是否了解数据及其自身局限。

例如，波士顿的Street Bump应用可以收集遇到地面凹坑的司机的智能手机数据，以较低的成本收集信息。但是，如果城市开始依赖只来自智能手机的数据，它就是一个经过选择的样本，那些非智能手机用户的数据就会减少，他们通常是年长的和不太富裕的人群。虽然波士顿政府已经在努力解决这些潜在的数据鸿沟，但是不太认真的政府官员可能会非常漏掉他们，并最终导致错误的资源分配方式，进一步巩固现有的社会不平等现象。人们只需要看看2012年谷歌对流感趋势的失算就明白了，每年的流感发病率被明显高估，这就是错误的大数据可能会对公共服务和政策造成的影响。

这对于美国的“开放政府”计划也是一样。Data.gov和白宫的开放政府计划将公共部门的数据放上网。但是更多的数据不一定会改善政府的透明度和问责制，除非存在允许公众和机构之间接触的机制，更不用说提高政府解释数据和应对的能力。这些都不是容易的。事实上，目前熟练的数据科学家还很少。大学正在争先恐后地定义词汇，撰写课程，并满足需求。

人权团体也正在使用大数据来帮助理解冲突和危机。但同样也存在数据质量和分析的问题。麦克阿瑟基金会最近赞助卡内基梅隆大学中心175000美金，助其研究大数据分析如何改变人权，比如通过开发“可信度测试”工具来挑选侵犯人权的新闻，将其放在Facebook、YouTube等网站上。该中心的主任指出，有“学术和人权组织的数据来源和使用存在严重问题。在许多情况下，还不清楚涉事人员的安全是得到增强了还是被威胁了。

“大数据不区分社会团体。”

另一个大数据的承诺是所谓的客观性，减少对少数群体的歧视，因为原始数据在某种程度上没有社会偏见，在大众层面分析，避免群体歧视。然而，通常部署大数据正是为了这个目的——把个人按组别分类，因为它能区分不同群体的表现。例如，最近有一篇文章是关于科学家们如何运用自己的种族假设来塑造自己的大数据基因组学研究。

大数据若用于种族歧视将引发严重的人权问题，以” 个性化“的名义对不同的社会群体区别对待。而法律通常禁止企业或个人做这样明确的分类。企业可以有选择性地展示信用卡广告，针对那些家庭收入或者信贷历史最符合的人，而让别人完全不知道存在这个特定的信用卡。谷歌甚至有动态价格内容的专利，这意味着，如果您过去的购买历史表明，你更倾向于购买花大钱买鞋，那么你下次去网上店铺购物时，鞋类的起拍价可能会相当高。雇主现在正试图将大数据应用到人力资源，评估如何提高员工的工作效率，而这些都是通过分析他们的每一次点击。员工可能不知道有多少他们的数据正在被收集以及如何被使用。

歧视也可以对其他的人群细分。比如，纽约时报报道，Target公司多年前开始编制客户的分析档案，它现在有这么多的购买趋势的数据，可以根据一个女人的购物记录，预测她对于怀孕有87％的信心。Target公司的统计学家在文章中强调，这将有助于改善对准父母的营销，但这也可能会在社会平等和隐私方面导致严重的后果。

近日，剑桥大学研究了Facebook 58000个的“赞”来预测非常敏感的用户个人信息，比如性取向、种族、宗教和政治观点、人格特质、智慧、幸福、上瘾物质、父母婚姻状况、年龄和性别。根据记者Tom Foremski的观察研究：“雇主、业主、政府机构、教育机构和私人组织会很方便地得到高度敏感的信息，造成对个人的歧视和惩罚。而且有没有办法抗争它。“

最后，在执法方面，美国警方正在转向“预测警务”大数据模型，希望借此解决悬案，甚至帮助预防未来犯罪。但是，将警务活动专注于特定的大数据“热点”检测，这可能会造成一些社会群体的进一步污名化。尽管预测警务算法明确避免按照种族或性别分类，使用这种系统的实际上会导致警察和社会群体的关系恶化，会被认为缺乏程序正义，是对种族貌相的指责，从而威胁到警方的合法性。

“大数据是匿名的，所以它不会侵犯我们的隐私。”

虽然许多大数据供应商尽自己所能不对数据集标识个人信息，但是风险仍然很大。手机数据看上去是匿名的，但最近的一项针对150万欧洲手机用户的研究表明，只要四个独立的参考点就足以识别95％的人。简单地交叉分析公开的数据就能预知个人的社会安全号码。

但大数据的隐私问题远远不止这些。目前，卖给分析公司的医疗数据可能被用来跟踪您的身份。关于个性化医学有很多争议，个性化医学所希望实现的是药物等疗法将针对个人，根据个人独有的DNA医治一个人的身体。这是一个美妙的医学前景，但它从根本上依赖于对细胞和基因的识别水平，如果使用不当或泄露具有极高的风险。但是，尽管个人健康数据采集技术正在快速成长，利用大数据以提高卫生保健服务依然十分迫切。

大数据在能源上也正在发挥作用，比如智能电网。通过分析大量的能源消耗数据，能改善家庭和企业的能源分布效率。该项目有很大的前景，但也蕴含着巨大的隐私风险。它不仅可以预测我们需要多少能量以及我们什么时候需要，还能分分钟地知道我们在家中什么位置以及我们在做什么。这包括可以知道，我们什么时候洗澡，我们的晚餐客人什么时候离开，我们什么时候关灯睡觉。

当然，这种高度个人化的大数据是黑客或泄密者的首要目标。维基解密已经成为最近一个时期最重要的大数据发布中心。正如英国离岸金融业的大规模数据泄漏，其他人的个资料也一样容易受到攻击，而被公之于众。

“大数据是科学的未来。”

这句话是部分正确的，但大数据尚待成长。大数据提供了新的科学道路。除非我们认识并能解决一些大数据在反映人类生活上的固有弱点，我们可能会在作出重大公共政策和商业决策时，基于不正确的假设基础。

为了解决这个问题，数据科学家开始与社会科学家合作，社会科学家对数据纠正有丰富的经验：评估数据源、数据收集方法、使用伦理。随着时间的推移，这意味着寻找新的途径将大数据与小数据相结合。这远远超出了广告和营销领域，比如A / B测试（将两个版本的设计或结果显示给用户，看到哪些变量被证明更有效）。相反，新的混合方法可以释疑为什么人们做这件事，不仅仅是弄清事情发生的频率。这意味着社会学分析和深入的人性洞察力，以及信息检索和机器学习。

科技公司很早就认识到，社会科学家可以帮助他们更深入地了解人们如何以及为什么使用他们的产品，比如施乐公司的帕洛阿尔托研究中心聘请了人类学家露西萨奇曼。下一阶段将会是计算机科学家、统计学家和社会科学家之间的更丰富合作，不只是为了测试彼此的工作成果，还能探讨根本不同的类型的问题。

每日收集的大量信息，包括Facebook的点击、GPS数据、医疗处方信息和Netflix队列等。我们迟早必须确定可以信任的信息以及目的是什么。我们无法逃避的事实是数据从来都不是中性的，它很难匿名。但我们可以得出不同领域的专业知识，以更好地认识偏见、差距和假设，迎接保密性和公平性的新挑战。

关键字：大数据

热文