当前位置:大数据业界动态 → 正文

大数据热的冷思考

责任编辑:editor004 作者:匡文波 黄琦翔 |来源:企业网D1Net  2016-12-29 10:28:19 本文摘自:《国际新闻界》

古希腊哲学家毕达哥拉斯曾经提出“数是万物的本源”的思想,认为世界万物归根结底都是由某种数量关系决定的。在历史上,人类量化世界的野心和尝试从未停止,而科技的进步则不断为这一目标提供越来越快捷的技术条件。2012年,技术词汇“大数据”进入人们的视野,不同于传统意义上“数据=数字”的是,在互联网、物联网高速发展的今天,网购经历、视频节目、微信语音都是数据。大数据技术量化一切的优势,使其在几年内成为每一个行业不可或缺的生产力,拥抱大数据时代到来的言论甚嚣尘上。大数据时代,也意味着信息大爆炸时代的到来,是信息大传播的时代。在传媒业,与其他传播技术相似,大数据的出现促进了整个行业的发展与变革。新闻从业人员通过数据采集与挖掘获得了大量新闻素材,这不仅是人类认知世界的新角度与新方式,而且变革了新闻生产的全流程,“数据新闻”被视为新闻业未来发展的一大趋势。智能化时代,能在分秒间生成新闻产品的“机器人记者”诞生了,受到了广泛关注。同时,基于大数据的个性化推荐服务,不仅实现了新闻信息的精确定位,节省了用户搜索信息的时间,而且也重构了整个广告业格局,数据成为广告营销业实现精确定位消费者的重要依据。

然而,值得令人反思的是,在传媒业广为追捧大数据的今天,相关的管理规范、制度、法律却相对滞后,甚至缺失,由此带来了许多新的问题。从数据分析角度来看,理论上讲,大数据应当是有别于抽样调查得到的小数据,是全样本数据。然而,事实上大数据的采集与分析过程都难以穷尽所有数据。而且这些收集到的数据还存在着混乱、真假难辨、可利用度低等新问题,需要传媒业重新审视它们的价值。同时,通过数据追踪和收集,隐私问题成为大数据时代面临的最大问题和挑战。尽管以Cookie技术为基础的匿名化信息可能给用户的生活带来许多便利,如亚马逊网站根据用户个人喜好推荐相关书籍。但是多个实例证明,他人借助这些匿名数据同样可以追踪到用户本人,只要用户连网,便无真正隐私可言。新技术的诞生与发展也带来了许多令人担忧的社会影响,甚至可能威胁人类的安全与发展。大数据不是完美的,大数据是一把双刃剑。在促进行业快速发展的同时,也存在着种种隐患,亟待解决的问题非常多。因此,对传媒业大数据热进行审慎、理性的反思非常必要。

一、大数据无法取代传统的新闻传播科研方法

从简单的算数、度量,到如今的各种移动终端,数据向来是人类感知、认识以及表达世界的一种重要方式。在小数据时代,由于技术手段有限,人们只能采用抽样的调查方法对事物进行分析,并将局部的研究结果延伸至总体。传统的邮寄调查、电话调查、拦截面访等新闻传播学科的研究方法均是基于这个原理展开。然而每一种抽样方法都存在一定不足,难以反映总体样本的全貌,调查人员一般会增加抽样的数量,以提高统计的精确度,但这也意味着调查成本的增加。大数据技术轻而易举收集大量数据的能力,引发了人们对全样本、全数据的想象。大数据的确具有不可替代的优势,但就此认为一种新兴的技术将完全取代人类数千年积累下来的科学发展成果,这无疑走进了大数据自大的怪圈。随着大数据的不断发展,越来越多的实例证明,全数据分析具有不可替代优势的梦想在现实中并不容易实现,大数据只能对传统的新闻传播调研方法进行补充,却无法取而代之。大数据对传媒业的价值有待重新考量。

(一)全数据是“乌托邦”

在大数据浪潮势不可挡的今天,互联网应用推进了社会各个组织机构的信息化进程,物联网技术的发展得以让各种移动设备连接在一起,每一天都能轻易存储下令人惊叹的数据量,全球数据量平均每两年翻一番。因此,区别于传统的抽样调查方法,有人提出全数据模式,它指的是借助大数据技术,获取样本量等于调查总体的数据总量,并进一步进行研究分析的方法。但在现实中,全数据的实现遇到了许多问题,具有一定的理想性。

在我国,“信息孤岛”普遍存在。除了考虑安全因素以外,更多的是因为组织部门之间的利益驱使而导致的。目前,数据正在渗透各个行业,成为所有行业重要的战略资产和核心竞争力。在“互联网+”、“大数据+”概念的引导下,几乎所有行业都意识到数据资产的重要性。市场先进入者占据了大量数据资源,由于生怕日后被后进入者赶超,各个市场主体彼此之间不愿进行共享,形成数据割据的局面,甚至在同一个组织内的不同部门也是如此。不同领域、行业、部门为了在“孤岛”内更完整地捕捉用户的信息,重复收集数据,既增加了数据采集的成本,又因为不同部门分析标准的不统一导致了分析结论的南辕北辙,造成数据过剩而分析结果却不准确的问题。这个特征在科技公司领域尤为明显,例如:三大科技巨头公司BAT(百度、阿里、腾讯)之间经常发生互相屏蔽的事件:微信和淘宝之间进行相互屏蔽,用户的兴趣产品和购买记录等数据便无法跨平台进行共享。每个公司据此得出的用户信息图景都是不完整的,这与理想中的全数据模式有根本的背离。全数据应当具有数据量大且完整的优势,而“信息孤岛”带来的后果却是变相的大样本抽样调查,而且抽样的样本还不一定具有精确性和代表性,结果的准确性甚至不如传统的市场调查方法。除了科技领域以外,随着大数据应用逐渐渗透到非科技领域,其他传统行业、部门也纷纷设立数据壁垒,进一步阻止了全数据模式的实现。例如:政府部门之间的数据不流通,造成了公共服务领域和政府监管市场中协商与决策的不便与困扰。所有的这些信息壁垒,及其带来的相关数据分析问题,不仅成为本行业发展的阻碍,也同时使传媒业丧失了大量潜在的新闻源。

大数据浪潮虽已呈不可逆转之势,但就目前看来,全数据模式的确是技术发展衍生的一个“乌托邦”,因此,不能盲目地相信大数据的分析结果,对这些结果采取审慎的态度非常必要。促进数据的开放也是不断将“乌托邦”转化为现实的一个重要途径。开放性本是大数据时代的应有之义,也是全数据模式得以成立的重要前提。自2009年以来,美国奥巴马政府接二连三地签署、颁布了与开放数据相关的政策,这既提高了政府的执政效率,也为科技创新产业的发展添加源动力,数据的“二次利用”是一片更为广阔的蓝海。

(二)大数据处理过程中存在一定问题和风险

大数据意味着信息爆炸,数据繁杂、混乱,这既加大了数据处理与分析的难度,也增加了出现数据错误的可能性。在互联网领域,无价值数据远远多于有价值数据,这就需要分析人员对相关数据进行一系列的处理,主要包括数据采集、存储、清洗、分析、展现等若干步骤。由于其中许多环节都存在一定的问题和风险,因此数据分析的最终结果也受到了一定影响。

首先,数据采集环节存在多样混乱、可靠性差、系统性低等问题。大数据时代是一个信息过载的时代,人们从多个渠道、多种方式获取数据。在互联网中,每一秒钟产生的信息量都是令人咋舌的。每一天互联网产生800EB的数据量,需要1.68亿个DVD光盘才可容纳(蒋均牧,2012)。数据来源多元化导致许多依据不同标准收集的数据混杂在一起,而数据量极大又造成人工排查的困难。同时数据的可靠性也难以保证,真假信息鱼龙混杂,致使数据分析结果的不确定。虚拟空间的匿名性特点为谣言的传播提供了条件,网络空间中充斥着大量假消息,一些消息甚至是许多未经专业培训的人都难以分辨的,以这种数据出发而获得的分析结果也不具备真实性。互联网中相当一部分的信息、评论是由“水军”、“自动发帖机”等发出的,不仅真假难辨,这种数据也是无意义的。利益中的一方利用技术手段提升“好评度”,则难保另一方不会利用同样的手段增加“差评度”,数据统计便成为一种既无意义且耗成本的行为。另外,目前网络媒体充斥着大量非结构性及半结构化数据,比如图片、视频、音频等数据,系统性较低。传统的数据分析范式难以对其进行解释,新的数据分析范式仍然未有较为统一及有效的标准,数据分析更多的停留在平面,可利用价值较差,而更多的“数据宝藏”则深埋其中,未被发掘。

其次,数据存储面临能力薄弱、安全隐患等问题。许多学者习惯上认为,与传统数据相比,大数据具有以下四个鲜明的特点:规模性(Volume)、高速性(Velocity)、多样性(Variety)和价值稀疏性(Value),其中规模性是大数据区别于小数据的重要特征。海量的数据要求数据库存储能力的提升,而数据来源的丰富性、数据类型的多样性以及历史数据的再利用性又进一步对数据库的存储能力有了更高的要求。目前我国大数据的存储能力比较有限,许多传统的数据库仍然难以存储、整合如此庞大的信息量,数据库、数据仓库等领域的技术均落后于美国等国。在信息的大传播时代,有效的数据得不到储存,则数据处理过程中断,意味着无法进一步发掘数据的价值,也就丧失了数据的产能优势。在数据存储这一环节,还面临着安全隐患的问题。政府、金融、医疗等特定领域对数据信息的安全性有较高的要求,但目前由于整个行业正处于初始发展阶段,对此类数据的保护能力以及保护意识都比较弱,数据泄露事件时有发生,国家安全与用户隐私时刻面临风险。例如,2016年4月,土耳其国家数据库爆发重大数据泄露事件,约有5000万土耳其公民受到波及,占其国家总人口的7成左右。攻击土耳其国家数据库的黑客获得了这些土耳其公民的姓名、身份证号码、父母姓名、出生地址及年月日等隐私信息,并指出了该数据库的三大漏洞,这说明土耳其政府对国家数据库的保护及安全防范意识都是非常薄弱的。又如,2015年10月,国家互联网应急中心发布信息,网易邮箱的用户数据库遭到泄露,这导致许多用该邮箱进行支付宝注册或苹果ID注册的用户面临着用户密码被重置的风险。在数据存储环节,无论是技术公司,又或是从“大数据+”概念中衍生出来的其他行业,都不仅应在安全意识上有所防范,而且更应在技术上持续提升数据库的存储能力和安保能力。

最后,数据分析存在逻辑不统一、轻易归因、机械性等问题。尽管在过去的几十年间,科学技术的发展实现了对海量数据的收集、整合和储存,但大数据也不是万能的。其中,数据分析环节是整个大数据处理过程中受到争议最大的一个环节。首先,由于数据采集过程是不断进行的,但是大数据服务的主营业务的架构可能总是在变,收集数据的标准也可能随着时间总是在改变,这就容易在数据分析过程中出现前后逻辑不统一的问题。相比之下,传统的科研范式要严谨得多,历史数据和新数据的采集标准有何异同,一目了然。其次,采集的大数据是客观存在的,无法进行自我处理和分析,需要编写一定的算法,或者人脑直接对其进行进一步解释和分析。在这个过程中,人为主观性将可能导致事实客观性的偏颇,进而产生对新闻客观性的挑战。人们在翻译数据信息时存有偏见……记者群体容易滥用因果推理逻辑或相关性分析。记者群体的轻易归因,容易导致许多“假规律”的产生,反而让人难以发现事件背后的真正规律和问题。此外,大数据分析更多的不在于对事情因果关系的分析,而是对其相关性的体现,进而对未来发展趋势做出预测,并最终进行决策判断。比如:通过用户数据的反馈,程序化广告系统发现某用户近来多次浏览某一品牌厂商的广告,因此判断他有可能购买该产品,并进而对该用户进行更大力度的宣传。这种“人工智能”看似神奇,但也可能会导致许多机械性结果和决策的产生。在进行某项决策时,人类会综合多种因素,包括联系前后情景,感性、理性双重的作用等,最终形成判断,这是人脑如此发达的原因。然而,没有情感的机器却无法做到这一点,许多通过算法自动生成的预测和决策都具有一定的机械性。纽约大学的两位教授加里·马库斯(Gary Marcus)和欧尼斯特戴维斯(Ernest Davis)曾经指出,没有经过因果关系逻辑判别的相关关系很可能处处是陷阱(Marcus &Davis,2016)。比如:2006年至2011年之间,美国的谋杀率与微软自带浏览器Internet Explorer的市场份额成正相关关系:两者都呈现极速下滑的趋势,但是让人头疼的是,它们两者之间究竟存在怎样的因果关系呢?再比如:1998年至2007年之间,新诊断的孤独症患者人数与有机食物的销量呈非常良好的相关关系:两者都急剧上增,但是获得这样的相关关系并不会告诉我们,健康饮食与孤独症之间有什么必然关系。因此,在统计学中,这种没有因果关系支撑的假性相关关系被称为“相关不蕴含因果”(Correlation does not imply causation)。

(三)传统调研方法具有不可替代的价值

如今的数据科学家们认为,传统科研方法最明显的劣势在于对精确性的追求。在传统科研领域,为了提升一项调查的精确性,调查者通常需要增加样本,而这会耗费大量的成本。相比之下,大数据能让调查者在短期内获得庞大的数据量,这增加了调查的容错率,精确性便不再如此重要了。《大数据时代》一书的作者维克托·迈尔—舍恩伯格(Viktor Mayer-Schnberger)提到:“有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。”然而,事实真的如此吗?“谷歌流感趋势”一直被视为大数据应用的典范之一。2008年,谷歌推出一个名为“谷歌流感趋势”的系统,能够根据用户在谷歌上搜索流感的行为和数量预测美国不同地区的流感疫情。《自然》杂志记者德克兰·巴特勒(Butler,2013)撰文指出,该系统对2012年年底美国流感疫情患者数目的分析,大大高估了美国疾病控制与预防中心给出的实际数据的峰值水平。而且,这已经不是这个系统第一次出现预估错误了。虽然大数据带来的优势远远超过了它因为不精确而产生错误导致的代价,但数据错误带来的代价不容小觑。

大数据的处理过程中存在种种问题,一是由于这项技术尚未成熟,人才也不足够,可以发展和完善的空间仍然很大;二是由于人们过高地估计了大数据的作用,认为这项技术具有颠覆性意义,能够直接取代传统科研方法,从而走上了“大数据自大”的道路。传统科研方法经历了长时间的学术沉淀,具有较强的逻辑性、科学性和规范性,这是新诞生的大数据研究方法难以相比的。2014年,大卫·拉泽(David Lazer)等学者在《科学》杂志发表文章,报告谷歌流感趋势预测系统近年来的不佳表现,指出:“庞大的数据量不代表我们能够忽视研究中测量的基本问题、结构效度、可靠性以及数据之间的依赖关系”(Lazer,Kennedy,King &Vespignani,2014)。关于谷歌流感趋势系统在2012年年底出错的问题,包括拉泽(Lazer)、巴特勒(Butler)等学者指出,该系统之所以高估流感的峰值,是因为政府部门以及媒体对流感出现的预警及广泛报道。这种归因思路的运用,正是基于传统科研方法而来。此外,大数据应用还存在许多其他问题,需要依靠传统科研方法进行甄别。例如:虽然大数据可以极其全面、细致地描绘其所抓取数据的信息图景,但是这些数据——也即是样本,对总体而言是否具有代表性并不可知,数据所能反映的,仅仅是所有信息中的一部分。在瞬息万变的信息环境下,样本总体总是处于动态变化之中。拉泽(Lazer)提出了“算法动力学”的概念,认为如谷歌这样的搜索引擎不断更新的算法可能致使系统无法稳定的反映流感趋势。如果没有传统调研方法、思维和经验的基础,这些问题都不可能被提出。可见,大数据并不能完全替代传统调查研究方法。

在笔者看来,大数据应用与传统科研方法是否互为替代关系,这是一个伪命题。庞大的数据量是新兴的大数据技术赋予人类认知世界的又一手段:传统的抽样调查方法能帮助人们更全面、高效地了解样本总体的大致面貌,而作为对传统科研方法的补充,大数据能帮助人们放大其中某一部分信息的详细内容,更为细致地观察个体的所有情况。因此,对于某一项调查而言,数据量并非越大越好,而应视情况而定;相比庞大的数据量,数据质量更为重要。在保证数据质量的基础上,采用既规范又创新的分析方法能挖掘出数据本身的价值,帮助人们更好地认识世界——这才是大数据时代数据分析的核心所在。

值得注意的是,大数据是绝大多数媒体人的弱项。今年5月,笔者在北京做了一个针对媒体从业人员及高校新闻传播院系的教师,进行了500人规模的问卷调查,有效回收问卷353份。数据表明,高达85.55%的被访者只是知道大数据这个名词,只有7.08%的被访者知道大数据的概念和特征,1.98%的被访者知道大数据技术所涉及的软件;5.39%的被访者完全不知道大数据,包括不知道这个名词。究其原因:(1)与我国的新闻传播学教育有关,在我国几乎所有的高校的新闻传播院系,都是所谓的文科,开设的技术课程是十分有限。(2)中国的传统媒体从业人员,技术出身的人所占比例偏低,绝大多数是所谓的文科出身。

对于新闻传播学的研究者而言,存在同样的问题。逻辑性、科学性和规范性,这是新诞生的大数据研究方法难以相比的。

二、用户隐私安全成为最大的问题与挑战

在大数据时代,用户隐私安全面临巨大的挑战。一方面,大数据应用不仅为企业带来收益,而且也为用户带来好处。例如:程序化广告能够更好地实现广告主与目标用户的对接,既增加了广告的投放效果,也让用户更方便地找到所需要的产品。另一方面,数据的采集、存储、分析、交易和弃用环节都存在一定的风险,这让个人用户数据随时随地可能暴露于极不安全的网络空间之中,致使用户面临前所未有的隐私与安全威胁。这个问题的解决牵涉许多利益集团。宏观来看,需要权衡新经济的发展与个人隐私安全之间的关系;微观来看,这个问题需要依靠政府、立法机关、互联网行业、传媒行业等多个机构和行业共同解决,涉及面非常广。用户隐私安全成为大数据时代最大的问题与挑战。

(一)多数用户对数据收集不知情

2013年的“3·15”晚会,央视爆出高德地图、爱聊、公信卫士等软件窃取用户隐私信息,并且,多家互联网广告公司涉嫌借助Cookie等技术侵犯用户的个人隐私。一时间,技术词汇“Cookie”成为当时的热词。Cookie是每一个网站存储在用户浏览器中的小文本数据包,每当用户访问网站时,这些数据便会传送至该网站,帮助网站识别使用者的身份,以方便推送与使用者用户相关的信息。一些网站,如电子邮箱的个人可识别信息,也被包含在这个数据包中。对于普通人而言,日新月异的互联网技术一直都是相对复杂的技术,在媒体曝光之前,许多人甚至不知道Cookie及其他相关技术的存在,通常在不知情的情况下被各大互联网企业收集了数据。

“2912189271158★★★★★★★★★★,这是位于山东烟台的一个女性互联网用户“冰”的cookie代码……2月份,冰总共有42次点击百度上京东的广告,而且点击几乎都是在早上或晚上10到12点发生,1、2、3日她每天都到达“我的购物车”,但没有下单,2月4日她下了第一个订单1403983,8日16点下订单1515991,17点下订单1516321,10日0点下定单1554465。之后只是张望。”这个案例清晰的显示出Cookie代码记录用户行为信息的详细程度。

如今,互联网企业能通过包括Cookie、邮箱、账户、快递、定位等方法工具掌握个人用户的行为与爱好,用户只要在网络世界中有所行为,便会在不知不觉中暴露了自己的相关信息。虽然目前绝大部分数据收集技术都经过了匿名化处理,但是人们仍然有机会通过信息中的蛛丝马迹追溯到现实中具体的个人,更不必说网络上各种恶意程序和黑客对个人数据的蓄意收集。用户对数据收集行为知情权的缺失,致使维护用户隐私安全的第一道防线被攻破,所有与用户行为、喜好相关的数据因而流向各大企业的数据库,等待被进一步分析、处理或交易。

(二)多数用户没有对自身数据被处置说“不”的机会

伴随着大数据技术的兴起,数据成为所有行业和公司的重要资源,催生了大数据交易市场的出现和发展。如今,用户的数据都能得到永久保存,用户的数据甚至能够比用户的生命留存得更为长久。当用户的数据被企业数据库存储起来后,互联网企业将进一步最大化利用、处置这些用户数据,以达到为自身盈利的目的。不可否认,数据的“二次利用”是极具积极意义的,许多富含创意性的产业因而诞生。

但多数用户对自身数据的保存、分析、处理、交易、丢弃都不具有决定权。用户自身的数据流向何方,自己并不清楚。在用户个人承担隐私安全风险的时候,互联网企业却从一次次的交易和挖掘中创造了巨大的经济财富,用户却没有在这个过程中获取任何利益。首先,通过对所有用户数据的保存,互联网企业能了解这些用户的整体状况、发展态势和其他人口统计学的信息。其次,通过数据分析,互联网企业能重点关注目标用户的信息,并进一步进行跟踪或利用,从中挖掘价值。最后,为了实现企业数据库的扩大,许多互联网企业会通过交换、交易等方式获得更多的用户数据,用户的数据因此流向更多不同的数据库之中,这增加了用户数据被泄露的风险。总之,由于用户对自身数据没有处置知情权和决定权,相应地也就没有拒绝被处置的权利。

(三)用户数据泄露的风险无处不在

在大数据时代,网络用户的行为暴露在“第三只眼”底下,几乎没有任何隐私可言。在大数据应用为人们带来巨大的经济效益,方便人们日常生活的同时,它却是以用户承担数据泄漏风险为代价的,隐藏着“定时炸弹”一般的隐私安全问题。

首先,大数据时代存在存储风险,海量数据的急速传播和增长无疑为硬件存储和处理数据带来一定风险。而且,如果一个数据库的安防设置不强,便很有可能导致类似土耳其国家数据库泄漏事件的发生。其次,黑客和病毒的攻击,不仅可能影响用户的财产安全,更有可能在未来威胁生命。许多恶意程序伪装成杀毒软件进入用户电脑,扫描用户电脑中的程序,并佯装询问用户是否需要支付费用购买正版的杀毒软件。一旦用户点击确认,用户便会直接将钱财送入网络犯罪分子的口袋。第三,非法的、未经许可的商业利用和交易都会导致个人信息被犯罪分子掌握。2015年7月,中国香港地区高发电信诈骗案,涉款高达1.2亿港币,该案件的主要源头便是个人信息泄露。最后,许多用户对互联网隐私的自我保护力度不强,例如:过度暴露自身信息,设置的密码过于简单等,都会加大这个问题带来的风险。2014年年底,黑客瑞恩·科林斯(Ryan Collins)制造了震惊世界的好莱坞艳照门事件。起初,人们以为黑客是借助苹果iCloud的系统漏洞对iCloud用户进行攻击,调查后发现,真正的原因是这些好莱坞影星设置的密码过于简单易猜,导致了黑客对她们的账号发起定向攻击。而将过于私密的照片上传至云储存平台,本身也有一定的风险性。

大数据的发展态势已经不可逆转,用户在网络中的一言一行都将被记录,用户隐私安全将是一项长期而又重要的研究课题。为了信息不被泄露而停止使用网络,无疑是因噎废食的行为。国家和社会在鼓励大力发展大数据产业的同时,也不应将隐私安全的风险最后全部落在个人用户身上。如何权衡产业发展与用户隐私之间的关系,如何创新用户隐私保护的技术和机制,将是大数据产业可持续发展中不可回避的问题。

三、基于大数据技术的机器人容易产生“冰冷的”新闻

(一)“冰冷的”新闻

机器人写新闻的技术基础是大数据技术。

2015年年末,许多媒体机构传出机器人代替记者写稿的消息,例如:新华社迎来一位“机器人记者”——“快笔小新”,腾讯财经使用“Dreamwriter”写稿,能在第一时间运用算法生成新闻稿件,这些都让人感叹“记者即将下岗”。美国西北大学研发了新一代智能写作软件Narrative Science,宣称将新闻报道和大数据技术进行了一次新时代的结合,这款软件通过对给定主题的数据分析,能够自动地选择合适的写作角度,快速完成一篇具有标准新闻报道结构的文章。虽然在新闻报道中自动增加了一些形容词以提高可读性,但写出来的文章依然明显缺乏新闻温度,这是因为机器本身没有办法判断情绪,它们只是单纯地从数据库中抽取形容词,用法正确与否暂且不论,但与“手工打造”的饱含情感、责任和人文诸因素的新闻稿相比,从机器人手中传递出来的新闻虽然是新鲜的却是冰凉的。技术的进步加快了生产力的发展,“机器人写稿”虽好,但却缺少“温度”。虽然大数据看似解决了新闻客观性问题,但新闻的角度同样重要。新闻是“有温度”的,它嵌入记者的思考,倡导一种理念,体现人文关怀。然而,机器人“记者”却只能“冷冰冰”地将数据中反映的事实全盘托出,难以体现人文精神。而且,机器人难以做到归因、举证,无法引导人们对某一则新闻的深入思考。由于机器人是根据特定算法生成稿件的,没有加入记者的个性,千篇一律,长此以往,容易令人厌倦。

当前新闻写作软件只能生成特定类型的报道,且只能采用单一来源的数据,遵循这类报道常用的固定模式,大批量“生产”出有限类别的短新闻。具体的生产过程是机器人中固化的软件事先被设定了算法,通过软件整理数据事实,并与历史数据和其他背景信息相结合,再遣词造句呈现出描述性的新闻。机器人撰写报道就如同做完型填空题一样,只需要在设定好的语境中进行简单的填充即可。虽然现今这类写作软件变得更加“聪明”,算法更加先进,如将读者喜好的语气、角度甚至幽默融入一篇报道之中,以机器人报道篮球赛事为例,可能机器人会用同样的数据生成两个版本的新闻:一个版本为获胜球队的粉丝所写,充满欢天喜地的气氛;另一个版本则是为失败的球队准备的,读起来让粉丝沮丧低落。但无论如何,机器人无法理解两个球队所有粉丝的感受。读者并不是因为获胜就完全满足,可能球队通过比赛还是反映出存在的一些问题;而失败一方也不一定完全是失落的,因为他们也许看到了同强队交手中显示出来的球队进步。因此,机器人是无法同创造力旺盛、想象力丰富的人类作者相比拟的。

作为面向普罗大众的新闻媒体,要增强新闻宣传和舆论引导的吸引力、感染力、亲和力和影响力,就必须采制出有现场温度及人情温度的报道内容。评判一条新闻的质量好坏有多重标准,但真正能打动受众的往往是有温度的新闻。新闻的温度源于媒体人的社会责任感,源于媒体人对普通受众的感情积累。做新闻不能只站在媒体的角度来反映民众的生活,更重要的是在情感上实现与受众的相互交融。

(二)依赖大数据技术还容易使人缺失新闻敏感度

通过新闻敏感度,不但能够对新闻从业者的采写能力进行判定,同时也能对新闻价值进行判定。新闻实践是新闻从业者职业新鲜感、新闻写作创新感的体现,在新闻实践过程中,如新闻敏感度缺失,则直接降低了新闻价值。一个具备很强新闻敏感度的新闻从业者,可以从平凡的事件中发现有价值的新闻,从很小的细节中洞见真实和深度,从而挖掘出有价值的新闻;而新闻敏感度较弱的新闻从业者,则会存在漠视现象和反应迟钝问题,从而与有新闻价值的线索擦肩而过,错失好的新闻题材。

机器人将数据直接转化为文章,成本较为低廉,因此机器人可用以提供对不同读者的新闻定制服务。但是,基于大数据技术的机器人写新闻,存在新闻敏感度缺失的问题,机器毕竟是机器,尽管美联社表示机器人写作软件按照程序使用不同语气的能力越来越强,但新闻毕竟出自机器人之手,它不具备对新闻线索进行挖掘的观察能力,也不具备对新闻事件进行取舍的决断能力,而这两种能力是新闻敏感度的重要体现。

就机器人撰写新闻的过程而言,一些具有固定模式的行业性文章更符合它的本能,因为既不需炼字锻句,又不需深度分析。如果有一天记者真的被冷冰冰的机器人取代,新闻恐将沦为诸多报道模式的生硬“拼盘”。人们很难期望机器人会像人类一样,能够根据不同的采访对象,变换不同的采访语气与被访者进行观点和思维的交锋。我们在认可机器人存在技术上的优势之外,也承认机器人是无法同人类一样具有足够的应变能力和创造能力的。人类的思维至少在短时间内无法被机器人模仿,分析和观点性的报道需要消息来源、知识积累、逻辑思维等众多的能力在里面,在这些方面,机器人写手无法与记者一决高下。通过机器人撰写的稿件,会因为内容的生硬和重复而影响稿件的质量。“机器人记者”能写的文章种类有限,无法进行深度分析,更不会炼字锻句。

记者工作是一种复杂的、高级的脑力劳动。机器人也是人类发明的。机器人的构思再精巧,也无法替代人脑。机器人抢不走记者的饭碗。人们不能指望机器人在镜头前随机应变或深入背街小巷明察暗访。新闻作为一种文字和图像的艺术,字里行间与镜头之下,都包含着记者的判断、价值观与人文关怀。机器人写手虽有其技术优势,但却无法完全具备人的灵活性和创造力。机器人写手只是一种辅助形式,它可以节省时间,把记者从一堆基础数据和信息中解放出来。

四、大数据带来的社会忧虑

大数据技术变革了所有产业,不仅改变了我们的生活、生产等多个领域,而且改变了我们认知世界的方式。在这个过程中,不可否认,大数据的确带来了许多积极影响,这也是它能够成为时代焦点的原因之一。但是,不可忽视的是,正如“蝴蝶效应”一般,大数据技术的发展也衍生出一系列新的社会现象,如用户阅读行为的改变,人文精神的衰退,社会歧视和个人自由的丧失,引发了人们的思考、争议和担忧。大数据正处于初始发展阶段,若是对这些现象和影响不加以探讨和警惕,便有可能在未来对人类社会造成一定的伤害。

(一)用户阅读习惯的改变

在信息过剩的大数据时代,人们每日能够接触到海量的信息,加上移动设备的普及,让人们不再限于一个场景进行阅读,阅读习惯也随之改变。虽然如今手机用户能够24小时不断接收信息,但是也带来了一系列问题,主要体现在三个方面:浅阅读、碎片化阅读和同质化阅读。

首先,2015年4月,亚马逊发布“中国2015‘全民阅读’调查报告”,显示以社交媒体为主的浅阅读已经成为很多读者生活的重要组成部分(亚马逊中国,2015)。浅阅读,也就是快速浏览内容信息而不加深思,不求甚解,是大数据时代用户阅读习惯改变的主要趋势之一。它可能造成经典著作少人问津,使人们的视野变得狭窄,进而失去独立和批判思考的能力。第二,用户碎片化阅读趋势也十分明显。随着人们的生活节奏逐渐加快,许多人只能利用零散的时间在移动设备上进行阅读。尽管有不少人认为碎片化阅读能扩充人的知识面,但它不过是增加一点表面常识,难以让人形成对某一问题系统化、深层次的理解和看法。最后,个性化新闻推送如今已成为新闻界的一大发展方向,伴随而来的是对同质化阅读和群体极化的思考。在互联网领域,尽管表面上网民用户能接触所有信息资源,但事实上,由于信息的海量性和相关个性化推送技术的成熟,用户只能针对性地选择与自己相关的内容,人们接触信息的同质化倾向比传统媒体时代要高,容易加深群体极化的趋势。

(二)社会歧视

大数据时代,也可能在社会上导致潜在的“大数据歧视”。2015年初,微信朋友圈出现广告,引发网友热议。微信应用特定的大数据算法推送相关广告信息,致使部分网友刷到可口可乐广告,部分网友刷到Vivo手机广告,另有一些网友刷到宝马广告。在互联网企业面前,个体消费者成为一个个“透明人”,所有消费者将不再平等,数据库显示下的“穷人”很可能遭遇歧视服务。

消费歧视是大数据时代广告业个性化推送附带的弊病之一,更为令人担忧的是,个人隐私信息的泄露可能会带来更为严重的社会歧视。例如:个人医疗信息的泄露,如:乙肝患者、艾滋病患者等弱势群体信息的曝光,可能使这些人群的基本人权受到侵犯,造成诸如日常生活受阻、就业困难等问题。大数据歧视也可能加深人们的刻板印象。2016年年初,百度大数据推出中国偏见地图,这可能加深人们对某一地区、族群的刻板印象。比如:河南人都是骗子,广东人什么都吃,新疆人多为小偷等。这种刻板印象将造成现实生活中职业歧视、司法歧视、婚姻歧视等一系列歧视问题的发生。

最重要的是,大数据的预测功能还可能造成对人们潜在行为的惩罚和判断,进而引起社会司法的混乱与不公。通过大数据,警方可以了解一个人的过去和近期行为,进而预测其未来的行为趋势。这种预测行为看似是为社会公众安全着想,但事实上却会带来许多问题。倘若大数据显示某人过去有案底,且近期行踪可疑,便判断其可能有作案倾向,警方便将其逮捕归案,这就剥夺了个人最起码的自由权利。这种技术和思路一旦被拥有公权力的机构和个人掌握,成为统治社会和打击敌对势力的工具,便可能导致许多无辜人员无端受害,造成大量社会不公,进而危害人们的自由和生命。

五、结语

在网络传播技术高速发展的今天,“大数据”一词甚嚣尘上,在各行各业中都被热切地讨论。传媒学界和业界对大数据具有各种美好的期待,“数据新闻”的专业实践正在如火如荼地展开。毫无疑问,大数据应用产业将产生巨大的经济效益,笔者并非要全盘否定它的先进性,但是大数据发展过程是否也平衡了价值理性,这需要传媒业的重新估量。纵观社会发展进程,一项新兴技术一旦投入使用,便是覆水难收,难以回头。只有在大数据技术方兴未艾的时候,通过对它的理性思考,才能促使政府与立法机关规范大数据的使用,促使企业合理应用大数据,进而才能有效避免大数据的发展对传媒产业及整个社会带来的问题与危害。

关键字:数据重构浅阅读定向攻击

本文摘自:《国际新闻界》

x 大数据热的冷思考 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

大数据热的冷思考

责任编辑:editor004 作者:匡文波 黄琦翔 |来源:企业网D1Net  2016-12-29 10:28:19 本文摘自:《国际新闻界》

古希腊哲学家毕达哥拉斯曾经提出“数是万物的本源”的思想,认为世界万物归根结底都是由某种数量关系决定的。在历史上,人类量化世界的野心和尝试从未停止,而科技的进步则不断为这一目标提供越来越快捷的技术条件。2012年,技术词汇“大数据”进入人们的视野,不同于传统意义上“数据=数字”的是,在互联网、物联网高速发展的今天,网购经历、视频节目、微信语音都是数据。大数据技术量化一切的优势,使其在几年内成为每一个行业不可或缺的生产力,拥抱大数据时代到来的言论甚嚣尘上。大数据时代,也意味着信息大爆炸时代的到来,是信息大传播的时代。在传媒业,与其他传播技术相似,大数据的出现促进了整个行业的发展与变革。新闻从业人员通过数据采集与挖掘获得了大量新闻素材,这不仅是人类认知世界的新角度与新方式,而且变革了新闻生产的全流程,“数据新闻”被视为新闻业未来发展的一大趋势。智能化时代,能在分秒间生成新闻产品的“机器人记者”诞生了,受到了广泛关注。同时,基于大数据的个性化推荐服务,不仅实现了新闻信息的精确定位,节省了用户搜索信息的时间,而且也重构了整个广告业格局,数据成为广告营销业实现精确定位消费者的重要依据。

然而,值得令人反思的是,在传媒业广为追捧大数据的今天,相关的管理规范、制度、法律却相对滞后,甚至缺失,由此带来了许多新的问题。从数据分析角度来看,理论上讲,大数据应当是有别于抽样调查得到的小数据,是全样本数据。然而,事实上大数据的采集与分析过程都难以穷尽所有数据。而且这些收集到的数据还存在着混乱、真假难辨、可利用度低等新问题,需要传媒业重新审视它们的价值。同时,通过数据追踪和收集,隐私问题成为大数据时代面临的最大问题和挑战。尽管以Cookie技术为基础的匿名化信息可能给用户的生活带来许多便利,如亚马逊网站根据用户个人喜好推荐相关书籍。但是多个实例证明,他人借助这些匿名数据同样可以追踪到用户本人,只要用户连网,便无真正隐私可言。新技术的诞生与发展也带来了许多令人担忧的社会影响,甚至可能威胁人类的安全与发展。大数据不是完美的,大数据是一把双刃剑。在促进行业快速发展的同时,也存在着种种隐患,亟待解决的问题非常多。因此,对传媒业大数据热进行审慎、理性的反思非常必要。

一、大数据无法取代传统的新闻传播科研方法

从简单的算数、度量,到如今的各种移动终端,数据向来是人类感知、认识以及表达世界的一种重要方式。在小数据时代,由于技术手段有限,人们只能采用抽样的调查方法对事物进行分析,并将局部的研究结果延伸至总体。传统的邮寄调查、电话调查、拦截面访等新闻传播学科的研究方法均是基于这个原理展开。然而每一种抽样方法都存在一定不足,难以反映总体样本的全貌,调查人员一般会增加抽样的数量,以提高统计的精确度,但这也意味着调查成本的增加。大数据技术轻而易举收集大量数据的能力,引发了人们对全样本、全数据的想象。大数据的确具有不可替代的优势,但就此认为一种新兴的技术将完全取代人类数千年积累下来的科学发展成果,这无疑走进了大数据自大的怪圈。随着大数据的不断发展,越来越多的实例证明,全数据分析具有不可替代优势的梦想在现实中并不容易实现,大数据只能对传统的新闻传播调研方法进行补充,却无法取而代之。大数据对传媒业的价值有待重新考量。

(一)全数据是“乌托邦”

在大数据浪潮势不可挡的今天,互联网应用推进了社会各个组织机构的信息化进程,物联网技术的发展得以让各种移动设备连接在一起,每一天都能轻易存储下令人惊叹的数据量,全球数据量平均每两年翻一番。因此,区别于传统的抽样调查方法,有人提出全数据模式,它指的是借助大数据技术,获取样本量等于调查总体的数据总量,并进一步进行研究分析的方法。但在现实中,全数据的实现遇到了许多问题,具有一定的理想性。

在我国,“信息孤岛”普遍存在。除了考虑安全因素以外,更多的是因为组织部门之间的利益驱使而导致的。目前,数据正在渗透各个行业,成为所有行业重要的战略资产和核心竞争力。在“互联网+”、“大数据+”概念的引导下,几乎所有行业都意识到数据资产的重要性。市场先进入者占据了大量数据资源,由于生怕日后被后进入者赶超,各个市场主体彼此之间不愿进行共享,形成数据割据的局面,甚至在同一个组织内的不同部门也是如此。不同领域、行业、部门为了在“孤岛”内更完整地捕捉用户的信息,重复收集数据,既增加了数据采集的成本,又因为不同部门分析标准的不统一导致了分析结论的南辕北辙,造成数据过剩而分析结果却不准确的问题。这个特征在科技公司领域尤为明显,例如:三大科技巨头公司BAT(百度、阿里、腾讯)之间经常发生互相屏蔽的事件:微信和淘宝之间进行相互屏蔽,用户的兴趣产品和购买记录等数据便无法跨平台进行共享。每个公司据此得出的用户信息图景都是不完整的,这与理想中的全数据模式有根本的背离。全数据应当具有数据量大且完整的优势,而“信息孤岛”带来的后果却是变相的大样本抽样调查,而且抽样的样本还不一定具有精确性和代表性,结果的准确性甚至不如传统的市场调查方法。除了科技领域以外,随着大数据应用逐渐渗透到非科技领域,其他传统行业、部门也纷纷设立数据壁垒,进一步阻止了全数据模式的实现。例如:政府部门之间的数据不流通,造成了公共服务领域和政府监管市场中协商与决策的不便与困扰。所有的这些信息壁垒,及其带来的相关数据分析问题,不仅成为本行业发展的阻碍,也同时使传媒业丧失了大量潜在的新闻源。

大数据浪潮虽已呈不可逆转之势,但就目前看来,全数据模式的确是技术发展衍生的一个“乌托邦”,因此,不能盲目地相信大数据的分析结果,对这些结果采取审慎的态度非常必要。促进数据的开放也是不断将“乌托邦”转化为现实的一个重要途径。开放性本是大数据时代的应有之义,也是全数据模式得以成立的重要前提。自2009年以来,美国奥巴马政府接二连三地签署、颁布了与开放数据相关的政策,这既提高了政府的执政效率,也为科技创新产业的发展添加源动力,数据的“二次利用”是一片更为广阔的蓝海。

(二)大数据处理过程中存在一定问题和风险

大数据意味着信息爆炸,数据繁杂、混乱,这既加大了数据处理与分析的难度,也增加了出现数据错误的可能性。在互联网领域,无价值数据远远多于有价值数据,这就需要分析人员对相关数据进行一系列的处理,主要包括数据采集、存储、清洗、分析、展现等若干步骤。由于其中许多环节都存在一定的问题和风险,因此数据分析的最终结果也受到了一定影响。

首先,数据采集环节存在多样混乱、可靠性差、系统性低等问题。大数据时代是一个信息过载的时代,人们从多个渠道、多种方式获取数据。在互联网中,每一秒钟产生的信息量都是令人咋舌的。每一天互联网产生800EB的数据量,需要1.68亿个DVD光盘才可容纳(蒋均牧,2012)。数据来源多元化导致许多依据不同标准收集的数据混杂在一起,而数据量极大又造成人工排查的困难。同时数据的可靠性也难以保证,真假信息鱼龙混杂,致使数据分析结果的不确定。虚拟空间的匿名性特点为谣言的传播提供了条件,网络空间中充斥着大量假消息,一些消息甚至是许多未经专业培训的人都难以分辨的,以这种数据出发而获得的分析结果也不具备真实性。互联网中相当一部分的信息、评论是由“水军”、“自动发帖机”等发出的,不仅真假难辨,这种数据也是无意义的。利益中的一方利用技术手段提升“好评度”,则难保另一方不会利用同样的手段增加“差评度”,数据统计便成为一种既无意义且耗成本的行为。另外,目前网络媒体充斥着大量非结构性及半结构化数据,比如图片、视频、音频等数据,系统性较低。传统的数据分析范式难以对其进行解释,新的数据分析范式仍然未有较为统一及有效的标准,数据分析更多的停留在平面,可利用价值较差,而更多的“数据宝藏”则深埋其中,未被发掘。

其次,数据存储面临能力薄弱、安全隐患等问题。许多学者习惯上认为,与传统数据相比,大数据具有以下四个鲜明的特点:规模性(Volume)、高速性(Velocity)、多样性(Variety)和价值稀疏性(Value),其中规模性是大数据区别于小数据的重要特征。海量的数据要求数据库存储能力的提升,而数据来源的丰富性、数据类型的多样性以及历史数据的再利用性又进一步对数据库的存储能力有了更高的要求。目前我国大数据的存储能力比较有限,许多传统的数据库仍然难以存储、整合如此庞大的信息量,数据库、数据仓库等领域的技术均落后于美国等国。在信息的大传播时代,有效的数据得不到储存,则数据处理过程中断,意味着无法进一步发掘数据的价值,也就丧失了数据的产能优势。在数据存储这一环节,还面临着安全隐患的问题。政府、金融、医疗等特定领域对数据信息的安全性有较高的要求,但目前由于整个行业正处于初始发展阶段,对此类数据的保护能力以及保护意识都比较弱,数据泄露事件时有发生,国家安全与用户隐私时刻面临风险。例如,2016年4月,土耳其国家数据库爆发重大数据泄露事件,约有5000万土耳其公民受到波及,占其国家总人口的7成左右。攻击土耳其国家数据库的黑客获得了这些土耳其公民的姓名、身份证号码、父母姓名、出生地址及年月日等隐私信息,并指出了该数据库的三大漏洞,这说明土耳其政府对国家数据库的保护及安全防范意识都是非常薄弱的。又如,2015年10月,国家互联网应急中心发布信息,网易邮箱的用户数据库遭到泄露,这导致许多用该邮箱进行支付宝注册或苹果ID注册的用户面临着用户密码被重置的风险。在数据存储环节,无论是技术公司,又或是从“大数据+”概念中衍生出来的其他行业,都不仅应在安全意识上有所防范,而且更应在技术上持续提升数据库的存储能力和安保能力。

最后,数据分析存在逻辑不统一、轻易归因、机械性等问题。尽管在过去的几十年间,科学技术的发展实现了对海量数据的收集、整合和储存,但大数据也不是万能的。其中,数据分析环节是整个大数据处理过程中受到争议最大的一个环节。首先,由于数据采集过程是不断进行的,但是大数据服务的主营业务的架构可能总是在变,收集数据的标准也可能随着时间总是在改变,这就容易在数据分析过程中出现前后逻辑不统一的问题。相比之下,传统的科研范式要严谨得多,历史数据和新数据的采集标准有何异同,一目了然。其次,采集的大数据是客观存在的,无法进行自我处理和分析,需要编写一定的算法,或者人脑直接对其进行进一步解释和分析。在这个过程中,人为主观性将可能导致事实客观性的偏颇,进而产生对新闻客观性的挑战。人们在翻译数据信息时存有偏见……记者群体容易滥用因果推理逻辑或相关性分析。记者群体的轻易归因,容易导致许多“假规律”的产生,反而让人难以发现事件背后的真正规律和问题。此外,大数据分析更多的不在于对事情因果关系的分析,而是对其相关性的体现,进而对未来发展趋势做出预测,并最终进行决策判断。比如:通过用户数据的反馈,程序化广告系统发现某用户近来多次浏览某一品牌厂商的广告,因此判断他有可能购买该产品,并进而对该用户进行更大力度的宣传。这种“人工智能”看似神奇,但也可能会导致许多机械性结果和决策的产生。在进行某项决策时,人类会综合多种因素,包括联系前后情景,感性、理性双重的作用等,最终形成判断,这是人脑如此发达的原因。然而,没有情感的机器却无法做到这一点,许多通过算法自动生成的预测和决策都具有一定的机械性。纽约大学的两位教授加里·马库斯(Gary Marcus)和欧尼斯特戴维斯(Ernest Davis)曾经指出,没有经过因果关系逻辑判别的相关关系很可能处处是陷阱(Marcus &Davis,2016)。比如:2006年至2011年之间,美国的谋杀率与微软自带浏览器Internet Explorer的市场份额成正相关关系:两者都呈现极速下滑的趋势,但是让人头疼的是,它们两者之间究竟存在怎样的因果关系呢?再比如:1998年至2007年之间,新诊断的孤独症患者人数与有机食物的销量呈非常良好的相关关系:两者都急剧上增,但是获得这样的相关关系并不会告诉我们,健康饮食与孤独症之间有什么必然关系。因此,在统计学中,这种没有因果关系支撑的假性相关关系被称为“相关不蕴含因果”(Correlation does not imply causation)。

(三)传统调研方法具有不可替代的价值

如今的数据科学家们认为,传统科研方法最明显的劣势在于对精确性的追求。在传统科研领域,为了提升一项调查的精确性,调查者通常需要增加样本,而这会耗费大量的成本。相比之下,大数据能让调查者在短期内获得庞大的数据量,这增加了调查的容错率,精确性便不再如此重要了。《大数据时代》一书的作者维克托·迈尔—舍恩伯格(Viktor Mayer-Schnberger)提到:“有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。”然而,事实真的如此吗?“谷歌流感趋势”一直被视为大数据应用的典范之一。2008年,谷歌推出一个名为“谷歌流感趋势”的系统,能够根据用户在谷歌上搜索流感的行为和数量预测美国不同地区的流感疫情。《自然》杂志记者德克兰·巴特勒(Butler,2013)撰文指出,该系统对2012年年底美国流感疫情患者数目的分析,大大高估了美国疾病控制与预防中心给出的实际数据的峰值水平。而且,这已经不是这个系统第一次出现预估错误了。虽然大数据带来的优势远远超过了它因为不精确而产生错误导致的代价,但数据错误带来的代价不容小觑。

大数据的处理过程中存在种种问题,一是由于这项技术尚未成熟,人才也不足够,可以发展和完善的空间仍然很大;二是由于人们过高地估计了大数据的作用,认为这项技术具有颠覆性意义,能够直接取代传统科研方法,从而走上了“大数据自大”的道路。传统科研方法经历了长时间的学术沉淀,具有较强的逻辑性、科学性和规范性,这是新诞生的大数据研究方法难以相比的。2014年,大卫·拉泽(David Lazer)等学者在《科学》杂志发表文章,报告谷歌流感趋势预测系统近年来的不佳表现,指出:“庞大的数据量不代表我们能够忽视研究中测量的基本问题、结构效度、可靠性以及数据之间的依赖关系”(Lazer,Kennedy,King &Vespignani,2014)。关于谷歌流感趋势系统在2012年年底出错的问题,包括拉泽(Lazer)、巴特勒(Butler)等学者指出,该系统之所以高估流感的峰值,是因为政府部门以及媒体对流感出现的预警及广泛报道。这种归因思路的运用,正是基于传统科研方法而来。此外,大数据应用还存在许多其他问题,需要依靠传统科研方法进行甄别。例如:虽然大数据可以极其全面、细致地描绘其所抓取数据的信息图景,但是这些数据——也即是样本,对总体而言是否具有代表性并不可知,数据所能反映的,仅仅是所有信息中的一部分。在瞬息万变的信息环境下,样本总体总是处于动态变化之中。拉泽(Lazer)提出了“算法动力学”的概念,认为如谷歌这样的搜索引擎不断更新的算法可能致使系统无法稳定的反映流感趋势。如果没有传统调研方法、思维和经验的基础,这些问题都不可能被提出。可见,大数据并不能完全替代传统调查研究方法。

在笔者看来,大数据应用与传统科研方法是否互为替代关系,这是一个伪命题。庞大的数据量是新兴的大数据技术赋予人类认知世界的又一手段:传统的抽样调查方法能帮助人们更全面、高效地了解样本总体的大致面貌,而作为对传统科研方法的补充,大数据能帮助人们放大其中某一部分信息的详细内容,更为细致地观察个体的所有情况。因此,对于某一项调查而言,数据量并非越大越好,而应视情况而定;相比庞大的数据量,数据质量更为重要。在保证数据质量的基础上,采用既规范又创新的分析方法能挖掘出数据本身的价值,帮助人们更好地认识世界——这才是大数据时代数据分析的核心所在。

值得注意的是,大数据是绝大多数媒体人的弱项。今年5月,笔者在北京做了一个针对媒体从业人员及高校新闻传播院系的教师,进行了500人规模的问卷调查,有效回收问卷353份。数据表明,高达85.55%的被访者只是知道大数据这个名词,只有7.08%的被访者知道大数据的概念和特征,1.98%的被访者知道大数据技术所涉及的软件;5.39%的被访者完全不知道大数据,包括不知道这个名词。究其原因:(1)与我国的新闻传播学教育有关,在我国几乎所有的高校的新闻传播院系,都是所谓的文科,开设的技术课程是十分有限。(2)中国的传统媒体从业人员,技术出身的人所占比例偏低,绝大多数是所谓的文科出身。

对于新闻传播学的研究者而言,存在同样的问题。逻辑性、科学性和规范性,这是新诞生的大数据研究方法难以相比的。

二、用户隐私安全成为最大的问题与挑战

在大数据时代,用户隐私安全面临巨大的挑战。一方面,大数据应用不仅为企业带来收益,而且也为用户带来好处。例如:程序化广告能够更好地实现广告主与目标用户的对接,既增加了广告的投放效果,也让用户更方便地找到所需要的产品。另一方面,数据的采集、存储、分析、交易和弃用环节都存在一定的风险,这让个人用户数据随时随地可能暴露于极不安全的网络空间之中,致使用户面临前所未有的隐私与安全威胁。这个问题的解决牵涉许多利益集团。宏观来看,需要权衡新经济的发展与个人隐私安全之间的关系;微观来看,这个问题需要依靠政府、立法机关、互联网行业、传媒行业等多个机构和行业共同解决,涉及面非常广。用户隐私安全成为大数据时代最大的问题与挑战。

(一)多数用户对数据收集不知情

2013年的“3·15”晚会,央视爆出高德地图、爱聊、公信卫士等软件窃取用户隐私信息,并且,多家互联网广告公司涉嫌借助Cookie等技术侵犯用户的个人隐私。一时间,技术词汇“Cookie”成为当时的热词。Cookie是每一个网站存储在用户浏览器中的小文本数据包,每当用户访问网站时,这些数据便会传送至该网站,帮助网站识别使用者的身份,以方便推送与使用者用户相关的信息。一些网站,如电子邮箱的个人可识别信息,也被包含在这个数据包中。对于普通人而言,日新月异的互联网技术一直都是相对复杂的技术,在媒体曝光之前,许多人甚至不知道Cookie及其他相关技术的存在,通常在不知情的情况下被各大互联网企业收集了数据。

“2912189271158★★★★★★★★★★,这是位于山东烟台的一个女性互联网用户“冰”的cookie代码……2月份,冰总共有42次点击百度上京东的广告,而且点击几乎都是在早上或晚上10到12点发生,1、2、3日她每天都到达“我的购物车”,但没有下单,2月4日她下了第一个订单1403983,8日16点下订单1515991,17点下订单1516321,10日0点下定单1554465。之后只是张望。”这个案例清晰的显示出Cookie代码记录用户行为信息的详细程度。

如今,互联网企业能通过包括Cookie、邮箱、账户、快递、定位等方法工具掌握个人用户的行为与爱好,用户只要在网络世界中有所行为,便会在不知不觉中暴露了自己的相关信息。虽然目前绝大部分数据收集技术都经过了匿名化处理,但是人们仍然有机会通过信息中的蛛丝马迹追溯到现实中具体的个人,更不必说网络上各种恶意程序和黑客对个人数据的蓄意收集。用户对数据收集行为知情权的缺失,致使维护用户隐私安全的第一道防线被攻破,所有与用户行为、喜好相关的数据因而流向各大企业的数据库,等待被进一步分析、处理或交易。

(二)多数用户没有对自身数据被处置说“不”的机会

伴随着大数据技术的兴起,数据成为所有行业和公司的重要资源,催生了大数据交易市场的出现和发展。如今,用户的数据都能得到永久保存,用户的数据甚至能够比用户的生命留存得更为长久。当用户的数据被企业数据库存储起来后,互联网企业将进一步最大化利用、处置这些用户数据,以达到为自身盈利的目的。不可否认,数据的“二次利用”是极具积极意义的,许多富含创意性的产业因而诞生。

但多数用户对自身数据的保存、分析、处理、交易、丢弃都不具有决定权。用户自身的数据流向何方,自己并不清楚。在用户个人承担隐私安全风险的时候,互联网企业却从一次次的交易和挖掘中创造了巨大的经济财富,用户却没有在这个过程中获取任何利益。首先,通过对所有用户数据的保存,互联网企业能了解这些用户的整体状况、发展态势和其他人口统计学的信息。其次,通过数据分析,互联网企业能重点关注目标用户的信息,并进一步进行跟踪或利用,从中挖掘价值。最后,为了实现企业数据库的扩大,许多互联网企业会通过交换、交易等方式获得更多的用户数据,用户的数据因此流向更多不同的数据库之中,这增加了用户数据被泄露的风险。总之,由于用户对自身数据没有处置知情权和决定权,相应地也就没有拒绝被处置的权利。

(三)用户数据泄露的风险无处不在

在大数据时代,网络用户的行为暴露在“第三只眼”底下,几乎没有任何隐私可言。在大数据应用为人们带来巨大的经济效益,方便人们日常生活的同时,它却是以用户承担数据泄漏风险为代价的,隐藏着“定时炸弹”一般的隐私安全问题。

首先,大数据时代存在存储风险,海量数据的急速传播和增长无疑为硬件存储和处理数据带来一定风险。而且,如果一个数据库的安防设置不强,便很有可能导致类似土耳其国家数据库泄漏事件的发生。其次,黑客和病毒的攻击,不仅可能影响用户的财产安全,更有可能在未来威胁生命。许多恶意程序伪装成杀毒软件进入用户电脑,扫描用户电脑中的程序,并佯装询问用户是否需要支付费用购买正版的杀毒软件。一旦用户点击确认,用户便会直接将钱财送入网络犯罪分子的口袋。第三,非法的、未经许可的商业利用和交易都会导致个人信息被犯罪分子掌握。2015年7月,中国香港地区高发电信诈骗案,涉款高达1.2亿港币,该案件的主要源头便是个人信息泄露。最后,许多用户对互联网隐私的自我保护力度不强,例如:过度暴露自身信息,设置的密码过于简单等,都会加大这个问题带来的风险。2014年年底,黑客瑞恩·科林斯(Ryan Collins)制造了震惊世界的好莱坞艳照门事件。起初,人们以为黑客是借助苹果iCloud的系统漏洞对iCloud用户进行攻击,调查后发现,真正的原因是这些好莱坞影星设置的密码过于简单易猜,导致了黑客对她们的账号发起定向攻击。而将过于私密的照片上传至云储存平台,本身也有一定的风险性。

大数据的发展态势已经不可逆转,用户在网络中的一言一行都将被记录,用户隐私安全将是一项长期而又重要的研究课题。为了信息不被泄露而停止使用网络,无疑是因噎废食的行为。国家和社会在鼓励大力发展大数据产业的同时,也不应将隐私安全的风险最后全部落在个人用户身上。如何权衡产业发展与用户隐私之间的关系,如何创新用户隐私保护的技术和机制,将是大数据产业可持续发展中不可回避的问题。

三、基于大数据技术的机器人容易产生“冰冷的”新闻

(一)“冰冷的”新闻

机器人写新闻的技术基础是大数据技术。

2015年年末,许多媒体机构传出机器人代替记者写稿的消息,例如:新华社迎来一位“机器人记者”——“快笔小新”,腾讯财经使用“Dreamwriter”写稿,能在第一时间运用算法生成新闻稿件,这些都让人感叹“记者即将下岗”。美国西北大学研发了新一代智能写作软件Narrative Science,宣称将新闻报道和大数据技术进行了一次新时代的结合,这款软件通过对给定主题的数据分析,能够自动地选择合适的写作角度,快速完成一篇具有标准新闻报道结构的文章。虽然在新闻报道中自动增加了一些形容词以提高可读性,但写出来的文章依然明显缺乏新闻温度,这是因为机器本身没有办法判断情绪,它们只是单纯地从数据库中抽取形容词,用法正确与否暂且不论,但与“手工打造”的饱含情感、责任和人文诸因素的新闻稿相比,从机器人手中传递出来的新闻虽然是新鲜的却是冰凉的。技术的进步加快了生产力的发展,“机器人写稿”虽好,但却缺少“温度”。虽然大数据看似解决了新闻客观性问题,但新闻的角度同样重要。新闻是“有温度”的,它嵌入记者的思考,倡导一种理念,体现人文关怀。然而,机器人“记者”却只能“冷冰冰”地将数据中反映的事实全盘托出,难以体现人文精神。而且,机器人难以做到归因、举证,无法引导人们对某一则新闻的深入思考。由于机器人是根据特定算法生成稿件的,没有加入记者的个性,千篇一律,长此以往,容易令人厌倦。

当前新闻写作软件只能生成特定类型的报道,且只能采用单一来源的数据,遵循这类报道常用的固定模式,大批量“生产”出有限类别的短新闻。具体的生产过程是机器人中固化的软件事先被设定了算法,通过软件整理数据事实,并与历史数据和其他背景信息相结合,再遣词造句呈现出描述性的新闻。机器人撰写报道就如同做完型填空题一样,只需要在设定好的语境中进行简单的填充即可。虽然现今这类写作软件变得更加“聪明”,算法更加先进,如将读者喜好的语气、角度甚至幽默融入一篇报道之中,以机器人报道篮球赛事为例,可能机器人会用同样的数据生成两个版本的新闻:一个版本为获胜球队的粉丝所写,充满欢天喜地的气氛;另一个版本则是为失败的球队准备的,读起来让粉丝沮丧低落。但无论如何,机器人无法理解两个球队所有粉丝的感受。读者并不是因为获胜就完全满足,可能球队通过比赛还是反映出存在的一些问题;而失败一方也不一定完全是失落的,因为他们也许看到了同强队交手中显示出来的球队进步。因此,机器人是无法同创造力旺盛、想象力丰富的人类作者相比拟的。

作为面向普罗大众的新闻媒体,要增强新闻宣传和舆论引导的吸引力、感染力、亲和力和影响力,就必须采制出有现场温度及人情温度的报道内容。评判一条新闻的质量好坏有多重标准,但真正能打动受众的往往是有温度的新闻。新闻的温度源于媒体人的社会责任感,源于媒体人对普通受众的感情积累。做新闻不能只站在媒体的角度来反映民众的生活,更重要的是在情感上实现与受众的相互交融。

(二)依赖大数据技术还容易使人缺失新闻敏感度

通过新闻敏感度,不但能够对新闻从业者的采写能力进行判定,同时也能对新闻价值进行判定。新闻实践是新闻从业者职业新鲜感、新闻写作创新感的体现,在新闻实践过程中,如新闻敏感度缺失,则直接降低了新闻价值。一个具备很强新闻敏感度的新闻从业者,可以从平凡的事件中发现有价值的新闻,从很小的细节中洞见真实和深度,从而挖掘出有价值的新闻;而新闻敏感度较弱的新闻从业者,则会存在漠视现象和反应迟钝问题,从而与有新闻价值的线索擦肩而过,错失好的新闻题材。

机器人将数据直接转化为文章,成本较为低廉,因此机器人可用以提供对不同读者的新闻定制服务。但是,基于大数据技术的机器人写新闻,存在新闻敏感度缺失的问题,机器毕竟是机器,尽管美联社表示机器人写作软件按照程序使用不同语气的能力越来越强,但新闻毕竟出自机器人之手,它不具备对新闻线索进行挖掘的观察能力,也不具备对新闻事件进行取舍的决断能力,而这两种能力是新闻敏感度的重要体现。

就机器人撰写新闻的过程而言,一些具有固定模式的行业性文章更符合它的本能,因为既不需炼字锻句,又不需深度分析。如果有一天记者真的被冷冰冰的机器人取代,新闻恐将沦为诸多报道模式的生硬“拼盘”。人们很难期望机器人会像人类一样,能够根据不同的采访对象,变换不同的采访语气与被访者进行观点和思维的交锋。我们在认可机器人存在技术上的优势之外,也承认机器人是无法同人类一样具有足够的应变能力和创造能力的。人类的思维至少在短时间内无法被机器人模仿,分析和观点性的报道需要消息来源、知识积累、逻辑思维等众多的能力在里面,在这些方面,机器人写手无法与记者一决高下。通过机器人撰写的稿件,会因为内容的生硬和重复而影响稿件的质量。“机器人记者”能写的文章种类有限,无法进行深度分析,更不会炼字锻句。

记者工作是一种复杂的、高级的脑力劳动。机器人也是人类发明的。机器人的构思再精巧,也无法替代人脑。机器人抢不走记者的饭碗。人们不能指望机器人在镜头前随机应变或深入背街小巷明察暗访。新闻作为一种文字和图像的艺术,字里行间与镜头之下,都包含着记者的判断、价值观与人文关怀。机器人写手虽有其技术优势,但却无法完全具备人的灵活性和创造力。机器人写手只是一种辅助形式,它可以节省时间,把记者从一堆基础数据和信息中解放出来。

四、大数据带来的社会忧虑

大数据技术变革了所有产业,不仅改变了我们的生活、生产等多个领域,而且改变了我们认知世界的方式。在这个过程中,不可否认,大数据的确带来了许多积极影响,这也是它能够成为时代焦点的原因之一。但是,不可忽视的是,正如“蝴蝶效应”一般,大数据技术的发展也衍生出一系列新的社会现象,如用户阅读行为的改变,人文精神的衰退,社会歧视和个人自由的丧失,引发了人们的思考、争议和担忧。大数据正处于初始发展阶段,若是对这些现象和影响不加以探讨和警惕,便有可能在未来对人类社会造成一定的伤害。

(一)用户阅读习惯的改变

在信息过剩的大数据时代,人们每日能够接触到海量的信息,加上移动设备的普及,让人们不再限于一个场景进行阅读,阅读习惯也随之改变。虽然如今手机用户能够24小时不断接收信息,但是也带来了一系列问题,主要体现在三个方面:浅阅读、碎片化阅读和同质化阅读。

首先,2015年4月,亚马逊发布“中国2015‘全民阅读’调查报告”,显示以社交媒体为主的浅阅读已经成为很多读者生活的重要组成部分(亚马逊中国,2015)。浅阅读,也就是快速浏览内容信息而不加深思,不求甚解,是大数据时代用户阅读习惯改变的主要趋势之一。它可能造成经典著作少人问津,使人们的视野变得狭窄,进而失去独立和批判思考的能力。第二,用户碎片化阅读趋势也十分明显。随着人们的生活节奏逐渐加快,许多人只能利用零散的时间在移动设备上进行阅读。尽管有不少人认为碎片化阅读能扩充人的知识面,但它不过是增加一点表面常识,难以让人形成对某一问题系统化、深层次的理解和看法。最后,个性化新闻推送如今已成为新闻界的一大发展方向,伴随而来的是对同质化阅读和群体极化的思考。在互联网领域,尽管表面上网民用户能接触所有信息资源,但事实上,由于信息的海量性和相关个性化推送技术的成熟,用户只能针对性地选择与自己相关的内容,人们接触信息的同质化倾向比传统媒体时代要高,容易加深群体极化的趋势。

(二)社会歧视

大数据时代,也可能在社会上导致潜在的“大数据歧视”。2015年初,微信朋友圈出现广告,引发网友热议。微信应用特定的大数据算法推送相关广告信息,致使部分网友刷到可口可乐广告,部分网友刷到Vivo手机广告,另有一些网友刷到宝马广告。在互联网企业面前,个体消费者成为一个个“透明人”,所有消费者将不再平等,数据库显示下的“穷人”很可能遭遇歧视服务。

消费歧视是大数据时代广告业个性化推送附带的弊病之一,更为令人担忧的是,个人隐私信息的泄露可能会带来更为严重的社会歧视。例如:个人医疗信息的泄露,如:乙肝患者、艾滋病患者等弱势群体信息的曝光,可能使这些人群的基本人权受到侵犯,造成诸如日常生活受阻、就业困难等问题。大数据歧视也可能加深人们的刻板印象。2016年年初,百度大数据推出中国偏见地图,这可能加深人们对某一地区、族群的刻板印象。比如:河南人都是骗子,广东人什么都吃,新疆人多为小偷等。这种刻板印象将造成现实生活中职业歧视、司法歧视、婚姻歧视等一系列歧视问题的发生。

最重要的是,大数据的预测功能还可能造成对人们潜在行为的惩罚和判断,进而引起社会司法的混乱与不公。通过大数据,警方可以了解一个人的过去和近期行为,进而预测其未来的行为趋势。这种预测行为看似是为社会公众安全着想,但事实上却会带来许多问题。倘若大数据显示某人过去有案底,且近期行踪可疑,便判断其可能有作案倾向,警方便将其逮捕归案,这就剥夺了个人最起码的自由权利。这种技术和思路一旦被拥有公权力的机构和个人掌握,成为统治社会和打击敌对势力的工具,便可能导致许多无辜人员无端受害,造成大量社会不公,进而危害人们的自由和生命。

五、结语

在网络传播技术高速发展的今天,“大数据”一词甚嚣尘上,在各行各业中都被热切地讨论。传媒学界和业界对大数据具有各种美好的期待,“数据新闻”的专业实践正在如火如荼地展开。毫无疑问,大数据应用产业将产生巨大的经济效益,笔者并非要全盘否定它的先进性,但是大数据发展过程是否也平衡了价值理性,这需要传媒业的重新估量。纵观社会发展进程,一项新兴技术一旦投入使用,便是覆水难收,难以回头。只有在大数据技术方兴未艾的时候,通过对它的理性思考,才能促使政府与立法机关规范大数据的使用,促使企业合理应用大数据,进而才能有效避免大数据的发展对传媒产业及整个社会带来的问题与危害。

关键字:数据重构浅阅读定向攻击

本文摘自:《国际新闻界》

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^