当前位置:大数据业界动态 → 正文

大数据仍处于“盲人摸象”阶段

责任编辑:editor007 作者:苏敏坚 |来源:企业网D1Net  2015-04-24 16:47:42 本文摘自:科技移动LBS

我的观点是,在大数据的数据源得到全面性保证之前,迷信大数据是一件极具风险的事,最起码不像人们吹捧的那么有价值,那么伟大。显然,在媒体的热捧下,大数据正走在一条自以为无所不能的危险道路。而大数据要实现数据源的全面性则必须“去中心化”,回归“开放与共享”的大数据本质。

互联网的发展产生巨量数据,传感技术的发展让数据更加多元,网络技术的发展让数据传输突破限制,存储技术的发展让巨量数据保存得以实现,数据处理技术的发展让我们得以高效处理巨量且复杂数据,这些构成了大数据的基础,让人们欢呼“欢迎进入大数据时代”。

而事实上,反观我们身边扰攘多时的号称“大数据革命”,到底给我们带来了多大的价值,是否真如其传说中“未来的新石油”“像能源、原材料一样,大数据已成为提高未来竞争力的关键要素”那么伟大,我理解目前我们的大数据距离人们期待中的大数据还有很远的距离,人们常常引用的“利用大数据分析观众兴趣以制作《纸牌屋》”的案例跟真正意义上的“大数据改变世界”比起来不过是“奇淫巧技”而已。(另外,大数据里通常以交通为例来说明大数据的运作价值,通过在街道布置传感器检测碳排放来实时车辆的流量以及交通状况,但其实那还是囿于传统数据分析的范畴,只是通过技术手段的提升增加了一个数据维度而已,我理解若能实时通过监控某地理位置内人们的社交信息、加油站信息、购物刷卡信息、甚至卫星拍摄信息等加以分析则更像“大数据应用”,这些数据的分析结果就不光支撑交通控制了,可应用于更多的社会管理及商业应用层面。)

现在的问题是,我们布设了无数传感设备,设计了无数用户触点,搭建了无数数据传输管道,到最后这些数据并没有“百流入海”地汇入统一的海洋,而是流进一个一个孤立的池塘,然后各自从各自的池塘中调取数据进行大数据分析以支撑企业运营决策,我不得不说,人们自以为自己正朝向远处的高山奔跑,却没有意识到自己却在一个环形跑道上。

大数据之大并不在于其数据量有多大,不在于其能处理“结构化”和“非结构化”的复杂数据,而在于大数据是融合各种各样来源的数据,描述事实各个方面的数据,以使得分析结果能够更真实、更全面地接近真相,这才是大数据真正的价值所在。而如果我们只能从自家的“小池塘”里调取数据,大数据无法发挥其真正的价值,甚至有可能输出偏差甚至错误的结果引导疯狂的大数据信徒走向危险的道路。

《大般涅盘经》三二:“尔时大王,即唤众盲各各问言:‘汝见象耶?’众盲各言:‘我已得见。’王言:‘象为何类?’其触牙者即言象形如芦菔根,其触耳者言象如箕,其触头者言象如石,其触鼻者言象如杵,其触脚者言象如木臼,其触脊者言象如床,其触腹者言象如瓮,其触尾者言象如绳。”

这是著名的盲人摸象的故事,如果我们把每个盲人视为一家企业,盲人通过手掌触摸获取到的信息视为企业通过自身渠道获取到的用户数据,盲人基于获取到的信息加以分析得出了对大象的描述,企业基于获取到的信息加以分析得出对客户的描述,以这样的逻辑来看,企业迷信“基于单一数据来源的大数据”跟盲人摸象没多大差别。

从本质上来说,大数据价值的体现必须是基于“数据的开放与共享”的,甚至是“数据分析结果的开发与共享”的,但在商业应用上,现实情况可能跟我上面说的“小池塘”情形相仿,各个大数据的运营企业、行业在数据的共享上各种壁垒,数据的共享目前还仅限于企业内部的共享,甚至企业内部的共享都尚不充分,以中国移动为例,中国移动拥有庞大的用户数据,分别产生/存放于B/O/M域等IT系统、各基地/专业公司业务平台以及统一DPI系统中(DPI数据规模巨大,蕴含丰富的用户行为信息,挖掘潜力巨大,对计算、存储网络资源提出巨大需求),但由于部门壁垒、接口实现难等原因,就目前我了解到的情况来看,这些数据并没有得到充分的共享和调用,可谓“坐拥金山而入山乏径”。

“以窄数据源支撑大数据分析及应用”人们往往抱有宽容的态度,认为这是一个过渡阶段,虽然可能无法发挥大数据的最大化价值,但总是有促进作用,至少是无害的。这是一个错误的观点,“以窄数据源支撑大数据分析及应用”是一件相当危害的事情。

单一企业/行业的数据是具有片面性的,如电商企业的数据只能反应用户的消费水平,购买偏好等属性,社交运营企业的数据只能反应用户的社交属性,圈子属性,金融企业的数据只能反应用户经济属性,由于数据源的限制,数据池的孤立,各企业/行业往往只使用内部各种系统、平台的客户数据进行分析,最多会结合一些通用的、容易获取的行业数据(如第三方咨询报告等),得出的结论只能对单一企业/行业有价值,应用的层面很单一。举个例子,游戏企业想要制作一款面向年轻人的社交游戏,但它只有目前的游戏玩家的数据,基于此分析出来的结果只能迎合固有的游戏玩家的喜好而不能挖掘非游戏玩家的需求以实现新的市场的突破,这就如同“盲人摸象”例子里说的,摸到象头的认为大象像石头,摸到尾巴的人为大象像绳子,一旦迷信大数据的能力和价值,并在企业运营中应用,这将是一种很危险的错误。

数据是具有欺骗性的。再举一个通俗点的例子,在周浩晖的悬疑小说《套子里的人》中,警察根据社交数据+嫌疑人表现进行分析,社交软件的聊天记录清楚地指向A有杀死B的倾向,而现实生活中A也说过“氰化物质用作毒药可真是不错”,而死者的死因也确实是氰化钾中毒,基于这样的数据信息作出A是凶手的结论是合情合理的,其实这就是大数据分析的结果,只是不是机器分析,而是我们大脑进行的大数据分析,而实际上,这个判断是错误的,因为社交软件使用了昵称,窄数据源的大数据分析无法判断昵称指代的是谁,同时A实际上说的是“氢化物”而非“氰化物”,这一点窄数据源的大数据分析也识别不出来。其实利用大数据分析去解决问题就如同侦探破案,数据源越少误差越大,只有充分调用方方面面的数据信息才能更靠近真相。

数据具有欺骗性。但数据本身是无辜的,是纯洁的,邪恶的是强行解读它的人。

是什么限制了数据的共享?

数据源的限制让大数据陷入了“盲人摸象”的困境,那到底是什么限制了数据的共享?这是问题的关键,也是大数据面向未来发展的瓶颈所在。

一是出于竞争的考虑,企业的市场信息、用户信息、产品信息一向以来被视为企业的核心机密,是竞争的基础,目前看来很难实现数据的共享,如运营商与OTT共享用户数据这是不可想象的事情。

二是即使不存在竞争关系(如银行与制造业),不同企业对彼此数据安全保护并不信任,企业会担心,大数据系统收集海量未分类、未经分析的数据,这些数据由于过于庞大,无法得到像传统数据库对数据部署的相同级别的保护。

三是数据共享的成本太大,由于不同企业/行业对数据的收集、存储的标准不一,系统数据库的构建也不同,系统间接口功能实现难度大,数据收集后的清洗、整理的“加工成本”庞大,而大数据应用产生的价值可能尚无法匹配,性价比并不乐观。

四是不同企业的大数据部署进度不一,数据共享对企业产生的价值不一样。如很多传统行业目前在大数据上仍处于起步阶段,而很多互联网公司、金融机构在大数据的部署上已经相当成熟,实现数据共享对彼此的价值迥异,这也造成在数据共享上门槛。

五是大数据的合法性目前还缺乏法律支持,数据的共享及分析应用尚存在伦理上的问题。

那怎么来解决这个问题?

大数据交易平台是解决数据源问题的一个探索,目前已有很多实质性的进展,如贵阳大数据交易所于2015年4月15日正式挂牌运营并完成首批大数据交易,预计在未来3至5年,交易所日交易额将突破100亿元。

大数据交易平台将数据标价出售,这给数据多元性、全面性的实现提供了一个渠道,但这同时是一种限制,想要进行大数据分析以指导经营行为的企业在购买数据前会进行人为的判断,而“人为”的判断的过程则是对大数据的一种亵渎。举个例子,医药公司想要生产一种抗病毒的药,经过分析,购买了因病毒而就医的人数的数据,数据显示近年来人数呈递减趋势,故而做出减少生产的决策,而事实上,由于气候问题,当年因病毒而患病的人数剧增,到时供不应求。而“人为”的判断忽略了气候的数据。

好吧,上段论述可能有点钻牛角尖了,新事物的发展具有无限可能性,大数据交易平台可能演变成为社会基础设施,如现在的证券交易平台。我依然觉得解决问题的终极思想是“去中心化”,企业不以自我为中心去实现数据共享,以追求大数据的整体价值的最大化,实现大数据改变世界的梦想。当然,这短期内来看有点理想化了。

“用数字说话”似乎是颠扑不灭的真理,这让人们养成了迷信数据的惯性,认为数字就是真理,我们希望每一个问题都可能用可量化的数字来回答,这不光存在于分析工作中,甚至在很多战略工作、管理工作中我们希望实现“量化”,但最重要的问题是,如果我们只将世界以数据来诠释,尤其是在数据来源全面性得不到保证的情况下,那其实是在冒着盲目迷信数据的风险,强行赋予其实不存在的道理与意义。我们必须要警惕自己不被数据欺瞒,或被“量化每一个问题”的虚假魅力所诱惑。

最后,大数据不是一种技术,而是企业理解世界、融入世界、改变世界的手段。

关键字:数据安全数据保存数据来源

本文摘自:科技移动LBS

x 大数据仍处于“盲人摸象”阶段 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

大数据仍处于“盲人摸象”阶段

责任编辑:editor007 作者:苏敏坚 |来源:企业网D1Net  2015-04-24 16:47:42 本文摘自:科技移动LBS

我的观点是,在大数据的数据源得到全面性保证之前,迷信大数据是一件极具风险的事,最起码不像人们吹捧的那么有价值,那么伟大。显然,在媒体的热捧下,大数据正走在一条自以为无所不能的危险道路。而大数据要实现数据源的全面性则必须“去中心化”,回归“开放与共享”的大数据本质。

互联网的发展产生巨量数据,传感技术的发展让数据更加多元,网络技术的发展让数据传输突破限制,存储技术的发展让巨量数据保存得以实现,数据处理技术的发展让我们得以高效处理巨量且复杂数据,这些构成了大数据的基础,让人们欢呼“欢迎进入大数据时代”。

而事实上,反观我们身边扰攘多时的号称“大数据革命”,到底给我们带来了多大的价值,是否真如其传说中“未来的新石油”“像能源、原材料一样,大数据已成为提高未来竞争力的关键要素”那么伟大,我理解目前我们的大数据距离人们期待中的大数据还有很远的距离,人们常常引用的“利用大数据分析观众兴趣以制作《纸牌屋》”的案例跟真正意义上的“大数据改变世界”比起来不过是“奇淫巧技”而已。(另外,大数据里通常以交通为例来说明大数据的运作价值,通过在街道布置传感器检测碳排放来实时车辆的流量以及交通状况,但其实那还是囿于传统数据分析的范畴,只是通过技术手段的提升增加了一个数据维度而已,我理解若能实时通过监控某地理位置内人们的社交信息、加油站信息、购物刷卡信息、甚至卫星拍摄信息等加以分析则更像“大数据应用”,这些数据的分析结果就不光支撑交通控制了,可应用于更多的社会管理及商业应用层面。)

现在的问题是,我们布设了无数传感设备,设计了无数用户触点,搭建了无数数据传输管道,到最后这些数据并没有“百流入海”地汇入统一的海洋,而是流进一个一个孤立的池塘,然后各自从各自的池塘中调取数据进行大数据分析以支撑企业运营决策,我不得不说,人们自以为自己正朝向远处的高山奔跑,却没有意识到自己却在一个环形跑道上。

大数据之大并不在于其数据量有多大,不在于其能处理“结构化”和“非结构化”的复杂数据,而在于大数据是融合各种各样来源的数据,描述事实各个方面的数据,以使得分析结果能够更真实、更全面地接近真相,这才是大数据真正的价值所在。而如果我们只能从自家的“小池塘”里调取数据,大数据无法发挥其真正的价值,甚至有可能输出偏差甚至错误的结果引导疯狂的大数据信徒走向危险的道路。

《大般涅盘经》三二:“尔时大王,即唤众盲各各问言:‘汝见象耶?’众盲各言:‘我已得见。’王言:‘象为何类?’其触牙者即言象形如芦菔根,其触耳者言象如箕,其触头者言象如石,其触鼻者言象如杵,其触脚者言象如木臼,其触脊者言象如床,其触腹者言象如瓮,其触尾者言象如绳。”

这是著名的盲人摸象的故事,如果我们把每个盲人视为一家企业,盲人通过手掌触摸获取到的信息视为企业通过自身渠道获取到的用户数据,盲人基于获取到的信息加以分析得出了对大象的描述,企业基于获取到的信息加以分析得出对客户的描述,以这样的逻辑来看,企业迷信“基于单一数据来源的大数据”跟盲人摸象没多大差别。

从本质上来说,大数据价值的体现必须是基于“数据的开放与共享”的,甚至是“数据分析结果的开发与共享”的,但在商业应用上,现实情况可能跟我上面说的“小池塘”情形相仿,各个大数据的运营企业、行业在数据的共享上各种壁垒,数据的共享目前还仅限于企业内部的共享,甚至企业内部的共享都尚不充分,以中国移动为例,中国移动拥有庞大的用户数据,分别产生/存放于B/O/M域等IT系统、各基地/专业公司业务平台以及统一DPI系统中(DPI数据规模巨大,蕴含丰富的用户行为信息,挖掘潜力巨大,对计算、存储网络资源提出巨大需求),但由于部门壁垒、接口实现难等原因,就目前我了解到的情况来看,这些数据并没有得到充分的共享和调用,可谓“坐拥金山而入山乏径”。

“以窄数据源支撑大数据分析及应用”人们往往抱有宽容的态度,认为这是一个过渡阶段,虽然可能无法发挥大数据的最大化价值,但总是有促进作用,至少是无害的。这是一个错误的观点,“以窄数据源支撑大数据分析及应用”是一件相当危害的事情。

单一企业/行业的数据是具有片面性的,如电商企业的数据只能反应用户的消费水平,购买偏好等属性,社交运营企业的数据只能反应用户的社交属性,圈子属性,金融企业的数据只能反应用户经济属性,由于数据源的限制,数据池的孤立,各企业/行业往往只使用内部各种系统、平台的客户数据进行分析,最多会结合一些通用的、容易获取的行业数据(如第三方咨询报告等),得出的结论只能对单一企业/行业有价值,应用的层面很单一。举个例子,游戏企业想要制作一款面向年轻人的社交游戏,但它只有目前的游戏玩家的数据,基于此分析出来的结果只能迎合固有的游戏玩家的喜好而不能挖掘非游戏玩家的需求以实现新的市场的突破,这就如同“盲人摸象”例子里说的,摸到象头的认为大象像石头,摸到尾巴的人为大象像绳子,一旦迷信大数据的能力和价值,并在企业运营中应用,这将是一种很危险的错误。

数据是具有欺骗性的。再举一个通俗点的例子,在周浩晖的悬疑小说《套子里的人》中,警察根据社交数据+嫌疑人表现进行分析,社交软件的聊天记录清楚地指向A有杀死B的倾向,而现实生活中A也说过“氰化物质用作毒药可真是不错”,而死者的死因也确实是氰化钾中毒,基于这样的数据信息作出A是凶手的结论是合情合理的,其实这就是大数据分析的结果,只是不是机器分析,而是我们大脑进行的大数据分析,而实际上,这个判断是错误的,因为社交软件使用了昵称,窄数据源的大数据分析无法判断昵称指代的是谁,同时A实际上说的是“氢化物”而非“氰化物”,这一点窄数据源的大数据分析也识别不出来。其实利用大数据分析去解决问题就如同侦探破案,数据源越少误差越大,只有充分调用方方面面的数据信息才能更靠近真相。

数据具有欺骗性。但数据本身是无辜的,是纯洁的,邪恶的是强行解读它的人。

是什么限制了数据的共享?

数据源的限制让大数据陷入了“盲人摸象”的困境,那到底是什么限制了数据的共享?这是问题的关键,也是大数据面向未来发展的瓶颈所在。

一是出于竞争的考虑,企业的市场信息、用户信息、产品信息一向以来被视为企业的核心机密,是竞争的基础,目前看来很难实现数据的共享,如运营商与OTT共享用户数据这是不可想象的事情。

二是即使不存在竞争关系(如银行与制造业),不同企业对彼此数据安全保护并不信任,企业会担心,大数据系统收集海量未分类、未经分析的数据,这些数据由于过于庞大,无法得到像传统数据库对数据部署的相同级别的保护。

三是数据共享的成本太大,由于不同企业/行业对数据的收集、存储的标准不一,系统数据库的构建也不同,系统间接口功能实现难度大,数据收集后的清洗、整理的“加工成本”庞大,而大数据应用产生的价值可能尚无法匹配,性价比并不乐观。

四是不同企业的大数据部署进度不一,数据共享对企业产生的价值不一样。如很多传统行业目前在大数据上仍处于起步阶段,而很多互联网公司、金融机构在大数据的部署上已经相当成熟,实现数据共享对彼此的价值迥异,这也造成在数据共享上门槛。

五是大数据的合法性目前还缺乏法律支持,数据的共享及分析应用尚存在伦理上的问题。

那怎么来解决这个问题?

大数据交易平台是解决数据源问题的一个探索,目前已有很多实质性的进展,如贵阳大数据交易所于2015年4月15日正式挂牌运营并完成首批大数据交易,预计在未来3至5年,交易所日交易额将突破100亿元。

大数据交易平台将数据标价出售,这给数据多元性、全面性的实现提供了一个渠道,但这同时是一种限制,想要进行大数据分析以指导经营行为的企业在购买数据前会进行人为的判断,而“人为”的判断的过程则是对大数据的一种亵渎。举个例子,医药公司想要生产一种抗病毒的药,经过分析,购买了因病毒而就医的人数的数据,数据显示近年来人数呈递减趋势,故而做出减少生产的决策,而事实上,由于气候问题,当年因病毒而患病的人数剧增,到时供不应求。而“人为”的判断忽略了气候的数据。

好吧,上段论述可能有点钻牛角尖了,新事物的发展具有无限可能性,大数据交易平台可能演变成为社会基础设施,如现在的证券交易平台。我依然觉得解决问题的终极思想是“去中心化”,企业不以自我为中心去实现数据共享,以追求大数据的整体价值的最大化,实现大数据改变世界的梦想。当然,这短期内来看有点理想化了。

“用数字说话”似乎是颠扑不灭的真理,这让人们养成了迷信数据的惯性,认为数字就是真理,我们希望每一个问题都可能用可量化的数字来回答,这不光存在于分析工作中,甚至在很多战略工作、管理工作中我们希望实现“量化”,但最重要的问题是,如果我们只将世界以数据来诠释,尤其是在数据来源全面性得不到保证的情况下,那其实是在冒着盲目迷信数据的风险,强行赋予其实不存在的道理与意义。我们必须要警惕自己不被数据欺瞒,或被“量化每一个问题”的虚假魅力所诱惑。

最后,大数据不是一种技术,而是企业理解世界、融入世界、改变世界的手段。

关键字:数据安全数据保存数据来源

本文摘自:科技移动LBS

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^