由中国计算机用户协会、中国互联网协会指导、比特网和IT专家网主办、比特CIO俱乐部承办的第五届中国CIO年会,在国家会议中心隆重开幕。本次年会主题定位新技术浪潮下的IT变革。聚焦热点技术,关注企业应用,引领IT变革。
刘权称:“从广义来讲,大数据产业链贯穿了数据整个生命周期,从产生、采集、存储,这和整个链条是有点相似的,从狭义来看,大数据的产业链主要涵盖数据的管理分析、呈现和应用的环节。从产业链条,既包括硬件也包括软件和信息服务,硬件、软件和信息服务,在座的都不太陌生,但是我们统计,从大数据销售收入来看,软件、硬件、信息服务,这里面信息服务比重相对来说比较高一点,服务占到44%,硬件占到了40%左右,应该说服务还是比较高的,里面软件相对来说要比较低一点。”
以下为刘权现场发言实录:
刘权:非常高兴今天有机会跟大家介绍一下我们有关在大数据方面研究的情况。听了两三位同志大数据他们的一些见解,听完之后有一个问题,大数据的概念究竟是什么?似乎听完之后在业界当中还是有些分歧,今天再给大家讲大数据带来的信息安全,有关大数据基本情况,简单给大家做一个汇报。
我介绍内容从以下四个方面,一个是有关大数据的定义、内涵和特征;第二,毕竟是IT人士,在信息化发展到这个阶段,未来大数据是每个企业或者将来IT行业不可避免;第三,看其他公司尤其传统的IBM、EMC他们正在做什么,包括小型的新型的IT公司,他们在做什么,有可能对咱们企业来讲,有启发。最后,给大家介绍大数据带来的安全敏感点。
第一有关大数据的概念,尤其今年3月份,奥巴马提出大数据以来,大家说得比较热,真正提出来的是2005年,IBM出版了一本书叫做《无所不包的数据》,如何改变和业务以及人们的生活。我们需要看到一点,这个大数据是不是就是一个数据的累计,就是大规模数据的概念,这块我的理解和刚才这几位企业人士的理解有点不太一样。从目前来看,大数据目前已经成为普遍的现象,从我们底下几个数据可以看得出来,全球数据总量目前这几年呈现指数级的增长,人类过去三年里,数量比以往400年还要多,目前信息总量两年翻一倍,到2020年全球电子设备存储在爆增5.42ZB,这个ZB是2的70次方,目前咱们现在大家接触比较多的是TB的概念,ZB在数据统计当中是最高的。
目前来讲,2011年,全球被创建和复制数据总量达到1.8ZB,这样的一个概念。同时,对于企业级来讲,企业级的用户它的数据量也是在快速增长,由43.5%的企业,每天产生数据生成量100GB,现在互联网公司包括电商企业,他们每天生成量超过50ZB,目前这个数据产生量还是非常庞大的。
第二个背景,在2011年6月份,麦肯锡有一本书《大数据下一个创新、竞争和生产力的前沿》。第三次热朝,在今年3月份美国政府把大数据研究和生产计划提高到国家的层面推荐它,包括日本新一轮IT振兴计划,也是把大数据发展作为国家层面战略提出来,大数据在西方发达国家来讲,他们还是高度重视的。
究竟大数据的概念是什么?我们的理解是,大数据不仅仅是咱们目前一般理解上的数据的概念,我们的理解是大数据其大小超出了典型数据库软件的典型、存储,这个概念可以看到,大数据这个背景下,传统的数据分析软件都是时效的,具备了这样的特征情况下,我们理解这个数据是目前业界所理解的大数据的概念,也不仅仅是目前电商企业累加起来产生的数据多一点。所以说大数据有些人给它的定义,大数据是自从计算机出来,又一次信息产业革命,从这点来讲,也印证了大数据的概念对产业带来的革命对技术的创新,在传统的数据库的分析软件,在大数据背景下都是时效的。
随着时间的推移,可以说大数据的规模肯定是增长越来越快,数据规模也在实际增长,对于不同的行业领域,不同的应用而言,大数据的规模也是不同的。到目前为止,有关大数据确切的地位是什么?业界还没有完全准确的定义。我们理解大数据,应该说它直接的代表是从咱们一般形式上观察,是数据集合静态的对象,但事实上来讲,大数据并不仅仅是大规模数据的集合本身,而指的是技术、对象、应用来说的,目前的软件分析和采集能力,从技术角度来看,大数据技术从各类型大数据中快速获得有信息的技术信息系统。大数据要求咱们在庞杂而烦乱的数据当中,能够快速的通过数据分析找到有价值、有规律的东西。
大数据集合集成获得有价值的,刚才几位专家提到了,大数据当中有关键的技术就是集成技术、平台技术,怎么样集成多方技术能够快速的从大数据当中找到它的有价值的信息。另外,有几个明显特征,体量大,大家不用再说了,从每个电商和互联网来讲数量都是非常大的。Facebook300亿条信息,这个数据量都是非常庞大的。类型多,这一点,也是大数据典型的特征,咱们传统的数据库当中,往往是结构化的,在目前来讲,咱们现在的数据库当中,所存储的主要是半结构化或者是非结构化的数据,比如说现在在智慧城市当中,对有些接入口的流媒体,接视频或者音频等的这样非结构化的数据,对他们来说占的空间很大,这样的分析也是非常麻烦的技术。
从统计来看,全世界目前来讲,结构化的数据增长率32%,非结构化数据63%,预计在2012年底,非结构的数据占的比例达到咱们互联网75%。未来要处理的大多数的数据是非结构化的,对非结构数据怎么样存储,怎么样分析,怎么样快速找出有价值的东西来,这是应对或者处理大数据要考虑的典型的问题。
第三,这一点,刚才乐蜂网提到了,除了的时候速度快,给你一个庞杂的数据库,如果对当中领导或者其他客户需要你从中挖掘出来他们感兴趣的几个点,你要持续三年或者五年,这个价值已经没有了,因为信息或者数据它的价值与时间是有关系的,他们要求你怎么样在几秒甚至几分钟,快速的抽取出有用的东西来,对大数据的分析,时间上了解是非常的迫切的。
第四,这也是我们在讨论的时候,对大数据也是有争议的地方,大数据的价值究竟高还是低?大数据需要保护还是不需要保护?大数据本身是不是关注它的安全问题?这个在目前来讲,业界争议还是非常大的,好多数据都是公开的数据,它的量非常大,它的价值非常低,不需要关注它的安全问题,有些人认为大数据本身也没有太大的价值,这是有些人的观点。另外一些人的观点来讲,用大数据当中经过对它的分析,信息量是非常高的,但是分析的结果可以说对一个国家的经济运行或者对一个企业或者对一个行业,这个影响还是重大的。
举个例子,前一段时间,家乐福和沃尔马,在超市销售商品过程当中,数据的管理系统或者它的销售系统的数据都是传到国外,传到法国和美国,这个问题会不会对中国的经济安全带来负面影响。从这个案例当中大家可以分析到,传授这些东西,比如说卖的日用品,对于单个产品来讲,价值很低,假如说你对它整个规模累加起来之后,对大规模的数据进行分析,确实它能够反映出来区域商品的走势可以说,全国采购成本在什么地方?他们都会找出一些痕迹或者找出一些证据来。大数据本身价值有没有还是没有?价值高还是低?这个在业界争议还是非常大的。大数据本身密度相对比较低的,但问题在于,如果从大数据当中能提炼出或者去分析,找出规律性的东西,它的价值是非常高的,这是对大数据的理解。所以说导致出来大数据是不是需要保护,有些人认为大数据本身量非常庞大,不经分析,它里面有价值的东西很少,对大数据本身不需要保护。但有些人观点考虑到,因为它的数据量很大,虽然说价值低,但是有价值的东西,有规律的东西还是非常高的,在业界有两派。
接下来简单介绍一下,作为IT人士,有关大数据,大数据时代确实已经到来,在这块对IT企业到底做什么事情?介绍大数据的产业链和关键技术。从广义来讲,大数据产业链贯穿了数据整个生命周期,从产生、采集、存储,这和整个链条是有点相似的,从狭义来看,大数据的产业链主要涵盖数据的管理分析、呈现和应用的环节。从产业链条,既包括硬件也包括软件和信息服务,硬件、软件和信息服务,在座的都不太陌生,但是我们统计,从大数据销售收入来看,软件、硬件、信息服务,这里面信息服务比重相对来说比较高一点,服务占到44%,硬件占到了40%左右,应该说服务还是比较高的,里面软件相对来说要比较低一点。
刚才几位业界人士提到,有集成技术,关键技术包括数据处理,数据的呈现,还有数据集成技术,通过数据分析技术来讲,这里面包括数据挖掘、商业智能技术、遗传算法、神经网络等,这里面对分析技术来讲,传统智能的或者说比较先进的一些数据分析方法在这里面有所体现。从处理技术上来讲,最主要的是非结构化的,呈现技术来讲,主要包括可视化的技术,展示技术等等,此外,刚才还提到了最关键的平台集成技术。
接下来,其他的企业做什么,其他的企业做法有可能给在座的各位有所启发,业界人士现在有一个观点,大数据所能带来的商业价值,每个人是引领作为20世纪计算革命下巨大的变化,这个也是最近不久在研讨会上专家谈到的,现在大数据的出现,对互联网加上物联网等等,这个对整个IT业界的冲击或者革命性的作用来讲,这个作用更大,大家对大数据里面给业界带来的革命性的或者给产业带来快速增长,有一个新的增长点,这个作用都是很高的。现在包括传统IT企业,新型的IT企业,他们认识到企业的价值,大数据的价值,所以说他们在大数据里面不管是传统的IT企业,还是其他的新的IT企业,都是在这个里面做出了一些部署。
接下来简单给大家介绍几个企业,他们究竟在做什么?
在业界来讲,大数据里面,大家提到了不外乎就是IBM、惠普、戴尔等这几家工业,IBM在大数据时代,他们还是做好充分的准备,尤其这几年他们的做法。2009年IBM提出了优化战略、大规模数据的处理,2011年IBM应对海量数据平台进行多项创新,在今年的3月16号,IBM论坛上,IBM正式提出大数据的概念,IBM在大数据里面确实本身是信息服务商,在这里面有一些自身的核心技术的积累。
另外,它确实也对大数据,从高层认识上非常关注,也包括今年5月17号,IBM正式在中国市场发布了智慧的,推出了完整的方法论,从信息的分析结果到业务成果的整体途径,IBM将这种方法叫做3A五步,学习和转型,IBM为用户提供了软硬件产品服务。今年9月份IBM大数据战略发布会上,又全面进行了升级,业界率先提出了大数据平台架构,为行业企业选择构建大数据基础方案提供了全面的支持。
从2009年4月份,一直到2011年,包括今年3月份、5月份、9月份,今年短短半年,对大数据概念进行两次更新,最初的概念到整个行业完整服务的解决方案,尤其最近提出大数据平台的概念,这一点在业界还是得到很好的反响。这个大数据平台有四大核心能力,包括提到的Hadoop系列,流计算、数据长度加上数据的整合与治等等,全方位都提出来解决方案。Hadoop这个系统领域当中,它代表的产品主要是Infosplere Streams,在这个里面提出普通的Hadoop开源工具,在可用性、安全性得到了大力提高,在流计算领域代表的产品,包括在信息整合和治理方面,他们都推出了整体解决方案。
Oracle做最大的改变,从传统的软件到现在提出来,他们是软硬一体化,尤其在今年年初提出来一体化的概念,在业界反响还是很大。
EMC,在座的各位不是太陌生,这个企业很典型的存储行业,在35%左右的,应该说多年来都是排行第一的,长期与IBM、惠普远远抛在深厚,EMC出场收入连续十五年,占整个市场的22.6%,这家公司在存储行业,传统存储领域非常有竞争优势,但是在应对大数据时代的到来,EMC他们确实动作也是比较大的,EMC在应对大数据这块,重点是采用了两个战略,第一是抓研发,第二抓并购,每年投入25亿美元,收购资金20亿美元。在收购其他企业的时候,EMC和其他的公司,EMC在收购的时候,是丰富的现金去支持企业的发展,而不是去改变现在企业的业务架构,在收购的同时不改变企业的战略,这一点对被收购的企业快速增长补充了一个现金流,从这两年收购的情况看效果还是比较好。
EMC在云计算为平台大数据战略也是EMC在大数据时代,他们最早的一个企业,像比竞争对手来讲,关注大型的机器和大型管理软件,EMC主要采用云计算开放式、集成式进行处理。这两年EMC在大数据这块动作也是非常频繁的,在今年5月21号,EMC Word大会上一次性推出42个产品,去年1月份以来,已经推出了41款产品,现在不到两年的时间,现在已经推出了83款,EMC在大数据的领域,应该说它的创新步伐非常快。
第四个就是惠普,刚才惠普同志也介绍了,不再多说了。
传统的IT企业来讲,他们在应对大数据时代到来,他们都做了充分的准备,在大数据时代确实非常看好,并投入了大量的人力和物力,也把大数据的战略和提升核心竞争力关键措施之一。
对几家新型的公司来看,简单举几个例子,这里面只能证明一点,风险投资或者有关大数据处理的公司,风投还是非常看好的,Spluek公司,4月19号在纳斯达克交易口上市,这也是大数据公司第一家上市公司,融资2.29亿美元,上市首日超过了32亿美元,从市场的反映情况来看,现在在美国市场出现暴涨情况,目前非常少见。
对于Birst公司,成立时间很短,2004年成立,2012年5月2号完成了4600万美元的风投。这是做云笔记的公司,成立于2007年,
这几家公司对风投行业来讲,他们都是很容易的获得了高额的风险投资,不管对传统的IT企业还是对于新型弱小的IT公司来讲,大家都是非常看好EMC,都是看好大数据行业,对新型的比较弱小的企业来讲,这个股票市场和风投都给出了满意的答卷。
刚才已经提到未来不可避免的,不管是对于互联网公司也好,还是提供IDC服务的这些公司,大数据是咱们将来不可避免,也是一定遇得到的事情。对于大数据时代,这个企业应该怎么去做?这些风险应该有多大?大数据究竟需要不需要过多关注它的安全问题?在业界目前来讲,有两块观点,作为我们研究团队来讲,对于大数据它的安全性,应该还是得到初步的重视,大数据当中确实里面的信息含量比较高,虽然说里面的价值密度相对来说比较低,但是对它里面还是涉及到敏感信息,随着现在快速处理这样一些技术的出现,快速得到有价值的信息或者风投分析出来有关企业敏感气息。所以我们认为对大数据大家还是应该去关注它的安全的问题,它的安全风险主要体现在以下几个方面:
第一,大数据更加容易成为网络攻击的显著目标,从近两年所发生的一些互联网公司的用户帐号的信息失窃情况来看,大家可以发现,一般失窃的量都是非常庞大的,也就是说,大数据当中数据量比较大,它的信息量也比较大,所以黑客更加乐意去攻击,因为相对来说成本是比较低的。
第二,大数据当中加大了隐私泄漏的风险,毕竟是大数据,对一个企业在数据存储和部署的时候,有些时候容易交叉存储,把敏感信息一不小心部署到公开的或者不应该部署到服务器上,更容易加大隐私的泄漏。
第三,大数据对于现有的存储和防范措施,这点是不言而喻的,大数据数据量比较大,对于现在的存储和目前安全防范措施可能提出新的挑战。同时,大数据分析技术也容易被黑客利用攻击当中去。
第四,大数据可能成为高级可持续的载体,APT这两年提的比较多的词,有一个显著特点,这个病毒代码非常强大,有攻击目标很难隐藏期间,对于庞大的大数据来讲,这样的恶意软件隐藏在数据词当中很难发现。所以说有可能大数据成为高级的可持续APT的攻击载体,这一点可能是需要大家非常注意的。