当前位置:云计算行业动态 → 正文

电信行业大数据规划和建设

责任编辑:cres |来源:企业网D1Net  2016-06-15 12:09:07 原创文章 企业网D1Net

2016 CCS企业云计算高峰论坛(ccs.d1net.com)于6月15日在北京国际会议中心盛大举行,这是国内面向政企客户的最重要的一个云计算会展。CCS企业云计算高峰论坛上,云与大型企业的兼容性将成为主要议题。

以下是现场速递。(声明:本稿件来源为现场速记,可能有笔误和别字,仅供参考)

主持人:感谢阳总的分享,2020年全球将有超过250亿台设备联网,在线用户会达到44亿,面对如此巨大的市场中国移动提出做大连接规模,做优连接服务,做强连接应用的大连接战略,下面有请中国移动大数据总架构师段云峰给我们讲讲电信行业大数据规划和建设。


中国移动大数据总架构师 段云峰

段云峰:很高兴有这个机会跟大家做一个交流。今天讲的内容主要跟大家做一下大数据方面的介绍。大家可能知道大数据的发展速度很快,大数据里面现在面临的一个问题就是海量数据用什么样的方式方法来去处理。那么,云计算提供了一个很好的底层的基础架构。所以,也在这里面跟大家做一个分享。

本人在运营商里面,中国移动从2001年开始就做大数据规划,当时叫数据仓库。所以,可能今天用半个小时时间跟大家做一个初步的分享,中国移动在大数据领域上,在建设,包括运营上积累的一些经验。

首先,看一个变化,这个最大的变化是非结构化数据处理,海量的非结构化数据引出的一个变化。2001年的时候中国移动去建数据仓库系统,更多都是结构化数据。那么,现在可能面临的一个问题,就是这些非结构化的数据涌现以后怎么样去处理。从2001年开始,中国移动开始做这种Hadoop、云计算这方面的尝试,已经在很多省取得很多的成绩,从去年开始中国移动全网开始部署大数据的系统。中国移动知道的情况,手机的数据量很大,中国移动的数据应该说我总结下来四个特点:第一,全量。为什么说全量。中国移动大概8亿的客户,所以这个量应该说可以覆盖中国大部分的用户。第二,全维度。为什么全维度?像淘宝、京东可能只有自己的数据,但是像运营商,理论上可以拥有这些所有互联网公司的相关的一些数据。第三,全时空的特点。全时空是像运营商的数据也有位置,也有时间等等这些方面的一些信息,最重要的一点是鲜活。大家在实时的使用手机过程中都留下实时的数据,这是运营商的第三个特点。第四,运营商的能力可以做到全服务。中国移动全网有60万人,包括营业厅、渠道,运营商做一些服务很容易,这就是它的一个优势。

那么,当年中国移动2001年为什么要建数据仓库系统?一个主要的原因就是想去做一些精细化的管理,精细化的营销,这个口号大概真正的提出是2005年,在中国移动内容就提出精细化营销,精细化管理。所以,当时把手头积累的这些计费类的数据做了一个整理,整理之后变成数据仓库,然后支持营销。

原来数据计费只有结构化的数据,现在看明显不够,现在需要一些信令类,包括上网的数据,大量的非结构化的数据,这个量是原来的数据仓库技术里面没法完全解决的。所以在中国移动现在面临的一个办法,我们一个解决办法就叫做混搭。所以,运营商角度来说,大概主要用三个技术,实时流技术,Hadoop技术,还有MPP,MPP好像行业外用的不多,MPP好处就是X86的数据库,所以主要的好处,原来的ROE主要可以建设成本。主要是这么一个关系。这是大概面临的一个情况。

这是整个运营商的演进,应该说过去的15年整个大数据系统架构的一个变化。2001年的时候,当时我们做数据仓库规划的时候,全国大概加起来真正能干的,或者明白的超不过20个人,2001年当时面临这样的情况。所以,当时运营商画出的架构基本是基于Inmon(荫蒙),一个教授。上面的应用情况,当时的形势最早想提供的主要是包括报表、KPI、OLAP,OLAP 2001年开始就想做一个主要的技术特征,数据仓库和数据库相比有什么技术特征?那么,我们经验的感觉来说,一个是OLAP,这是它主要的分析点,还有一个是元数据,这两个是数据仓库区别于数据库的主要的差别。运营商做的过程中,OLAP方面积累了大量的工作,从2010年开始做Hadoop相关的尝试,应该说现在市面上见到的这些在中国移动大概在2010年前都开始做了相关的尝试。那么,从去年开始,整个中国移动把大数据系统的架构做了一个混搭的部署,这个混搭的部署实际上就是形象的说法上,专业的技术做专业的事。这边也想跟大家谈一下感受,数据仓库,或者大数据到底和数据仓库是什么?可能后面会有一些思考,我们干了十几年,可能一直在思考这个问题。

我们总结下来,数据仓库第一成本确实贵,垄断在这些ROE,这些厂商,价格是一方面。但是,最重要的一点,实际是它的技术特征,他希望通吃,但是通用平台处理费结构化的海量数据上有点力不从心。数据仓库像全地形车,现在数据量太大了,非结构化用Hadoop处理,结构化数据有很多选择,可以放在MPP上,可以放在仓库上,所以,现在的玩法把它打散了,再次分散化,这是我们对这个的一个理解。

那么,在现在混搭的大数据中心里面,传统的数据仓库还依然存在,传统的数据仓库还是有它的优势,优势在它的组织、整理,目前Hadoop还没有进入到这个阶段。做数据仓库第一要建模,数据仓库的数据要做建模,基于第三范式做建模,但是Hadoop还没有到这个阶段。MPP定义成数据集市,能做数据挖掘,Hadoop做一些非结构化数据的处理,比如像日志等等这些方面的处理,同时又引入实时的计算,实时计算里面,主要解决实时的应用场景,这是主要的原因。上面通过数据封装来去做一些对外服务,刚才我们说的现在的主题,云计算,我们内部叫4S,除了IaaS以外,有DaaS、PaaS、SaaS,这个数据对外可以给各种各样的应用提供展现,这些应用包括公司内部,也包括公司外部。最左边是数据的运维,这些我们是有很惨痛教训的。过去的15年,我们确实花百分之六七十的经历在折腾数据治理,目前我看到很多互联网公司还没有到这个阶段。

中国移动过去十年累计投资120多亿,光在数据仓库大数据投了120多亿,服务用户数10万多人,在国企里整个过程是数一数二的。中国移动对外提供的SaaS、PaaS、DaaS服务,DaaS就是把数据作为一种服务对外提供接口,这个效果还是很明显,能够把海量数据给国家的一些机关,国家的政府做服务,这是我们现在体现这种社会价值,体现对社会服务的一个主要的点。

第二个层面就是PaaS,中国移动的PaaS在做的过程中可能会服务几方面。首先就是内部客户,因为像中国移动这样的公司全国60多万人,它的部门大约几十个部门,内部的这些部门有一些IT需求必须满足,这是必须要做的。第二,对外部的服务需求,像运营商,这些节点数都是几千上万,也是有能力科技对外提供服务的,这些对外服务,将来的模式也是在探索。

SaaS层实际在探索,以前在数据仓库领域,在SaaS层做了很多工作,做了很多尝试,这块的工作也希望在未来做更多的展开和深入。上面就是对内对外的一些应用。

实际上中国移动目前做的对外服务里面,包括政府部门,包括交通部门,包括旅游部门,包括医疗部门,包括金融部门,都有这样的一些案例,包括互联网公司,广告公司都做了很多的案例,都做了很多的尝试。但是,可能之前对外宣传的不是特别多,所以可能大家不太了解。

下面跟大家分享一下大数据的主要的技术,我们在云上需要做的一些相关的和大数据相关的主流技术,包括Hadoop、Spark、MPP、流处理、内存数据库、NoSQL。这些案例是我们的真实情况,是在一个省做的Hadoop,大概2010年前后。做了Hadoop以后,它的特征就是适合于解决海量的,处理不需要很复杂的。确实现在Hadoop上的生态圈的一些技术都有自己的特点,但是也有自己的瓶颈点。那么,这个能看到,整个拿Hadoop做一些查询,基于Hbase的查询,现在这个话单的查询,每打一个电话形成一个话单,这个话单的查询,原来的查询方法放到Oracle数据库,但是数据很慢,现在放到Hbase,现在基本从秒级到毫秒级,可以把结果展现出来。这是我们看到的效率。清单处理的效率能提高21%,这种处理主要体现在ETL,我们在并行性的ETL操作里面做了很多Hadoop的尝试。在存储方面的压缩,可以压缩比达到6倍,实际也能达到10倍,我们自己测算的时候也能达到10倍。这是Hadoop的优势。

Spark的应用,用Spark来部分替代原有的技术前采用DB2的仓库。现有数据量增长120%,入库的时间较原来的时间提升45分钟,现在入库时间一分钟就能入库,原来得四五十分钟。这是它的显著特征,从数据仓库要进行不同的汇总,处理过程要做不同的分级,这个汇总时间也缩小3.5小时,这个速度还是很明显的,Spark的速度能感受到,还是很明显的。

MPP的过程,把原来的数据从Oracle迁到Vertica,转换过来数据性能提升8倍,压缩率也是6倍左右,这个效果也是比较明心。现在本科毕业的计算机系的能写Hadoop程序吗?这是我们遇到的问题,Hadoop人力成本太高,院校都没有这样的人才积累。特意问了很多刚毕业的学生,基本上学校没有人学过Hadoop,所以Hadoop的成本太高,这个圈子里面年薪百万都不算高,但是也是有问题,以后怎么进行维护等等这样的一些问题。

流处理的场景,用了一些Storm,指标能做到秒级的实时展现,最要命它的计算很复杂,经常涉及大多个表的关联,大表关联,这是Hadoop最大的弱项,根本做不到。所以,现在做这些操作的过程中,我们只能选择一些指标来去做一些快速的处理,做一些秒级的显示,这样处理的效果更好,让管理者及时的了解实际情况。

还有NoSQL,主要用Hbase,导入速度更快,然后这是存储的情况。Hbase主要的还是查详单,如果稍微复杂一点,可能就做不到了。

实时操作的时候,还有Flume+Kafka+Storm,从节点里实时获取数据,16进程一秒钟处理9万条话单的数据,这是原来处理不了的。运营商基本架构就是Flume+Kafka+Storm这个架构。

谈几个感受,关键点。首先,现有阶段我们只能选择混搭的架构。但是,问题也很麻烦,之所以选择混搭的原因是因为数据量大,而且数据结构复杂,最重要数据的计算特征多样化,这是原来数据仓库不碰到的,在现有的环境如果把所有数据都进行处理和计算,只能是拼接模式,用什么技术处理什么样的业务特征,这是现在能感受到的。但是,这个问题就是什么?你的维护成本提高了。现在先说一个Hadoop的维护,大概我们自己内部做的测算,我们起码3、4倍以上维护人员的成本。因为这是开源的,开源社区的毛病是,你做一个大公司的用户,出了问题找谁都找不到。现在开源的问题是什么,花钱都找不到谁来帮你解决问题。所以,我们这个可能是很头疼的。而且最重要的是维护的工具齐全,像Hadoop这种开源式的,没有一些设备管理的工具,在Hadoop上这些工具都是很欠缺的。所以我们的兄弟开玩笑说,现在很怀念传统的DBMS,因为那些东西都是很成熟了,玩了几十年,管理等等方面都是很成熟。现在Hadoop的案发都是发烧友的玩法,都是开源的,没有得自己开发,这个东西很耗精力,这个真的是我们的感受。所以,我个人觉得,将来应该有一种,这种多重结构并存的应该是暂时的,进来我们在等待这一天,再次出现一个新的全地形车,能够把所有的计算特征聚集在一起,降低用户的使用难度,这是第一个问题。

第二个问题大数据安全。一提到大数据,大家肯定面临国企做大数据第一反映就是安全,怎么样保证客户的隐私,不能把敏感数据外泄,这是我们很重要的关键的问题点。中国移动从2007年就开始探索大数据安全,不算网络侧,网络侧和系统侧都不算,只是数据层、应用层怎么考虑安全,包括我们做一些脱敏,就是即使闯到我的数据库,你拿到的这个库表也看不懂,关键数据都是做的条码,都是加密,你也看不懂。我们也做了一些水银,如果这张表被透露到外界,我们大概能查出谁干的,事前可控,事中可管理,事后可追查。安全叫七分管理、三分技术。所以,在中国移动尝试过程中做了大量的管理方面的尝试,从各个维度,包括组织和人的管理过程,包括系统的管理过程,还包括数据的安全管理过程等等,方方面面都做了大量的一些尝试。那么,这个工作包括现在正在做的一些研究,包括Hadoop。大家觉得Hadoop安全吗?Hadoop就是站在专业人的角度那是漏洞很多的。

举个例子,一个开源的系统怎么做安全?所有的Hadoop都是公开的,怎么做安全?这是很大的问题,一般来说做安全是私有的系统,私有的协议,但是如果整个机制你都完全知道,而且现在Hadoop,包括元数据,包括它的Datanote上的数据节点都是零码存的。所以,怎么做Hadoop的安全加固,我问了业界,基本上都没有做这方面的研究。所以,现在Hadoop的安全急需突破,急需做这方面的工作,这是我们感受到的安全。

安全里面再多说一句,所谓的客户隐私,包括互联网,包括运营商,包括大数据摆在面前的最重要的就是客户隐私。我有时候开玩笑,互联网时代客户的隐私怎么去保护?所以,在应用的情况下,我们像运营商,现在采取的办法一般都是不涉及个人客户,只是出群体客户的报告,就是我不说张三李四,只说比如我们这个屋会场的听众都有什么特征,可以这样做,这样就不涉及个人的李四。所以,现在只能采取一些措施去规避客户隐私的问题,而且客户隐私在中国移动内部也是上纲上线,也是很严格的,要敢碰这个红线,真是要有牢狱之灾的。这也是一些问题。

对外服务,现在运营商刚刚起步,还没有太大量的做,但是一做就有很多收益。举个例子,我们在一个省半个人做了一些数据对外服务的工作,一年就能挣1500万,当然这1500万他自己拿不到。但是,能证明什么?就是业界很需要这种数据的运营和数据分析。那么,中国移动现在在大数据的应用里面做了很多对外服务,也做了统一的API接口,通过API接口对外提供相关的服务。

第四个分享就是数据质量,数据质量这块的内容压力很大,过去15年我们真的是有60%左右的精力在数据质量。现在业界我看到的很多的企业还没有进入到这个阶段。像中国移动这种大的企业首要的服务目标是内部,互联网不一样,像阿里可能首要的服务目标是对外,内部客户对数据质量感知很高,外部客户对数据质量感知不高,你数据差一分钱他都不干,所以这涉及到人的奖金,所以这些工作你要长时间的PK,包括制度,包括技术的手段怎么去做。元数据,我们实际上最早借鉴CWM2.0技术,都是元数据模型的一些标准,我们就是做相关的这些内容。

我们前后十几年的时间都在做数据质量系统的完善建设,也在做一些元数据的工作,包括血缘图等方面,都做了大量的积累。这些现在积累的成效也还是比较明显。所以,我们在跟别的行业,包括银行各方面做交流的时候,他们也很感慨,我们在数据质量方面做的积累应该说是在业界,应该算是领先的。

这个给大家分享的可能就是我们过去15年干的这些事。这些事加起来,我们现在写各种文档加起来,基本等于我身高了。不能说著作等式,也差不多。为什么说这个?因为过去做大数据过程中所有数据都要标准化,包括建模,现在Hadoop很多都不涉及建模,但是实际上做数据管理建模是基础,我说的模型是物理模型和逻辑模型,这个概念是数据库里面的模型。现在很多大数据企业还没有进到这个阶段,并不是你可以绕过去,这是我们的感受。我们干了15年,数据的整理,这些模型接口都需要量化,都需要标准化,前面不做工作,后面只能花10倍的精力再去补这个工作,这是我们的惨痛教训,希望引起大家的注意。

这些工作就是每一个,这才只写到2009年的文档,如果写到现在的文档就更多了。所以,大家知道这个大数据现在风光之下,是大量血汗的工作的积累,是大量我们团队员工血汗的积累。所以,这个能感受到。所以,进来做这些工作的时候,怎么把这些数据做一个标准化的工作。

这是本人写的四本书,前面两本书《数据仓库基础》、《数据仓库》是2004年、2005年。跟大家提的是去年写的,《大数据和大分析》,这本书也算在业界第一次提出大分析的概念,因为大数据更多涉及到静态,涉及到数据整理,但是它的价值靠应用来体现,如果没有分析,没有应用,这些数据就是死的数据,它是没有价值的。所以,现在我们看到的业界可能大家都在提大数据,都在做一些简单的应用,但是如何让这些数据系统化的构建应用框架和应用体系,这是从业者一定要考虑的问题。像运营商做这些应用架构的时候花了十几年,包括客户的分析,产品的分析、管理的分析、财务的分析、网络的分析等等。所以怎么通过大分析让大数据真正的见到效益,这是所有业界必须要考虑的问题。第四本书《大数据的互联网思维》。大家有没有发现大数据的问题是什么?大数据现在最大的问题我觉得就是缺少理论,数据仓库最起码有一个Inmon(荫蒙),大数据有这样的人吗?没有,什么是大数据?完全是从企业界突然冒持续的东西,学术界还没有跟上,学术界可能有他单独的想法,可能不认为是一个单独的学科。但是,大数据到底怎么去做,怎么去建设,现在业界可能更多关心怎么把数据凑到一块,还没有开始考虑怎么建设,更没有更多的精力考虑应用怎么建设。这本书里面实际上把互联网思维和大数据应用进行了首次结合,应该在业界,包括国外是第一次。我做IT做了30年,从中二年级开始做IT,IT的诸多问题我太清楚了,我们不缺新概念,但是我们面临的问题是你要解决核心问题和用户的应用价值问题。这些问题怎么解决,你的用户体验怎么样,产品应该怎么设计,等等一系列的问题,业界我看还没有人考虑这个问题。所以,把个人的分享跟大家分享。

这四本书是中国移动过去15年大量实用的真实的案例,让大家感受一下一个大型的国企真正做大数据系统,做应用系统怎么做,它的数据管理怎么做。

通过这样的机会很高兴跟大家做一个交流,所以后面有问题也可以跟我联系,谢谢大家!

主持人:感谢段总的精彩分享!

关键字:云计算

原创文章 企业网D1Net

x 电信行业大数据规划和建设 扫一扫
分享本文到朋友圈
当前位置:云计算行业动态 → 正文

电信行业大数据规划和建设

责任编辑:cres |来源:企业网D1Net  2016-06-15 12:09:07 原创文章 企业网D1Net

2016 CCS企业云计算高峰论坛(ccs.d1net.com)于6月15日在北京国际会议中心盛大举行,这是国内面向政企客户的最重要的一个云计算会展。CCS企业云计算高峰论坛上,云与大型企业的兼容性将成为主要议题。

以下是现场速递。(声明:本稿件来源为现场速记,可能有笔误和别字,仅供参考)

主持人:感谢阳总的分享,2020年全球将有超过250亿台设备联网,在线用户会达到44亿,面对如此巨大的市场中国移动提出做大连接规模,做优连接服务,做强连接应用的大连接战略,下面有请中国移动大数据总架构师段云峰给我们讲讲电信行业大数据规划和建设。


中国移动大数据总架构师 段云峰

段云峰:很高兴有这个机会跟大家做一个交流。今天讲的内容主要跟大家做一下大数据方面的介绍。大家可能知道大数据的发展速度很快,大数据里面现在面临的一个问题就是海量数据用什么样的方式方法来去处理。那么,云计算提供了一个很好的底层的基础架构。所以,也在这里面跟大家做一个分享。

本人在运营商里面,中国移动从2001年开始就做大数据规划,当时叫数据仓库。所以,可能今天用半个小时时间跟大家做一个初步的分享,中国移动在大数据领域上,在建设,包括运营上积累的一些经验。

首先,看一个变化,这个最大的变化是非结构化数据处理,海量的非结构化数据引出的一个变化。2001年的时候中国移动去建数据仓库系统,更多都是结构化数据。那么,现在可能面临的一个问题,就是这些非结构化的数据涌现以后怎么样去处理。从2001年开始,中国移动开始做这种Hadoop、云计算这方面的尝试,已经在很多省取得很多的成绩,从去年开始中国移动全网开始部署大数据的系统。中国移动知道的情况,手机的数据量很大,中国移动的数据应该说我总结下来四个特点:第一,全量。为什么说全量。中国移动大概8亿的客户,所以这个量应该说可以覆盖中国大部分的用户。第二,全维度。为什么全维度?像淘宝、京东可能只有自己的数据,但是像运营商,理论上可以拥有这些所有互联网公司的相关的一些数据。第三,全时空的特点。全时空是像运营商的数据也有位置,也有时间等等这些方面的一些信息,最重要的一点是鲜活。大家在实时的使用手机过程中都留下实时的数据,这是运营商的第三个特点。第四,运营商的能力可以做到全服务。中国移动全网有60万人,包括营业厅、渠道,运营商做一些服务很容易,这就是它的一个优势。

那么,当年中国移动2001年为什么要建数据仓库系统?一个主要的原因就是想去做一些精细化的管理,精细化的营销,这个口号大概真正的提出是2005年,在中国移动内容就提出精细化营销,精细化管理。所以,当时把手头积累的这些计费类的数据做了一个整理,整理之后变成数据仓库,然后支持营销。

原来数据计费只有结构化的数据,现在看明显不够,现在需要一些信令类,包括上网的数据,大量的非结构化的数据,这个量是原来的数据仓库技术里面没法完全解决的。所以在中国移动现在面临的一个办法,我们一个解决办法就叫做混搭。所以,运营商角度来说,大概主要用三个技术,实时流技术,Hadoop技术,还有MPP,MPP好像行业外用的不多,MPP好处就是X86的数据库,所以主要的好处,原来的ROE主要可以建设成本。主要是这么一个关系。这是大概面临的一个情况。

这是整个运营商的演进,应该说过去的15年整个大数据系统架构的一个变化。2001年的时候,当时我们做数据仓库规划的时候,全国大概加起来真正能干的,或者明白的超不过20个人,2001年当时面临这样的情况。所以,当时运营商画出的架构基本是基于Inmon(荫蒙),一个教授。上面的应用情况,当时的形势最早想提供的主要是包括报表、KPI、OLAP,OLAP 2001年开始就想做一个主要的技术特征,数据仓库和数据库相比有什么技术特征?那么,我们经验的感觉来说,一个是OLAP,这是它主要的分析点,还有一个是元数据,这两个是数据仓库区别于数据库的主要的差别。运营商做的过程中,OLAP方面积累了大量的工作,从2010年开始做Hadoop相关的尝试,应该说现在市面上见到的这些在中国移动大概在2010年前都开始做了相关的尝试。那么,从去年开始,整个中国移动把大数据系统的架构做了一个混搭的部署,这个混搭的部署实际上就是形象的说法上,专业的技术做专业的事。这边也想跟大家谈一下感受,数据仓库,或者大数据到底和数据仓库是什么?可能后面会有一些思考,我们干了十几年,可能一直在思考这个问题。

我们总结下来,数据仓库第一成本确实贵,垄断在这些ROE,这些厂商,价格是一方面。但是,最重要的一点,实际是它的技术特征,他希望通吃,但是通用平台处理费结构化的海量数据上有点力不从心。数据仓库像全地形车,现在数据量太大了,非结构化用Hadoop处理,结构化数据有很多选择,可以放在MPP上,可以放在仓库上,所以,现在的玩法把它打散了,再次分散化,这是我们对这个的一个理解。

那么,在现在混搭的大数据中心里面,传统的数据仓库还依然存在,传统的数据仓库还是有它的优势,优势在它的组织、整理,目前Hadoop还没有进入到这个阶段。做数据仓库第一要建模,数据仓库的数据要做建模,基于第三范式做建模,但是Hadoop还没有到这个阶段。MPP定义成数据集市,能做数据挖掘,Hadoop做一些非结构化数据的处理,比如像日志等等这些方面的处理,同时又引入实时的计算,实时计算里面,主要解决实时的应用场景,这是主要的原因。上面通过数据封装来去做一些对外服务,刚才我们说的现在的主题,云计算,我们内部叫4S,除了IaaS以外,有DaaS、PaaS、SaaS,这个数据对外可以给各种各样的应用提供展现,这些应用包括公司内部,也包括公司外部。最左边是数据的运维,这些我们是有很惨痛教训的。过去的15年,我们确实花百分之六七十的经历在折腾数据治理,目前我看到很多互联网公司还没有到这个阶段。

中国移动过去十年累计投资120多亿,光在数据仓库大数据投了120多亿,服务用户数10万多人,在国企里整个过程是数一数二的。中国移动对外提供的SaaS、PaaS、DaaS服务,DaaS就是把数据作为一种服务对外提供接口,这个效果还是很明显,能够把海量数据给国家的一些机关,国家的政府做服务,这是我们现在体现这种社会价值,体现对社会服务的一个主要的点。

第二个层面就是PaaS,中国移动的PaaS在做的过程中可能会服务几方面。首先就是内部客户,因为像中国移动这样的公司全国60多万人,它的部门大约几十个部门,内部的这些部门有一些IT需求必须满足,这是必须要做的。第二,对外部的服务需求,像运营商,这些节点数都是几千上万,也是有能力科技对外提供服务的,这些对外服务,将来的模式也是在探索。

SaaS层实际在探索,以前在数据仓库领域,在SaaS层做了很多工作,做了很多尝试,这块的工作也希望在未来做更多的展开和深入。上面就是对内对外的一些应用。

实际上中国移动目前做的对外服务里面,包括政府部门,包括交通部门,包括旅游部门,包括医疗部门,包括金融部门,都有这样的一些案例,包括互联网公司,广告公司都做了很多的案例,都做了很多的尝试。但是,可能之前对外宣传的不是特别多,所以可能大家不太了解。

下面跟大家分享一下大数据的主要的技术,我们在云上需要做的一些相关的和大数据相关的主流技术,包括Hadoop、Spark、MPP、流处理、内存数据库、NoSQL。这些案例是我们的真实情况,是在一个省做的Hadoop,大概2010年前后。做了Hadoop以后,它的特征就是适合于解决海量的,处理不需要很复杂的。确实现在Hadoop上的生态圈的一些技术都有自己的特点,但是也有自己的瓶颈点。那么,这个能看到,整个拿Hadoop做一些查询,基于Hbase的查询,现在这个话单的查询,每打一个电话形成一个话单,这个话单的查询,原来的查询方法放到Oracle数据库,但是数据很慢,现在放到Hbase,现在基本从秒级到毫秒级,可以把结果展现出来。这是我们看到的效率。清单处理的效率能提高21%,这种处理主要体现在ETL,我们在并行性的ETL操作里面做了很多Hadoop的尝试。在存储方面的压缩,可以压缩比达到6倍,实际也能达到10倍,我们自己测算的时候也能达到10倍。这是Hadoop的优势。

Spark的应用,用Spark来部分替代原有的技术前采用DB2的仓库。现有数据量增长120%,入库的时间较原来的时间提升45分钟,现在入库时间一分钟就能入库,原来得四五十分钟。这是它的显著特征,从数据仓库要进行不同的汇总,处理过程要做不同的分级,这个汇总时间也缩小3.5小时,这个速度还是很明显的,Spark的速度能感受到,还是很明显的。

MPP的过程,把原来的数据从Oracle迁到Vertica,转换过来数据性能提升8倍,压缩率也是6倍左右,这个效果也是比较明心。现在本科毕业的计算机系的能写Hadoop程序吗?这是我们遇到的问题,Hadoop人力成本太高,院校都没有这样的人才积累。特意问了很多刚毕业的学生,基本上学校没有人学过Hadoop,所以Hadoop的成本太高,这个圈子里面年薪百万都不算高,但是也是有问题,以后怎么进行维护等等这样的一些问题。

流处理的场景,用了一些Storm,指标能做到秒级的实时展现,最要命它的计算很复杂,经常涉及大多个表的关联,大表关联,这是Hadoop最大的弱项,根本做不到。所以,现在做这些操作的过程中,我们只能选择一些指标来去做一些快速的处理,做一些秒级的显示,这样处理的效果更好,让管理者及时的了解实际情况。

还有NoSQL,主要用Hbase,导入速度更快,然后这是存储的情况。Hbase主要的还是查详单,如果稍微复杂一点,可能就做不到了。

实时操作的时候,还有Flume+Kafka+Storm,从节点里实时获取数据,16进程一秒钟处理9万条话单的数据,这是原来处理不了的。运营商基本架构就是Flume+Kafka+Storm这个架构。

谈几个感受,关键点。首先,现有阶段我们只能选择混搭的架构。但是,问题也很麻烦,之所以选择混搭的原因是因为数据量大,而且数据结构复杂,最重要数据的计算特征多样化,这是原来数据仓库不碰到的,在现有的环境如果把所有数据都进行处理和计算,只能是拼接模式,用什么技术处理什么样的业务特征,这是现在能感受到的。但是,这个问题就是什么?你的维护成本提高了。现在先说一个Hadoop的维护,大概我们自己内部做的测算,我们起码3、4倍以上维护人员的成本。因为这是开源的,开源社区的毛病是,你做一个大公司的用户,出了问题找谁都找不到。现在开源的问题是什么,花钱都找不到谁来帮你解决问题。所以,我们这个可能是很头疼的。而且最重要的是维护的工具齐全,像Hadoop这种开源式的,没有一些设备管理的工具,在Hadoop上这些工具都是很欠缺的。所以我们的兄弟开玩笑说,现在很怀念传统的DBMS,因为那些东西都是很成熟了,玩了几十年,管理等等方面都是很成熟。现在Hadoop的案发都是发烧友的玩法,都是开源的,没有得自己开发,这个东西很耗精力,这个真的是我们的感受。所以,我个人觉得,将来应该有一种,这种多重结构并存的应该是暂时的,进来我们在等待这一天,再次出现一个新的全地形车,能够把所有的计算特征聚集在一起,降低用户的使用难度,这是第一个问题。

第二个问题大数据安全。一提到大数据,大家肯定面临国企做大数据第一反映就是安全,怎么样保证客户的隐私,不能把敏感数据外泄,这是我们很重要的关键的问题点。中国移动从2007年就开始探索大数据安全,不算网络侧,网络侧和系统侧都不算,只是数据层、应用层怎么考虑安全,包括我们做一些脱敏,就是即使闯到我的数据库,你拿到的这个库表也看不懂,关键数据都是做的条码,都是加密,你也看不懂。我们也做了一些水银,如果这张表被透露到外界,我们大概能查出谁干的,事前可控,事中可管理,事后可追查。安全叫七分管理、三分技术。所以,在中国移动尝试过程中做了大量的管理方面的尝试,从各个维度,包括组织和人的管理过程,包括系统的管理过程,还包括数据的安全管理过程等等,方方面面都做了大量的一些尝试。那么,这个工作包括现在正在做的一些研究,包括Hadoop。大家觉得Hadoop安全吗?Hadoop就是站在专业人的角度那是漏洞很多的。

举个例子,一个开源的系统怎么做安全?所有的Hadoop都是公开的,怎么做安全?这是很大的问题,一般来说做安全是私有的系统,私有的协议,但是如果整个机制你都完全知道,而且现在Hadoop,包括元数据,包括它的Datanote上的数据节点都是零码存的。所以,怎么做Hadoop的安全加固,我问了业界,基本上都没有做这方面的研究。所以,现在Hadoop的安全急需突破,急需做这方面的工作,这是我们感受到的安全。

安全里面再多说一句,所谓的客户隐私,包括互联网,包括运营商,包括大数据摆在面前的最重要的就是客户隐私。我有时候开玩笑,互联网时代客户的隐私怎么去保护?所以,在应用的情况下,我们像运营商,现在采取的办法一般都是不涉及个人客户,只是出群体客户的报告,就是我不说张三李四,只说比如我们这个屋会场的听众都有什么特征,可以这样做,这样就不涉及个人的李四。所以,现在只能采取一些措施去规避客户隐私的问题,而且客户隐私在中国移动内部也是上纲上线,也是很严格的,要敢碰这个红线,真是要有牢狱之灾的。这也是一些问题。

对外服务,现在运营商刚刚起步,还没有太大量的做,但是一做就有很多收益。举个例子,我们在一个省半个人做了一些数据对外服务的工作,一年就能挣1500万,当然这1500万他自己拿不到。但是,能证明什么?就是业界很需要这种数据的运营和数据分析。那么,中国移动现在在大数据的应用里面做了很多对外服务,也做了统一的API接口,通过API接口对外提供相关的服务。

第四个分享就是数据质量,数据质量这块的内容压力很大,过去15年我们真的是有60%左右的精力在数据质量。现在业界我看到的很多的企业还没有进入到这个阶段。像中国移动这种大的企业首要的服务目标是内部,互联网不一样,像阿里可能首要的服务目标是对外,内部客户对数据质量感知很高,外部客户对数据质量感知不高,你数据差一分钱他都不干,所以这涉及到人的奖金,所以这些工作你要长时间的PK,包括制度,包括技术的手段怎么去做。元数据,我们实际上最早借鉴CWM2.0技术,都是元数据模型的一些标准,我们就是做相关的这些内容。

我们前后十几年的时间都在做数据质量系统的完善建设,也在做一些元数据的工作,包括血缘图等方面,都做了大量的积累。这些现在积累的成效也还是比较明显。所以,我们在跟别的行业,包括银行各方面做交流的时候,他们也很感慨,我们在数据质量方面做的积累应该说是在业界,应该算是领先的。

这个给大家分享的可能就是我们过去15年干的这些事。这些事加起来,我们现在写各种文档加起来,基本等于我身高了。不能说著作等式,也差不多。为什么说这个?因为过去做大数据过程中所有数据都要标准化,包括建模,现在Hadoop很多都不涉及建模,但是实际上做数据管理建模是基础,我说的模型是物理模型和逻辑模型,这个概念是数据库里面的模型。现在很多大数据企业还没有进到这个阶段,并不是你可以绕过去,这是我们的感受。我们干了15年,数据的整理,这些模型接口都需要量化,都需要标准化,前面不做工作,后面只能花10倍的精力再去补这个工作,这是我们的惨痛教训,希望引起大家的注意。

这些工作就是每一个,这才只写到2009年的文档,如果写到现在的文档就更多了。所以,大家知道这个大数据现在风光之下,是大量血汗的工作的积累,是大量我们团队员工血汗的积累。所以,这个能感受到。所以,进来做这些工作的时候,怎么把这些数据做一个标准化的工作。

这是本人写的四本书,前面两本书《数据仓库基础》、《数据仓库》是2004年、2005年。跟大家提的是去年写的,《大数据和大分析》,这本书也算在业界第一次提出大分析的概念,因为大数据更多涉及到静态,涉及到数据整理,但是它的价值靠应用来体现,如果没有分析,没有应用,这些数据就是死的数据,它是没有价值的。所以,现在我们看到的业界可能大家都在提大数据,都在做一些简单的应用,但是如何让这些数据系统化的构建应用框架和应用体系,这是从业者一定要考虑的问题。像运营商做这些应用架构的时候花了十几年,包括客户的分析,产品的分析、管理的分析、财务的分析、网络的分析等等。所以怎么通过大分析让大数据真正的见到效益,这是所有业界必须要考虑的问题。第四本书《大数据的互联网思维》。大家有没有发现大数据的问题是什么?大数据现在最大的问题我觉得就是缺少理论,数据仓库最起码有一个Inmon(荫蒙),大数据有这样的人吗?没有,什么是大数据?完全是从企业界突然冒持续的东西,学术界还没有跟上,学术界可能有他单独的想法,可能不认为是一个单独的学科。但是,大数据到底怎么去做,怎么去建设,现在业界可能更多关心怎么把数据凑到一块,还没有开始考虑怎么建设,更没有更多的精力考虑应用怎么建设。这本书里面实际上把互联网思维和大数据应用进行了首次结合,应该在业界,包括国外是第一次。我做IT做了30年,从中二年级开始做IT,IT的诸多问题我太清楚了,我们不缺新概念,但是我们面临的问题是你要解决核心问题和用户的应用价值问题。这些问题怎么解决,你的用户体验怎么样,产品应该怎么设计,等等一系列的问题,业界我看还没有人考虑这个问题。所以,把个人的分享跟大家分享。

这四本书是中国移动过去15年大量实用的真实的案例,让大家感受一下一个大型的国企真正做大数据系统,做应用系统怎么做,它的数据管理怎么做。

通过这样的机会很高兴跟大家做一个交流,所以后面有问题也可以跟我联系,谢谢大家!

主持人:感谢段总的精彩分享!

关键字:云计算

原创文章 企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^