当前位置:CIO新闻中心 → 正文

东航数据治理实践

责任编辑:cres |来源:企业网D1Net  2020-01-06 16:46:01 原创文章 企业网D1Net

12月21日,在企业网D1Net和信众智CIO智力共享平台共同主办的2019上海CIO沙龙上,东方航空数据治理部总经理刘静莉分享了东航数据治理实践。
 
以下是现场速记。
 
刘静莉:非常荣幸能有这个机会,其实我们做数据治理也还是属于刚刚起步的阶段。所以,也是东航数据的工作专题的第一次向大家介绍、分享的一个机会。所以留下来听的,应该是有彩蛋。
 
我们做数据治理才2年,虽然我们整个公司的数据分析有十来年,包括数仓这些工作。但是在近2年的时候才开始做。
 
我自我介绍一下,在近几年之前是做企业架构相关的工作,之前也是开发、项目经理、产品经理。也喜欢捣腾一些小的东西,像东航的东东机器人也是我发起在做的。最近在做数据的时候,也顺便做了区块链方面的探索。大体这2年的专业就是做数据治理。
 
讲数据治理的话,在一开始我们先看一下东航大体这2年信息化的情况。因为,我认为开始做数据治理和这10年的IT建设是离不开的。大家知道,阿里是有18罗汉的。东航在2009年也有18罗汉,那时东航IT只有18个人。在2010年东上整合之后,陆陆续续的把IT做了归并,把东航原来通讯口做了归并。过了2年,把华东台这些IT人员做了整合,包括年薪制的对外招聘。慢慢到目前来讲,东航已经有1000人的IT规模。
 
这10年当中,有几个比较大的战略里程碑,像我们做自动化。我们这几年在做信息化建设的过程中,其实我们也是比较注重顶层设计的EA的过程。在做这个过程当中,一直在梳理公司的业务流程。告诉公司,我们公司有1000多个业务流程,有多少个业务流程在IT系统里面承载了?没有承载的IT业务流程,我们是不是需要去通过IT来获得一个支撑?已经有了业务流程,是不是需要增强流程的一个衔接?提高流程的运转的效率?所以我们一直很注重业务自动化的覆盖率。
 
还有一个是比较有里程碑式的移动化的战略。我们当时在2010年的时候,其实已经在东航做了我们最早的移动办公。后来在2012、2013年的时候,我们提出了指尖上的东航。如果大家熟悉东航的,知道东航有一款掌上东航,几乎囊括了我们公司内部运营PC端所有的业务。只要你有移动的需求,都往里装了。而且,因为移动端的一个改变,把我们的内部运营管理的流程其实是在再造,而且做了新的业务变革。比方说像大家比较知道的,我们航班的保障节点。现在不光是航司,包括机场、总局都在讲我们航班的运营品质。也是从那个时候,我们讲因为有了当时叫神经末梢,有了这个手机,可以把每个航班,每个机组人员到岗了。以前他到不到岗,作为一个管理人员是不知道。我们现在就要求,他到岗了,要求指纹签到,我们就知道了。他要准备完毕,会有乘务班组长去做确认。所有的环节,我们都会通过移动端去做一个采集。通过有这么一个移动化,也把我们整个航班的管理,变成了这样一个生产线的管理。
 
还有一个比较重要的节点,在2017年的时候,东航提出了一个互联网化的战略。其实,也就是一个数字化转型当初的一个战略。这个时候,就把我们的数据提高到一个非常高的层面。我们讲要做一个算法领先的航空公司,所有数据要驱动运营,算法要提升智慧。基于这样的大的战略之下,我们发现数据在支撑上有非常大的痛点。主要就是这几个:
 
一个是数据质量。数据质量,其实是非常客观的一个会存在的。因为我们10年的IT建设,包括我们信息系统就3、400套。那么,3、400套数据孤岛,必然会导致我们数据的准确性、一致性、完整性、及时性等等这些数据质量的问题。
 
第二个,就是数据闭环。其实也是数据的联动。我们在做企业级数据共享的时候,我们就发现不同的业务领域之间,要做数据共享是非常困难的。当然,最大一个困难就是我们Wap ID。打个比方讲,可能对大家来讲,大家买航班到坐航班,你们认为航班号就是一个,但是事实上,在东航拿航班号,是完全串不起来。这应该说,在国内航司都会发生这样的问题。这也是我们有很多客观的原因,比方说我们在做航班计划、航班运行的时候,就是2个部门在做的。东航的航班计划做完了以后是去了航信。航班运行的时候在我们自己家做的。这个中间的传输过程和匹配关系就发生了各种不同的变化。有的时候,你们会看到航班号后面会加了一些S、Z这些,就是发生了航班不正常的时候,会有这样一些特殊处理。有了这些问题,就会导致我们数据在各个业务的流转过程中发生很大的问题。
 
再比方说,讲智能挖掘,其实,早2年我们应该算法做得还是比较早。但是,我们算法大体是基于运筹学的算法。这种机器学习、偏智能的挖掘的时候,我们当时认为还是弱。弱的基础,就是我们的数据准备还不太够。另外一个就是数据的交易。换个角度讲,更多的是数据的生态,在那个时候,我们也梳理过,公司跟100多家单位是有数据共享的。但是这些数据共享都是属于生产上好像从历史以来就是这么干的,就是跟那么多公司去共享。但是,应该怎么样去共享?怎么样做一个好的数据共享?这是我们需要探讨的一个问题。
 
基于这样的一些痛点,当时也做了比较多的研讨,最后是认为我们需要从机制层面、体系层面要去建设,因为整个数据的工作,不光只是IT部,以前叫数据产品部,能给大家做间隔数仓做几张报表就可以了,需要全员动员的,要建立全公司数据文化。
 
另外一个,我们认为,数据的工作,主要分为两个方面,一个是管,一个是用。在早十来年,我们的数据仓库、数据分析主要在用的层面。用户有报表的需求就会找我们。我们一直很忽略管数据这个层面。也导致刚才说的数据的质量、数据的闭环管理这一些都很欠缺。所以,就在那个时候,2017年底的时候,我们就成立了数据管理中心。这里就有2个部门,一个是数据治理部,一个是数据洞察部。数据洞察就是我们数据产品部改名字的部门。新成立数据治理部。这两个部门在职责上的分工,治理部是管,洞察部是用。对于我来讲,其实当时是属于半路出家,从来也没有做过数据治理的工作,当时领导说,你做吧。我自己面临最大的问题,就是数据治理到底是什么?琢磨了半天,看到有这么一张图,忽然之间恍然大悟了一下。数据治理是什么?就像你开一家水果超市,第一要满足我们客户对水果的需求,是要满足用户的需求。管理好的水果超市需要什么?第一、水果口感要好、品质要好,这是最关键的。第二,超市里的水果肯定不能说堆在那个地方,要分门别类的放好,大小水果,同样是苹果,大的、小的,是红富士,还是什么要分门别类的标志清楚。要制订相应的标准。第三,像在数据安全方面,我们的水果摊子上面养一只猫,有的水果还搞监控摄像头等等,也是为了防止水果受到被做一些不必要的损害。作为一个超市肯定要进行一个水果的盘点。作为我们数据也是一样的。数据需要我们盘点东航到底有多少数据?像我们东航的家产一样,桌椅板凳有多少个?都布在哪些地方?这些都是需要我们去理解的。
 
像数据的权威。权威是什么?在我们做的过程当中,有非常重要的一个环节,就是数据的认责。我们要找到数据的管理单位。在水果超市里吸引好的用户、客户,我们一般都会看到这是智利的车厘子,是山东的红富士,新疆的糖心蘋果等等。就是说,我们要建立品牌,要找到好的货源。上次也看到盒马鲜生,在一个大卖场搞了一个新闻发布会,跟澳洲的哪一个公司形成一个供货关系。澳洲公司在澳大利亚有多么大的地,经营多少年,牛油果有多少好,这些都是在权威性上的一个保证。
 
另外,我们水果摊这样一个摆放,有的水果摊竖好多面镜子,这也是镜像。有的水果摊,像高级的超市和路边摊的架构都是不一样的。我们应该怎样形成一个好的摆放?
 
像水果我们是需要给它标记、产名、产地、价格,这也是我们在辅助数据自沉管理的必须要去把它管理清楚的。
 
还有生命周期的管理。像水果一样,水果到了一定时间要清仓,要不然放在家里就要烂掉。数据到了一定的时间,也是需要把它归档、删除。像现在GDP2的要求,到你2年之后,这个数据是必须要删的,怎么删?这是一个问题。
 
所以,通过这样一个水果超市图,大致我知道了,数据治理是干什么的?
 
后来,我们也是跟供应商一起去探讨,就是说我们数据治理应该怎么去干?因为,东航的数据实在是太多了。就像东航的背后有太多的水果,知道东航有很多的水果,但是真的不知道东航的水果都在哪里?都在谁家里有着?都在哪个系统里放着?这个系统里放着,那里系统里看着差不多的那个水果,到底有什么差别?所以,我们也是一直在探讨一个方法论。
 
从方法论上,我们建立了这样一个体系框架,首先是一个战略层面。我当时理解在我们刚刚成立的时候,认为我们的第一目标,就是提升我们的数据质量。因为,这个数据质量问题,我们所有业务单位用户垢病最大,最大痛苦的一个痛点。我们要做什么事情?要建机制。后来也是跟大家一起探讨,我们怎么样去建立一个全公司能够动员起来的一个组织?建立一个什么样的流程一起去开展工作?
 
第三层是专题,专题就是刚刚讲的水果超市里需要的那么多类工作,我们有8个专题,像质量、标准等等这些。我们必须要一个一个攻破,一个一个做起来。
 
最下面,是我们需要有一些平台去承载数据这些工作,也需要有一些抓手呈现数据治理怎么样往前去推进?
 
我给大家讲一下怎么开展这个工作?从机制、体制方面,在全公司建了一个管理机构。我们在IT指导委员会下建了数据管理委员会。所有的参与人员是我们业务单位的一把手。在这个管理委员会下建设了数据管理工作小组。这些人员是通过我们对一线人员的培训考核之后筛选出来的。发布了我们整个集团层面的《管理办法》,这些《管理办法》里面,也明确了数据管理的工作目标。除了刚刚我讲的质量提升之外,这里还有安全保障。在安全的情况下,我们说,要提高我们的数据共享。因为,我认为,在东航也挺长时间了,在做EA的时候,一直有一个感觉,我们真的是部门之间的壁垒、系统之间的壁垒非常强。也正因为这么强的壁垒,导致我们系统之间的数据不通。即使通了以后,往往大家的对话,你有数据吗?他说我有,你拿去,你自己存着,自己管起来,不要再来找我了。到处的拷贝,一道、两道、三道、四道的拷贝,拷贝到最后,大家都不知道这个数据原来的面貌是什么了。而且,当时就提出数据一定要共享,而且是从源头开始共享。通过数据的应用,让数据资产的价值最大化。
 
我们数据管理的范围是包括东航自己内部产生的数据,也包括我们合法合规从外部介入的数据。刚才也讲到和外部单位有100多家单位有数据共享,最近我也梳理出来了。把它的所有的数据的目录梳理出来。又干了一件事情,花了多少钱也梳理出来了,结果我吓了一跳,我领导也吓了一条,我梳理出来这些数据,一年要花1.8亿,这些还靠我问回来的,肯定还有很多的遗漏。就是这些数据,我们每年要花1.8个亿。我就跟我们领导说,就用买来的这些数据,一年要花1.8亿,东航自有的数据,加个0一点都不过分。我认为,东航的数据资产就值20多个亿。从简单的理论上评估,东航的数据资产值多少钱?
 
像我们的数据的职责的分工方面,这里就强调,数据工作不光是IT的工作,也是业务必须要参与进来的一些工作。
 
还有安全保护方面。这里就非常强调业务跟IT之间的共同协作。其实我们把很多的工作赋予了业务。包括数据的标准、数据的质量、数据价值的挖掘、数据的安全。都是在业务在用数据采集过程数据,包括管理数据方面,必须要去做的一些工作。
 
今年,我很冤的一件事情,我陪数据洞察部写检讨。为什么写检讨?就是说,最近各种的形式,各种纪委检查、审计,老要问我们来查数据。洞察部的同志就非常苦。一会一个电话,说,你给我查一下,×××哪一天做了航班没有?一会打个电话说,你查他出境记录怎么样?一会打电话说查公司总额什么的?不容许问,你问他,公司总额的口径是什么?他说,我也讲不清楚。你先拿个数据出来。等我们报了一个数据出来,他就说,显然不对,这跟我上次拿的数据不一样。然后,好几次这个事情出了以后,纪委给我们发了一个函,说你们信息部为什么老是给我们错误的数据?然后,我们开始写检讨,想了半天,到底是我们错了呢?起来我们有错?后来,我们就想,坚持了一点,认为数据出错,当然我们可能有的同事是对系统里装了什么数据,哪些数据去哪查,确实存在着不是了解得很全面。因为,现在数据分散在很多地方,往往你在查数据的时候,要去好几个关联的地方去查询的。确实,会有一些个人经验、操作流程方面的问题。但是,很大的问题,也是需要业务去配合的。你需要给我们讲清楚,你说的数据的口径是什么?要把大家必须要有一个共同的语言,而且当数据质量出来问题的时候,我们去找源头。源头是不是存在这样的问题?是我们当时处理过程的bug,还是一开始数据在进来的时候,就发生了质量问题?所以,我们在《管理办法》里明确了,业务单位需要做什么。
 
我们再看专题这部分,这一部分,我们在做的过程中,讨论了很多,一直在探讨,比方说,数据标准该怎么做?盘了那么多的数据回来,为什么这一条做标准?那一条不做标准?等等。反正,讨论了很多细节的东西。最后,呈现出来,其实基本上就是说,我们盘了多少个系统?盘了多少个源数据?数据多少个业务单位?建立了多少标准?然后,做了多少质量检核?提供多少数据服务?等等。基本上就是这样一个呈现。当时,我觉得存在一个问题,我老是解释不清我在干嘛?因为,从我们部门成立之后,在信息部出现的时候,几乎所有的领导都看着我,说,数据治理是干嘛的?你在干什么?我觉得,他们还差一句话没说,你到底能干什么?你能给我们带来什么?他就觉得,你成立了一个数据治理部,好像你在里面待着挺舒服的,你也不需要做什么事情。也没人需要你做什么事情。所以,我觉得,这是一个状态,好像没人需要我们。所以我们当时就干了一件事情,现在叫通过数据专项去开展数据治理的工作。是什么?我这边可以给大家举个例子。这是我们通过一个数据表象,在盘前面数据标准质量做的过程中,其实发现很多数据质量的问题。基于这些数据质量,如果按照前面的专题科班的做法,我去做标准定义了。但是,有的时候,是能定义清楚的。有的时候,其实我们找用户也是定义不清楚。到底是放弃?还是去做?像我们下面的案例,也有用户跟我们反馈说,我们的飞行时间在东航各个业务口子上,其实业务的差异性很大。后面,我们就花了一些功夫,梳理下来,确实有7个业务单位,在7个系统里做了7种计算方式,而且,美中计算的数据源都是不一样的。他们能够来自于好多系统。估计也有7个以上的系统,有我们的线保、有我们的阿卡斯报文的数据,发现这些都不一样,那怎么办?然后我们就拉着各种人去讨论这些问题,最后我们也去做了文件的一个查找。找到了这个依据,其实我们民航总局是对飞行时间发过文件,而且要求各个单位去对飞行时间这些时间数据时刻的采集、管理、规范化、统一化,依据民航总局的文件,东航也发过发行时间该怎么管。依据这些文件,我们最后从那么多的数据定义上面,提炼了4个,像标准的飞行时间是什么?就是平均的飞行时间,计划的、实际的、累加的这些时间是什么?也通过这些文化定义里面,跟大家一起约定了怎么样去采集这个数据?从分析的本身的性能来讲,飞机在一离地,或者一下地,踩个刹车,其实飞机上任何一个对于,都会通过各种的报文传回给公司。当时,我们就测算了各种报文回来之后的数据的完整性、及时性。通过大量的分析以后,跟大家约定了一些算法。以谁为优先级?第二怎么样?第三怎么样?机器的报文数据和人工数据之间的配合怎么做?因为我们是在有一些数据缺失的时候,会让飞行员去填。之前是不管什么样,都要飞行员去填,飞行员下了飞机,你得告诉我说,你什么时候启动了?什么时候落地了?都是让飞行员去填。再有没有拿到的数据,是我们后面的牵绊运行的同事会去补充数据。我们当时就约定了,第一、因为我们测算结果98%的数据都可以靠报文数据回来。所以我们当时大家就达成一个共识,全都取报文数据,这是第一的。自动数据第一。然后,再靠飞行人员的补充。最后,才是人工的做一个修补。我们做完这个专项之后,就实现了4个统一。实现了2个自动,就是自动采集、自动回收。我们的自动回收率现在确实达到了98%。我们的回收人员不是每个数据都去看,每个数据都去交验。他只看小部分的数据,飞行员有歧义的那些数据。这样的话,工作效率就大大的提升了。大家计算结果也就一致了。所以,这就是我们做的专项是通过前期的盘,业务的梳理,业务流程的分析,去发现业务的一个断点在哪里?
 
然后,规,就是制订数据的一个标准。当然这个标准,不光是指一个数据层面的定义,还暗含了很多业务操作上的一些规范。另外还有,这里边的质,就是评估数据的质量。包括完整性、及时性等等去评估。最后,我们是会有一个解决方案,是由哪个系统提供我们的公共的数据服务?这就是用的层面了。所以,我们就是通过这种盘、规、适用的方式,梳理了很多专项,也有旅客服务层面的。比方说像我们的航班状态,大家也有所垢病的,好像航次的航班状态,还不如特别非常准。确实是这样的问题。所以,当时我们也是拿了数据来说事,从系统里一扒拉出来看,各种的起飞、已起飞、预计起飞、到达、各种取消,你说不明白,为什么这个系统里是这几个状态?那个系统里是那几个准备?当时我们就把这个捏成一个专项,讨论了很久,后来说,对标我们的航旅政务行业,对标南航这一些比较好的企业,从旅客的角度定义一套航班的状态。通过旅客的角度航班状态,来去推导从我们的生产角度采集这些数据。第一时间是希望能够给我们旅客提供相应的服务。通过这个过程当中,还去跟APP电商同事一起设计,我们航班状态是设计清楚了,怎么去用?甚至跟他一起定义那几套界面,因为我们定义还是比较清晰,很多的联程的航班,还有你们可能会碰到的航班的飞跃或者经行地取消一些很特殊的航班状态,怎么样去展示?我们希望旅客这个航班在发生变动的时候,大家能够非常清晰的知道它的变化。我们做数据的时候,也做到很多业务、UI这个层面。我们的出发点就是为了用户能够用好我们的数据。
 
如图:这一层就是我们的抓手或者承载的一个方面。这里面主要就是我们有重点在弄的就是数据终台和数据资产。像数据模型这块我们还没怎么做。企业级的数据平台其实我们也是数据洞察部早几年就已经在陆陆续续在建的。我主要讲终台和资产这一块。
 
终台,我觉得刚刚王歆总刚刚也都讲到了,其实现在大家也都一直在讲数据追太。从我们东航来讲,数据终台说实话是个概念层面的。今年研讨了很多包括跟阿里、腾讯、一些其他公司研讨什么是终台?还有像华为这个公司,我们发现有一些共性的,终台,第一是全数据域的。终台是承载着公司全部的数据。终台不是说,为了某一个业务去做的。数据终台是全数据域的。第二个数据终台,要做的就是分析、挖掘。因为,毕竟是有算法那一块。更多的还是偏向于分析的。但是,现在的数据终台分析能力,是越来越快。实施性是越来越强。然后,数据终台能够承载很多是共享层面。像阿里的数据终台,是对业务终台能够有一个实时的响应,实时的支撑。这是数据终台非常重要的一些方面。我们的数据终台刚开始的时候,我们这边提出来的,当时我们是想做主数据。起来从主数据启动的,启动以后,我们就承担东航的跨领域之间的数据共享。给大家提供wap ID的服务。然后像数据资产,其实很多企业也都在有,现在有国外和国内的很多的解决方案,其实都挺多的。但是,整体来讲,数据资产主要是承载我们数据之旅的一些线下转线上的服务,其实我们也有盘规之用,也有那么多的数据标准、数据质量这些需要我们的数据自沉系统去承载。数据资产还有一个非常重要的作用,未来数据资产会越来越多的让用户去使用。就像一个企业的数据黄页一样,你要用数据,需要通过数据资产系统去用。
 
这也是我现在的一些理解,在企业的数据的管理工作当中,发现企业的数据孤岛是客观存在的。要怎么解决这些数据孤岛?因为,有了这些孤岛以后,这几年在没有特别的数据层面管控的情况下,大家斯拉斯(263:01音译)这件事特别多。所以我就提出一个观念说,我们需要通路架桥,是什么来承担?我就觉得就靠数据终台来承担通路架桥。大家觉得,有了高速公路,你一定不会去跑羊肠小道,你去找越来越便利的方式去做。我们的数据终台就是要让大家用的时候非常方便。比方说我们有自服务,通过数据资产、数据目录的方式,给大家知道,我们有哪些服务?可以一目了然查找这些。
 
还有一个就是供需平台。就像一开始说的,我们有很多的数据,隐藏在各个角落里面,我们应该怎么办?就需要一个像淘宝这样的东西,把我们的数据呈现出来,让我们的用户从这个地方找到他所需要的数据。当然,我们这个不完全是一个平台化的运营。必须要发挥我们作为管理方,要把好的数据呈现出来。就相当于我们对这些好的数据定标准的时候,会有权威数据源,会给打官方的数据的标志。让大家放心的去使用这些数据。慢慢的大家都知道,哪些数据都可以通过这个平台上去拿。也有我们数据终台给大家提供非常方便的一个用输服务之后。我们这种数据应用的文化,就会很快的建立起来。
 
在通路架桥方面,这是我们对数据终台的整体的设计。这个终台,不是一个从无到有的东西,是整合我们当前东航的几套数据平台,最底下就是我们大数据平台,作为我们数据的底座,把东航各个业务系统里的数据源都进入到大数据平台。然后在这个过程当中,我们要做的事情就是对数据的标准化,对数据的认责,对数据质量的探查。这些数据准备好了之后,就会在我们的整合层下面,比如说像我们的数仓,一些数据平台里做整合、建模。通过我们的数据wap ID去拉通各个领域的数据关联。再往上,就是我们的分析应用,有包括我们的API层面的实时的应用,也有数据实验室,像数据砂箱这些层面的。
 
如图:左右两边是什么?一边就是数据资产,我们要对整个大终台的数据资产盘摸清楚,然后把数据的血缘管理清楚。这样子的话,才能够让我们自己给用户提供数据的过程中,能够非常快速的提供这样的服务。右边是我们整个数据的研发过程。因为必须要有一套比较好的数据研发工具。让我们的数据的工程师能够为我们的用户提供快速的服务响应。
 
所以,这些都是我们当前的系统的一个能力的整合。但是,我觉得,这里边离我们最后要形成的大数据终台还是有比较大的差距的,需要我们这几年通过对这些平台的整合力度去进行相应的能力的整合。
 
我们东台从2018年开始建设了7个域的数据的共享服务。在明年后会做一个新的7个域的工作。再后面,我们已经逐渐把终台提升到集团的层面去实现集团和国资委之间上下数据的共享,和气团辅业公司之间的数据共享的角色。
 
如图:是我们对过去平台的一个想法,刚刚也讲了,需要把东航的数据放在这个平台上,让用户能够很快的去用好。我们就有这样三个指标。第一个就是权。我们必须要让用户感受到我们的数据在这上面都能找得到。如果他总觉得说,找不到数据,就是我们一个问题。第二,就是快。他要能非常容易从这个资产平台上取到数。这个是有很多使用方式的转化。因为以前可能用户就锁定在某个报表系统或者某个分析平台上。要慢慢让他们通过这种数据平台自服务,去探索。第三个就是质量好。我们送出去的数据一定要质量好。所以在我们建终台的时候,要求还是比较严格的。但凡出数据服务的数据,都出数据质量报告。1、让用数方明明白白的用数。2、让我们了解上游给我们供的数到底是个什么情况?如果,某些地方数据质量不好,我们一定会去追溯,提升数据质量。所以,这是我们对整个公司平台的一个定位。
 
这些就是我的一个分享。
 
谢谢大家!

关键字:数据治理

原创文章 企业网D1Net

x 东航数据治理实践 扫一扫
分享本文到朋友圈
当前位置:CIO新闻中心 → 正文

东航数据治理实践

责任编辑:cres |来源:企业网D1Net  2020-01-06 16:46:01 原创文章 企业网D1Net

12月21日,在企业网D1Net和信众智CIO智力共享平台共同主办的2019上海CIO沙龙上,东方航空数据治理部总经理刘静莉分享了东航数据治理实践。
 
以下是现场速记。
 
刘静莉:非常荣幸能有这个机会,其实我们做数据治理也还是属于刚刚起步的阶段。所以,也是东航数据的工作专题的第一次向大家介绍、分享的一个机会。所以留下来听的,应该是有彩蛋。
 
我们做数据治理才2年,虽然我们整个公司的数据分析有十来年,包括数仓这些工作。但是在近2年的时候才开始做。
 
我自我介绍一下,在近几年之前是做企业架构相关的工作,之前也是开发、项目经理、产品经理。也喜欢捣腾一些小的东西,像东航的东东机器人也是我发起在做的。最近在做数据的时候,也顺便做了区块链方面的探索。大体这2年的专业就是做数据治理。
 
讲数据治理的话,在一开始我们先看一下东航大体这2年信息化的情况。因为,我认为开始做数据治理和这10年的IT建设是离不开的。大家知道,阿里是有18罗汉的。东航在2009年也有18罗汉,那时东航IT只有18个人。在2010年东上整合之后,陆陆续续的把IT做了归并,把东航原来通讯口做了归并。过了2年,把华东台这些IT人员做了整合,包括年薪制的对外招聘。慢慢到目前来讲,东航已经有1000人的IT规模。
 
这10年当中,有几个比较大的战略里程碑,像我们做自动化。我们这几年在做信息化建设的过程中,其实我们也是比较注重顶层设计的EA的过程。在做这个过程当中,一直在梳理公司的业务流程。告诉公司,我们公司有1000多个业务流程,有多少个业务流程在IT系统里面承载了?没有承载的IT业务流程,我们是不是需要去通过IT来获得一个支撑?已经有了业务流程,是不是需要增强流程的一个衔接?提高流程的运转的效率?所以我们一直很注重业务自动化的覆盖率。
 
还有一个是比较有里程碑式的移动化的战略。我们当时在2010年的时候,其实已经在东航做了我们最早的移动办公。后来在2012、2013年的时候,我们提出了指尖上的东航。如果大家熟悉东航的,知道东航有一款掌上东航,几乎囊括了我们公司内部运营PC端所有的业务。只要你有移动的需求,都往里装了。而且,因为移动端的一个改变,把我们的内部运营管理的流程其实是在再造,而且做了新的业务变革。比方说像大家比较知道的,我们航班的保障节点。现在不光是航司,包括机场、总局都在讲我们航班的运营品质。也是从那个时候,我们讲因为有了当时叫神经末梢,有了这个手机,可以把每个航班,每个机组人员到岗了。以前他到不到岗,作为一个管理人员是不知道。我们现在就要求,他到岗了,要求指纹签到,我们就知道了。他要准备完毕,会有乘务班组长去做确认。所有的环节,我们都会通过移动端去做一个采集。通过有这么一个移动化,也把我们整个航班的管理,变成了这样一个生产线的管理。
 
还有一个比较重要的节点,在2017年的时候,东航提出了一个互联网化的战略。其实,也就是一个数字化转型当初的一个战略。这个时候,就把我们的数据提高到一个非常高的层面。我们讲要做一个算法领先的航空公司,所有数据要驱动运营,算法要提升智慧。基于这样的大的战略之下,我们发现数据在支撑上有非常大的痛点。主要就是这几个:
 
一个是数据质量。数据质量,其实是非常客观的一个会存在的。因为我们10年的IT建设,包括我们信息系统就3、400套。那么,3、400套数据孤岛,必然会导致我们数据的准确性、一致性、完整性、及时性等等这些数据质量的问题。
 
第二个,就是数据闭环。其实也是数据的联动。我们在做企业级数据共享的时候,我们就发现不同的业务领域之间,要做数据共享是非常困难的。当然,最大一个困难就是我们Wap ID。打个比方讲,可能对大家来讲,大家买航班到坐航班,你们认为航班号就是一个,但是事实上,在东航拿航班号,是完全串不起来。这应该说,在国内航司都会发生这样的问题。这也是我们有很多客观的原因,比方说我们在做航班计划、航班运行的时候,就是2个部门在做的。东航的航班计划做完了以后是去了航信。航班运行的时候在我们自己家做的。这个中间的传输过程和匹配关系就发生了各种不同的变化。有的时候,你们会看到航班号后面会加了一些S、Z这些,就是发生了航班不正常的时候,会有这样一些特殊处理。有了这些问题,就会导致我们数据在各个业务的流转过程中发生很大的问题。
 
再比方说,讲智能挖掘,其实,早2年我们应该算法做得还是比较早。但是,我们算法大体是基于运筹学的算法。这种机器学习、偏智能的挖掘的时候,我们当时认为还是弱。弱的基础,就是我们的数据准备还不太够。另外一个就是数据的交易。换个角度讲,更多的是数据的生态,在那个时候,我们也梳理过,公司跟100多家单位是有数据共享的。但是这些数据共享都是属于生产上好像从历史以来就是这么干的,就是跟那么多公司去共享。但是,应该怎么样去共享?怎么样做一个好的数据共享?这是我们需要探讨的一个问题。
 
基于这样的一些痛点,当时也做了比较多的研讨,最后是认为我们需要从机制层面、体系层面要去建设,因为整个数据的工作,不光只是IT部,以前叫数据产品部,能给大家做间隔数仓做几张报表就可以了,需要全员动员的,要建立全公司数据文化。
 
另外一个,我们认为,数据的工作,主要分为两个方面,一个是管,一个是用。在早十来年,我们的数据仓库、数据分析主要在用的层面。用户有报表的需求就会找我们。我们一直很忽略管数据这个层面。也导致刚才说的数据的质量、数据的闭环管理这一些都很欠缺。所以,就在那个时候,2017年底的时候,我们就成立了数据管理中心。这里就有2个部门,一个是数据治理部,一个是数据洞察部。数据洞察就是我们数据产品部改名字的部门。新成立数据治理部。这两个部门在职责上的分工,治理部是管,洞察部是用。对于我来讲,其实当时是属于半路出家,从来也没有做过数据治理的工作,当时领导说,你做吧。我自己面临最大的问题,就是数据治理到底是什么?琢磨了半天,看到有这么一张图,忽然之间恍然大悟了一下。数据治理是什么?就像你开一家水果超市,第一要满足我们客户对水果的需求,是要满足用户的需求。管理好的水果超市需要什么?第一、水果口感要好、品质要好,这是最关键的。第二,超市里的水果肯定不能说堆在那个地方,要分门别类的放好,大小水果,同样是苹果,大的、小的,是红富士,还是什么要分门别类的标志清楚。要制订相应的标准。第三,像在数据安全方面,我们的水果摊子上面养一只猫,有的水果还搞监控摄像头等等,也是为了防止水果受到被做一些不必要的损害。作为一个超市肯定要进行一个水果的盘点。作为我们数据也是一样的。数据需要我们盘点东航到底有多少数据?像我们东航的家产一样,桌椅板凳有多少个?都布在哪些地方?这些都是需要我们去理解的。
 
像数据的权威。权威是什么?在我们做的过程当中,有非常重要的一个环节,就是数据的认责。我们要找到数据的管理单位。在水果超市里吸引好的用户、客户,我们一般都会看到这是智利的车厘子,是山东的红富士,新疆的糖心蘋果等等。就是说,我们要建立品牌,要找到好的货源。上次也看到盒马鲜生,在一个大卖场搞了一个新闻发布会,跟澳洲的哪一个公司形成一个供货关系。澳洲公司在澳大利亚有多么大的地,经营多少年,牛油果有多少好,这些都是在权威性上的一个保证。
 
另外,我们水果摊这样一个摆放,有的水果摊竖好多面镜子,这也是镜像。有的水果摊,像高级的超市和路边摊的架构都是不一样的。我们应该怎样形成一个好的摆放?
 
像水果我们是需要给它标记、产名、产地、价格,这也是我们在辅助数据自沉管理的必须要去把它管理清楚的。
 
还有生命周期的管理。像水果一样,水果到了一定时间要清仓,要不然放在家里就要烂掉。数据到了一定的时间,也是需要把它归档、删除。像现在GDP2的要求,到你2年之后,这个数据是必须要删的,怎么删?这是一个问题。
 
所以,通过这样一个水果超市图,大致我知道了,数据治理是干什么的?
 
后来,我们也是跟供应商一起去探讨,就是说我们数据治理应该怎么去干?因为,东航的数据实在是太多了。就像东航的背后有太多的水果,知道东航有很多的水果,但是真的不知道东航的水果都在哪里?都在谁家里有着?都在哪个系统里放着?这个系统里放着,那里系统里看着差不多的那个水果,到底有什么差别?所以,我们也是一直在探讨一个方法论。
 
从方法论上,我们建立了这样一个体系框架,首先是一个战略层面。我当时理解在我们刚刚成立的时候,认为我们的第一目标,就是提升我们的数据质量。因为,这个数据质量问题,我们所有业务单位用户垢病最大,最大痛苦的一个痛点。我们要做什么事情?要建机制。后来也是跟大家一起探讨,我们怎么样去建立一个全公司能够动员起来的一个组织?建立一个什么样的流程一起去开展工作?
 
第三层是专题,专题就是刚刚讲的水果超市里需要的那么多类工作,我们有8个专题,像质量、标准等等这些。我们必须要一个一个攻破,一个一个做起来。
 
最下面,是我们需要有一些平台去承载数据这些工作,也需要有一些抓手呈现数据治理怎么样往前去推进?
 
我给大家讲一下怎么开展这个工作?从机制、体制方面,在全公司建了一个管理机构。我们在IT指导委员会下建了数据管理委员会。所有的参与人员是我们业务单位的一把手。在这个管理委员会下建设了数据管理工作小组。这些人员是通过我们对一线人员的培训考核之后筛选出来的。发布了我们整个集团层面的《管理办法》,这些《管理办法》里面,也明确了数据管理的工作目标。除了刚刚我讲的质量提升之外,这里还有安全保障。在安全的情况下,我们说,要提高我们的数据共享。因为,我认为,在东航也挺长时间了,在做EA的时候,一直有一个感觉,我们真的是部门之间的壁垒、系统之间的壁垒非常强。也正因为这么强的壁垒,导致我们系统之间的数据不通。即使通了以后,往往大家的对话,你有数据吗?他说我有,你拿去,你自己存着,自己管起来,不要再来找我了。到处的拷贝,一道、两道、三道、四道的拷贝,拷贝到最后,大家都不知道这个数据原来的面貌是什么了。而且,当时就提出数据一定要共享,而且是从源头开始共享。通过数据的应用,让数据资产的价值最大化。
 
我们数据管理的范围是包括东航自己内部产生的数据,也包括我们合法合规从外部介入的数据。刚才也讲到和外部单位有100多家单位有数据共享,最近我也梳理出来了。把它的所有的数据的目录梳理出来。又干了一件事情,花了多少钱也梳理出来了,结果我吓了一跳,我领导也吓了一条,我梳理出来这些数据,一年要花1.8亿,这些还靠我问回来的,肯定还有很多的遗漏。就是这些数据,我们每年要花1.8个亿。我就跟我们领导说,就用买来的这些数据,一年要花1.8亿,东航自有的数据,加个0一点都不过分。我认为,东航的数据资产就值20多个亿。从简单的理论上评估,东航的数据资产值多少钱?
 
像我们的数据的职责的分工方面,这里就强调,数据工作不光是IT的工作,也是业务必须要参与进来的一些工作。
 
还有安全保护方面。这里就非常强调业务跟IT之间的共同协作。其实我们把很多的工作赋予了业务。包括数据的标准、数据的质量、数据价值的挖掘、数据的安全。都是在业务在用数据采集过程数据,包括管理数据方面,必须要去做的一些工作。
 
今年,我很冤的一件事情,我陪数据洞察部写检讨。为什么写检讨?就是说,最近各种的形式,各种纪委检查、审计,老要问我们来查数据。洞察部的同志就非常苦。一会一个电话,说,你给我查一下,×××哪一天做了航班没有?一会打个电话说,你查他出境记录怎么样?一会打电话说查公司总额什么的?不容许问,你问他,公司总额的口径是什么?他说,我也讲不清楚。你先拿个数据出来。等我们报了一个数据出来,他就说,显然不对,这跟我上次拿的数据不一样。然后,好几次这个事情出了以后,纪委给我们发了一个函,说你们信息部为什么老是给我们错误的数据?然后,我们开始写检讨,想了半天,到底是我们错了呢?起来我们有错?后来,我们就想,坚持了一点,认为数据出错,当然我们可能有的同事是对系统里装了什么数据,哪些数据去哪查,确实存在着不是了解得很全面。因为,现在数据分散在很多地方,往往你在查数据的时候,要去好几个关联的地方去查询的。确实,会有一些个人经验、操作流程方面的问题。但是,很大的问题,也是需要业务去配合的。你需要给我们讲清楚,你说的数据的口径是什么?要把大家必须要有一个共同的语言,而且当数据质量出来问题的时候,我们去找源头。源头是不是存在这样的问题?是我们当时处理过程的bug,还是一开始数据在进来的时候,就发生了质量问题?所以,我们在《管理办法》里明确了,业务单位需要做什么。
 
我们再看专题这部分,这一部分,我们在做的过程中,讨论了很多,一直在探讨,比方说,数据标准该怎么做?盘了那么多的数据回来,为什么这一条做标准?那一条不做标准?等等。反正,讨论了很多细节的东西。最后,呈现出来,其实基本上就是说,我们盘了多少个系统?盘了多少个源数据?数据多少个业务单位?建立了多少标准?然后,做了多少质量检核?提供多少数据服务?等等。基本上就是这样一个呈现。当时,我觉得存在一个问题,我老是解释不清我在干嘛?因为,从我们部门成立之后,在信息部出现的时候,几乎所有的领导都看着我,说,数据治理是干嘛的?你在干什么?我觉得,他们还差一句话没说,你到底能干什么?你能给我们带来什么?他就觉得,你成立了一个数据治理部,好像你在里面待着挺舒服的,你也不需要做什么事情。也没人需要你做什么事情。所以,我觉得,这是一个状态,好像没人需要我们。所以我们当时就干了一件事情,现在叫通过数据专项去开展数据治理的工作。是什么?我这边可以给大家举个例子。这是我们通过一个数据表象,在盘前面数据标准质量做的过程中,其实发现很多数据质量的问题。基于这些数据质量,如果按照前面的专题科班的做法,我去做标准定义了。但是,有的时候,是能定义清楚的。有的时候,其实我们找用户也是定义不清楚。到底是放弃?还是去做?像我们下面的案例,也有用户跟我们反馈说,我们的飞行时间在东航各个业务口子上,其实业务的差异性很大。后面,我们就花了一些功夫,梳理下来,确实有7个业务单位,在7个系统里做了7种计算方式,而且,美中计算的数据源都是不一样的。他们能够来自于好多系统。估计也有7个以上的系统,有我们的线保、有我们的阿卡斯报文的数据,发现这些都不一样,那怎么办?然后我们就拉着各种人去讨论这些问题,最后我们也去做了文件的一个查找。找到了这个依据,其实我们民航总局是对飞行时间发过文件,而且要求各个单位去对飞行时间这些时间数据时刻的采集、管理、规范化、统一化,依据民航总局的文件,东航也发过发行时间该怎么管。依据这些文件,我们最后从那么多的数据定义上面,提炼了4个,像标准的飞行时间是什么?就是平均的飞行时间,计划的、实际的、累加的这些时间是什么?也通过这些文化定义里面,跟大家一起约定了怎么样去采集这个数据?从分析的本身的性能来讲,飞机在一离地,或者一下地,踩个刹车,其实飞机上任何一个对于,都会通过各种的报文传回给公司。当时,我们就测算了各种报文回来之后的数据的完整性、及时性。通过大量的分析以后,跟大家约定了一些算法。以谁为优先级?第二怎么样?第三怎么样?机器的报文数据和人工数据之间的配合怎么做?因为我们是在有一些数据缺失的时候,会让飞行员去填。之前是不管什么样,都要飞行员去填,飞行员下了飞机,你得告诉我说,你什么时候启动了?什么时候落地了?都是让飞行员去填。再有没有拿到的数据,是我们后面的牵绊运行的同事会去补充数据。我们当时就约定了,第一、因为我们测算结果98%的数据都可以靠报文数据回来。所以我们当时大家就达成一个共识,全都取报文数据,这是第一的。自动数据第一。然后,再靠飞行人员的补充。最后,才是人工的做一个修补。我们做完这个专项之后,就实现了4个统一。实现了2个自动,就是自动采集、自动回收。我们的自动回收率现在确实达到了98%。我们的回收人员不是每个数据都去看,每个数据都去交验。他只看小部分的数据,飞行员有歧义的那些数据。这样的话,工作效率就大大的提升了。大家计算结果也就一致了。所以,这就是我们做的专项是通过前期的盘,业务的梳理,业务流程的分析,去发现业务的一个断点在哪里?
 
然后,规,就是制订数据的一个标准。当然这个标准,不光是指一个数据层面的定义,还暗含了很多业务操作上的一些规范。另外还有,这里边的质,就是评估数据的质量。包括完整性、及时性等等去评估。最后,我们是会有一个解决方案,是由哪个系统提供我们的公共的数据服务?这就是用的层面了。所以,我们就是通过这种盘、规、适用的方式,梳理了很多专项,也有旅客服务层面的。比方说像我们的航班状态,大家也有所垢病的,好像航次的航班状态,还不如特别非常准。确实是这样的问题。所以,当时我们也是拿了数据来说事,从系统里一扒拉出来看,各种的起飞、已起飞、预计起飞、到达、各种取消,你说不明白,为什么这个系统里是这几个状态?那个系统里是那几个准备?当时我们就把这个捏成一个专项,讨论了很久,后来说,对标我们的航旅政务行业,对标南航这一些比较好的企业,从旅客的角度定义一套航班的状态。通过旅客的角度航班状态,来去推导从我们的生产角度采集这些数据。第一时间是希望能够给我们旅客提供相应的服务。通过这个过程当中,还去跟APP电商同事一起设计,我们航班状态是设计清楚了,怎么去用?甚至跟他一起定义那几套界面,因为我们定义还是比较清晰,很多的联程的航班,还有你们可能会碰到的航班的飞跃或者经行地取消一些很特殊的航班状态,怎么样去展示?我们希望旅客这个航班在发生变动的时候,大家能够非常清晰的知道它的变化。我们做数据的时候,也做到很多业务、UI这个层面。我们的出发点就是为了用户能够用好我们的数据。
 
如图:这一层就是我们的抓手或者承载的一个方面。这里面主要就是我们有重点在弄的就是数据终台和数据资产。像数据模型这块我们还没怎么做。企业级的数据平台其实我们也是数据洞察部早几年就已经在陆陆续续在建的。我主要讲终台和资产这一块。
 
终台,我觉得刚刚王歆总刚刚也都讲到了,其实现在大家也都一直在讲数据追太。从我们东航来讲,数据终台说实话是个概念层面的。今年研讨了很多包括跟阿里、腾讯、一些其他公司研讨什么是终台?还有像华为这个公司,我们发现有一些共性的,终台,第一是全数据域的。终台是承载着公司全部的数据。终台不是说,为了某一个业务去做的。数据终台是全数据域的。第二个数据终台,要做的就是分析、挖掘。因为,毕竟是有算法那一块。更多的还是偏向于分析的。但是,现在的数据终台分析能力,是越来越快。实施性是越来越强。然后,数据终台能够承载很多是共享层面。像阿里的数据终台,是对业务终台能够有一个实时的响应,实时的支撑。这是数据终台非常重要的一些方面。我们的数据终台刚开始的时候,我们这边提出来的,当时我们是想做主数据。起来从主数据启动的,启动以后,我们就承担东航的跨领域之间的数据共享。给大家提供wap ID的服务。然后像数据资产,其实很多企业也都在有,现在有国外和国内的很多的解决方案,其实都挺多的。但是,整体来讲,数据资产主要是承载我们数据之旅的一些线下转线上的服务,其实我们也有盘规之用,也有那么多的数据标准、数据质量这些需要我们的数据自沉系统去承载。数据资产还有一个非常重要的作用,未来数据资产会越来越多的让用户去使用。就像一个企业的数据黄页一样,你要用数据,需要通过数据资产系统去用。
 
这也是我现在的一些理解,在企业的数据的管理工作当中,发现企业的数据孤岛是客观存在的。要怎么解决这些数据孤岛?因为,有了这些孤岛以后,这几年在没有特别的数据层面管控的情况下,大家斯拉斯(263:01音译)这件事特别多。所以我就提出一个观念说,我们需要通路架桥,是什么来承担?我就觉得就靠数据终台来承担通路架桥。大家觉得,有了高速公路,你一定不会去跑羊肠小道,你去找越来越便利的方式去做。我们的数据终台就是要让大家用的时候非常方便。比方说我们有自服务,通过数据资产、数据目录的方式,给大家知道,我们有哪些服务?可以一目了然查找这些。
 
还有一个就是供需平台。就像一开始说的,我们有很多的数据,隐藏在各个角落里面,我们应该怎么办?就需要一个像淘宝这样的东西,把我们的数据呈现出来,让我们的用户从这个地方找到他所需要的数据。当然,我们这个不完全是一个平台化的运营。必须要发挥我们作为管理方,要把好的数据呈现出来。就相当于我们对这些好的数据定标准的时候,会有权威数据源,会给打官方的数据的标志。让大家放心的去使用这些数据。慢慢的大家都知道,哪些数据都可以通过这个平台上去拿。也有我们数据终台给大家提供非常方便的一个用输服务之后。我们这种数据应用的文化,就会很快的建立起来。
 
在通路架桥方面,这是我们对数据终台的整体的设计。这个终台,不是一个从无到有的东西,是整合我们当前东航的几套数据平台,最底下就是我们大数据平台,作为我们数据的底座,把东航各个业务系统里的数据源都进入到大数据平台。然后在这个过程当中,我们要做的事情就是对数据的标准化,对数据的认责,对数据质量的探查。这些数据准备好了之后,就会在我们的整合层下面,比如说像我们的数仓,一些数据平台里做整合、建模。通过我们的数据wap ID去拉通各个领域的数据关联。再往上,就是我们的分析应用,有包括我们的API层面的实时的应用,也有数据实验室,像数据砂箱这些层面的。
 
如图:左右两边是什么?一边就是数据资产,我们要对整个大终台的数据资产盘摸清楚,然后把数据的血缘管理清楚。这样子的话,才能够让我们自己给用户提供数据的过程中,能够非常快速的提供这样的服务。右边是我们整个数据的研发过程。因为必须要有一套比较好的数据研发工具。让我们的数据的工程师能够为我们的用户提供快速的服务响应。
 
所以,这些都是我们当前的系统的一个能力的整合。但是,我觉得,这里边离我们最后要形成的大数据终台还是有比较大的差距的,需要我们这几年通过对这些平台的整合力度去进行相应的能力的整合。
 
我们东台从2018年开始建设了7个域的数据的共享服务。在明年后会做一个新的7个域的工作。再后面,我们已经逐渐把终台提升到集团的层面去实现集团和国资委之间上下数据的共享,和气团辅业公司之间的数据共享的角色。
 
如图:是我们对过去平台的一个想法,刚刚也讲了,需要把东航的数据放在这个平台上,让用户能够很快的去用好。我们就有这样三个指标。第一个就是权。我们必须要让用户感受到我们的数据在这上面都能找得到。如果他总觉得说,找不到数据,就是我们一个问题。第二,就是快。他要能非常容易从这个资产平台上取到数。这个是有很多使用方式的转化。因为以前可能用户就锁定在某个报表系统或者某个分析平台上。要慢慢让他们通过这种数据平台自服务,去探索。第三个就是质量好。我们送出去的数据一定要质量好。所以在我们建终台的时候,要求还是比较严格的。但凡出数据服务的数据,都出数据质量报告。1、让用数方明明白白的用数。2、让我们了解上游给我们供的数到底是个什么情况?如果,某些地方数据质量不好,我们一定会去追溯,提升数据质量。所以,这是我们对整个公司平台的一个定位。
 
这些就是我的一个分享。
 
谢谢大家!

关键字:数据治理

原创文章 企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^