以下为现场速记。
中石化 石化盈科 数据部总经理 蔡春久
蔡春久:各位嘉宾、各位CIO同行们,下午好,我今天下午分享的题目是《标杆企业数据治理案例管理经验分享》,我主要是以中国石化在过去20年当中积累的一些经验和方法来讲解。讲之前简要地介绍一下我自己,我毕业了20多年,前10年主要是做ERP等系统,最近10年一直在数据治理领域默默耕耘,我2008年加入中国石化负责一个非常大的项目,在中石化内部做了5年。最近这5年时间一直负责中国石化以外的数据治理的项目,我带领团队最近5年做了80个世界500强和中国500强数据治理的项目。
我今天下午主要分享三部分内容:第一,国内外数据治理管理现状及发展趋势。第二,主要以中国石化在过去20年当中数据治理管理工作的经验分享。第三,我们有一些建议,如果要启动项目有这样的一个建议。
首先看一下国内的现状,十九大其中就说到5个词,创新、协调、绿色、开放、共享。其中有5个词跟我们的大数据、云计算联系得非常紧密,第一是开放,开放就是连接,随时随地地连接人和人、人和物、物和物。第二是融合,融合就是交互,交互打破一切从肉体、从实体走向虚拟时代。第三是洞察,让计算无处不在。第四是精准,第五是共享,数据推动业务的发展。
我们再看看去年2018年在中国的数据管理和数据资产领域有10个比较大的事情,第一是去年在数博会上发布的《数据管理能力成熟度评估模型》,现在国家层面和各行各业在推广。第二是去年银监会发布了《银行业金融机构数据治理指引》,这个引起了轩然大波,尤其保险和金融都在做数据治理。像证券行业、工业互联网等联盟都纷纷发布了调研问卷,去年工信部特意成立了数据管理应用推进峰会,主要是为了推动数据管理。另外信通院发布了数据资产管理实践白皮书3.0,这些事情是去年比较重要的。
数据资产管理有8大痛点,第一是数据处理比较低下,第二是数据质量不高,我们在信息化投入很多,但是投资回报率并不是很高。第三是数据垃圾亟待进一步解决。第四是信息化投入这么多年,我们到底从信息化系统和数据里面如何评估它的价值呢?这是从业务系统来看的。第五是安全监管问题,安全问题在信息化处于非常重要的位置,信息化内部非常重视安全,这次针对贸易战有一个预演习,很多系统都被攻破了,可见安全是非常重要的问题。第六是难以统筹,业务管理。第七是数据周期规划混乱,第八是缺乏统一数据标准,很难达到应用的目标。我们现在谈的人工智能、机器学习、AR、VR等是冰山的一面,如果下面做不到,这些等于是垃圾,是不好的一面。
我们今天讲的是数据管理和数据治理,数据管理指的是通过规划、控制与提供数据和信息资产职能,以获取、控制、保护、交付和提高数据信息资产价值,从上面来看确实比较不容易理解。那么看看数据治理,我们在前20年有数据治理的名词,主要是两个作用,一是满足内部风控的需求,像有的财务做假账,有的敏感数据被泄密,这是风控方面的需求。二是为了满足外部监控合规制度的要求。最近10年我们的数据治理和数据管理的概念在发生变化,数据管理是保证数据的计划、建设、运营、监督全生命周期的管理,目前说的数据治理包含了数据管理。这是数据治理的广义概念,就相当于我们目前说的数据资产管理。什么是数据资产?去年我们在中国的数据白皮书上是这样发布的,是企业拥有或者控制的,能够为企业带来未来经济利益的以实物或电子的方式记录的数据资源,数据资产是能够为企业产生价值的数据资源,这是我们的数据资产本身的一个官方定义。我们的数据资产管理是定义数据规划、定义数据规范、技术实现、获取数据,然后进行维护和运营,这是全生命周期。
我们看看百度百科对于数据资产是怎么定义的,其中有财务资产、房地产、实物资产。数据资产有几个特性,第一是无形资产,去年国家财政部已经把数据资产作为一个会计科目,它是无形资产。第二数据资产是不可以替代的,数据资产是不可消耗的,它可以复制、可以共享,财务资产或者实物资产一花就用完了,数据资产不会贬值,像房地产可以折旧,当然我们这个时代比较特殊,可能10年前买一套房子现在升值得很厉害。
数据资产到底能解决哪些问题?我们回过头来看企业里面到底有哪些数据,我们需要哪些数据,这些数据的标准是什么,这些数据是怎么分布的,存储在哪里,怎么传输,怎么使用,谁来管这些数据,谁对这些数据负责,我们有没有相关的制度和考核机制及工具管理这些数据,数据的保存周期是多长,哪些数据应该在线,哪些数据应该离线,哪些数据应该销毁。我们刚才看了一些问题,数据资产有六大趋势,首先是数据对象,传统工业企业大部分管的是结构化数据,随着新技术的出现,我们可能有更多半结构化、非结构化数据都在管,包括一些互联网数据都在管。这是我们的数据对象,有很大的变化。第二是处理架构,传统的工业企业都用传统的工具做一些报表和历史的分析,数据架构按照互联网思维我们会采用一些分布式存储、分布式计算等混搭架构做数据的处理。第三个是最大的变化是职能发生了变化,像企业里面有专门管人力资源的、有专门管财务的,但是没有一个专门管数据的部门,我们更多的是IT部门在行使管理数据的职责,尤其一些大的央企和金融企业专门有独立的数据管理部门,甚至这个数据管理部门是核心的部门。第五是管理手段,传统的是简单报表工具进行展现,随着这种架构的变化,我们通过一些AI和智能化的工具来管理数据。第六是我们的应用范围有很大的变化,以前的数据资产都是企业内部用的,将来的变化是不仅仅是企业内部,我们把各种数据、各种产品对外提供服务。
数据治理该如何理解,它就像一个蔬菜架子,数据架构管理是要把水果摆放的紧凑、稳定、便于取放。数据标准管理是水果规格一致,数据质量管理是保证没有烂水果,元数据管理是描述水果的品种、价钱和产地,主数据管理是最核心、最重要、最受欢迎的数据,在超市里面最受欢迎的是放在专区的水果。全生命周期管理是水果保质期管理和下架管理,数据安全管理是防止被人偷吃、损坏,我通过这个形象的例子把数据资产给大家进行了简要的介绍。
在国际上有一本书叫做《数据管理知识框架体系》,这本书是做数据管理、数据资产一定要看的,这是一个非赢利组织出的书。里面分成数据架构、数据开放、数据操作、数据安全、主数据、商业智能、文档、元数据、数据质量,这本书在2017年英文版本已经出来了,大概今年7、8月份这本书的中文版本会翻译出来。这里面又增加了三个职能:集成共享、数据评估、数据伦理道德。这本书的知识体系非常完整,我们参考它一定要做一些裁剪,不同的行业、不同的企业情况不一样,可以做参考,但是不能完全形而上学地照搬。
第二个是国标,数据管理能力成熟度评估模型,这个模型主要参考了上面那本书,结合了中国的实情,这是我们做数据的专家花了三年时间才做出来的模型,去年在数博会上发布出来了。这里面有数据战略、数据治理、数据架构、数据标准、质量、安全、应用和数据全生命周期。这里有数据战略的规划、有实施评估,第二个治理是狭义的治理,谈到组织建设和沟通。另外是数据架构的模型、分布、集成、共享、元数据、数据标准,另外是数据全生命周期,把评估模型分成5个等级,我们可以结合国标自己做一个评价,我们到底处于什么水平,怎么提升数据资产管理的水平。
另外我们再看看去年发布的数据资产白皮书,这个跟前面两个不一样,增加了数据价值管理,数据是企业的核心价值,怎么做价值管理,我们的数据怎么做共享、怎么做分发应用。另外它有5个职能,把数据分为主数据、元数据、数据模型、数据标准和数据质量管理5个职能,另外有5项保障措施,这里面有战略规划、组织机构、管理机制和审计方式、培训宣传,数据怎么进行加密、怎么进行管理,另外我们要把数据做成服务,另外要做培训宣传,让整个组织里面的员工对数据非常了解。
我们面临这么多数据,怎么进行分层分级分类,这是我们最新的一个心得。我们从三个维度、三个方面来看数据,我们从左往右看,首先是元数据,同时可以按照结构化和非结构化进行分类,下面有很多结构化和非结构化数据。还有关系型数据、实时数据,我们分为通用基础类的,像行政区域、币种、语种。还有规则数据,再下面是交易数据,交易数据具有瞬间的特点,它是建立在主数据的基础之上。另外是指标数据,指标数据是延伸的数据,它是基于交易数据做的一个指标数据。另外我们还有大量的实时数据,从设备、物联网、物流运输产生的数据叫做实时数据。我们把数据按照这几个维度进行分类分层分级管理。
大数据最近也发布了一个白皮书,我们可以看看里面有一些术语,数据全生命周期、互联互通、管理、行业应用。
我们刚才看了四个国家层面指导性的文档,我们这三个理论框架是完全一致的,都有数据标准、数据质量、元数据、主数据、安全和数据架构,都可以说是国内国外最顶级的。DAMA2.0和DCMM都是这么讲的。另外组织机构是各项管理框架的核心,我们有独立的专业的数据管理部门来做数据管理工作。另外是工具,在数据资产管理实践白皮书3.0里面提了大概3个工具,最近可能要发布4.0。国内也有一些特色的地方,像数据资产目录在国内政府是比较典型的。要促进内部数据的共享交换,对外提供共享。我们的数据除了管理之外,还要把数据做成运营,要双轮驱动,对外变现。刚才我们简要分享了一下国家层面在数据管理和数据资产领域的几份非常重要的文档。
另外我们看看数据管理的发展趋势,数据资产管理要成就企业的诗、远方和理想,我们到底做到什么程度,我们看看几个比较好的。以往IT部门都是成本中心,我们要把这种成本中心变成利润中心、变成价值中心,向业务提供数据产品。未来我们更多的标杆企业是多种数据来源,集中采集,统一治理,把内部数据包括结构化和非结构化的数据统一存储在数据资源中心,通过数据资源平台和数据治理平台对外对内提供产品服务。
我们现在谈智慧地球、智慧工厂、智慧机器人等谈了很多,这里的大数据、语音识别、图文图像、机器翻译都是比较热的名词,我们怎么做呢?其实业务系统基本都差不多,我们要把所有业务系统的数据汇集到数据资源中心里面,最后变成各种各样的服务,在数据中心里面做治理。这张图是全过程我们都要做数据治理。通过分析模型,数据共享的主题,通过可视化的展现,对我们的业务可以做一些分析预警,通过创新应用端到端地做数据治理,使上下游的数据整合起来,建立企业级的大数据应用。我们要把数据推送到企业一线人员的手上,实现用数据说话、用数据管理、用数据决策的数字化企业。
我们作为一个工业企业,实际上我们把信息系统分成5层,有企业层国际标准ISA标准,还有管理层、操作层、控制层。我们划分了一下,我们有DT层、IT层、OT层、IOT层,位置、设备、物品等都要连接起来,我们把这四个层面的数据全部汇聚到DT层面做一些资产的可视化。这里我们有数据治理平台,通过集中的数据资源中心、通过主题展现做共享的数据库,对外提供一些服务,这是我们做的全业务域的数据资源中心比较抽象的一个架构图。
我们要打通IT和OT领域,我们以前往往做数仓和大数据分析往往是在IT层面,OT层面没有打通,导致投资回报率并不是很高,这两个层面我们要打通。如果我们的数据做得比较好就有效果,接下来分享一下数据资产从战略到组织到标准到工具方面怎么落地,怎么做这件事情。这里主要是标杆企业的一些好的做法,我这边分享一下。首先我们看看数据管理,最重要的是战略、管控机制,组织是最核心的,如果连一个组织都没有是很难做的。这是组织策略,集中式策略在金融行业、在某些行业是做得比较好的。第二种是联邦式的策略,尤其在央企和国企有独立的数据部门,在每个分公司也有一些数据部门,这是混搭结构,可能是比较容易落地的。第三是分布式的,分布式的比较少,是比较独立的板块。
我主要讲第二种方式,其实第二种方式联邦制由信息部门、技术部门,有主数据、技术架构和元数据的相关人员,在业务部门有数据治理的业务主管,包括业务分析师、业务专家在里面,我们要形成数据治理管理委员会。这是总部层面,在分子公司也是有这样的岗位职责来对应。这是我今天早上刚做的,我们今天21号国家电网成立了大数据中心,就是一个实体部门,这是非常不容易的,迈开了第一步,成立了一个独立的一级部门。右边是国家电网集团成立的大数据中心,这是董事长和总裁亲自成立的,这是非常大的趋势,不仅仅是数据管理部门是放在IT部门来走的。这位美女我们都知道,前段时间炒得沸沸扬扬,大家看了也非常沉重。华为做数据已经做了10年,在过去的10年当中投资了数十亿美金来做数据治理的项目。他的数据部门是一级部门,由CFO亲自担任,很多事业部都有独立的数据管理部门来支撑这个事情。可见做得比较好的一些企业里面基本上有独立的数据管理部门,而且是独立在IT以外的部门来做这件事情。
数据领导委员会有集团战略层,有跨职能部门,由各业态公司组成,由这种架构来保障。除此之外,我们还有决策保障,在场景架构师、产品经理、客户体验师、架构师、开发工程师、应用工程师等新的工种,因此需要人力资源重新定义这种角色,否则很难达到理想的效果。有了组织、有了人之后,数据资产中心怎么做?这里面主要是中石化的一个案例,中石化的信息化在央企的信息化当中连续5年排名第一,我们已经取得非常好的成果。我们建立了统一的数据资源中心,内部和外部的数据实现统一的数据模型,实现共享,互联互通,实现数据驱动,创新业务。
这是我们挖掘数据价值,打造产业链的竞争优势。其实在中石化有很多国家非常知名的系统,我们去年号称是中国的工业品电商,我们去年达到4千亿规模,像我们的A4打印纸中石化每年的规模都很大,我们的谈判能力非常强。尤其国外的备品备件压的价格非常低,我们通过实现数据的互联互通,通过创新支持数据资产的运营,这是我们的一个做法。中石化有上千个系统,通过一个统一的数据存储平台,数据统一采集、统一处理、统一存储,我们有数据共享服务中心和数据分析中心两个中心,通过数据门户,各级管理人员通过一个账号和密码可以看到所有相关的数据,我们叫做一平台两中心两体系。
在2013年11月22日青岛大爆炸,就因为这个大爆炸死了大概60多人,直接损失大概是7.5亿元。这就是因为数据没有管好,这个管道以前运行非常好,没有出事,在信息化的投入也不是很高,大家都没有关注。因为青岛城市管道施工的时候把管道挖破了,当时就发生了大爆炸,这是非常惨痛的一个教训,就是因为数据没有管理好。
中石化投了20个亿做智能化管道项目,这是非常典型的大数据应用场景,一方面我们的管道是遍布全国各地的,它有即时的数据、有业务的数据、有管道压力的RFID、智能装置、传感装置的数据。另外还有运营商的数据、舆情的数据、社会资源的数据,全部集中在大的数据资源中心,这里有很多,大概几十个甚至上百个数据要进到数仓里面来,我们进行数据融合。这里面是从管道企业数据到综合大数据,我们看看从数据集成到数据融合,构建管道大数据平台,实现数据共振。从专业系统到智能化管道应用有一些管道的完整性评估、工况评估、事故追溯等。到后面是数据共振聚合思维来协同智能,从点到线到面实现整个数据管道的运营。
我们看看效果,这是我们的场站智能化运营,我们以往是靠人来管的,以往从10天到三个月不发生故障,如果发生问题能够预先做智能的决策,实现数据共振、多元呈现、思维聚合,将场站涉及的全部数据整合在一起。
我们看下面的应用,这是数据共振,其实我们的一个管道非常长,可能有地震的原因管道破裂了,可能由于腐蚀的原因,一些管道在荒郊野岭,我们通过可视化看到哪些地方有问题,进行及时的维修,就可以避免青岛这种悲剧的发生。这就是聚合思维,以多元化、可视化展现调度,实现管道的可视化运营。刚才讲了一个小的案例,通过大数据在工业企业的运营场景。
另外再看看数据治理,我们一定要做数据治理,如果数据治理不做就是垃圾。这是我们在“十二五”期间的一个架构图,上千个信息系统做了三大平台,一个是以ERP为核心的系统,另外是以MES为核心的行业专业系统,另外有一个基础设施平台。一个是安全,安全是红线,一票否决。信息化是底线,不能逾越。这个平台为所有系统提供共享服务的来源,像人力资源和财务共享比较多,我们把数据做成一个基础数据共享,为用户提供随时随地的全球的唯一的源头,为主数据在线实现统一的审批。
这是中石化的信息化标准化体系框架,第一是应用标准,大概有100多个技术标准。第二是数据标准,分成主数据和指标数据,主数据大概有20个大类,大概有550多项数据。第三是应用标准,可以自动地生成内控文档。我们主要是三个标准、两个支撑,我们还有数据治理平台,这是我们“十二五”期间的框架图。
另外我们看看成果也非常好,中石化的高管领导是非常重视数据治理和数据标准化的。我们在2000年的时候成立了主数据团队,大概20个人。我们2005年的时候也非常重视这种项目,像我们的高级副总裁带着大概500个专家做中石化数据编码的统一。我们到2016年现任的董事长戴先生是以前分管信息化的CIO,他就说了一句话,必须站在数据层面统筹考虑标准,一旦决定不能轻易改变。我们是按照业务部门牵头,IT部门统筹管理,石化盈科作为技术支持单位。我们也取得了非常好的效果,搭建了中石化的信息标准化管理体系,主数据标准大概有1000多万条标准的可信任的主数据,可以为1000多个系统提供应用。我们梳理了大概1万多个指标项,定义了业务含义和概念的一致性、应用规则的一致性。同时开发了数据治理平台,这个是已经落地的,这是我们取得的成果。
我们再看看跟数据资产管理相关的规范和运维体系的情况,数据管理有整体管理、数据质量、数据标准、主数据管理办法、数据服务域、数据应用域的制度和流程保障,做到有章可循。我们有统一的运维体系,现在我们有70个人在内部做数据标准的事情,我们有统一的1000多万条数据源头,有一套制度保障,有一站式的服务,有统一的数据治理平台来支撑。另外我们每类数据都有运维流程,我们还有比较好的运维方法,能够做到数据全生命周期的管理,从代码的标准化、从主数据的规范化、从数据应用的一致化,全面推进数据全生命周期管理。我们会看看用到哪些数据标准,如果要用标准化数据团队就会进去,如果验收的时候没有按照这个标准,对不起,你不能验收,钱是付不出去的,我们是非常强化这项工作的。
接下来看看数据治理平台,中国石化也见证了中国数据治理工具的发展,其实我们大概分了四个阶段,第一个阶段是编码时代,编码时代是为了ERP做一些编码,比如物料编码、产品编码。到了2005年当时是中国的ERP大建设时期,大概花了五年时间。到了2010年的时候就发现ERP做数据编码是不够的,我们在2010年的时候有MES、智能工厂和电商平台都出现了,我们叫做数据标准时代。第四阶段是到了数据服务,采用数据交换平台进行服务,就产生了各种各样的应用。到2018年名字改成了数据治理,更多的是面向大数据架构、面向工业互联网、面向微服务架构。这是我们内部的四大阶段,基本上引领了中国数据治理的潮流。
我们看看数据治理工具到底有哪些工具,最核心的是主数据管理,这是我们企业最核心的一块内容。另外是指标,以指标为抓手,把元数据管理起来。还有数据质量、数据标准、质量报告等等,另外还有数据开发,这是我们建模的一个平台。还有数据模型工具,数据模型怎么管理,这里有数据模型的工具。还有全数据管理工具,有数据清洗、数据共享,对应国家层面的数据资产白皮书的有8、9个工具,我们下面还有一些数据交换与服务的工具,我们把数据治理平台真正地用数据服务提供有力的支撑。
我们再讲一些经验,其实国内有很多失败的案例,坦率来讲,我做的80多个客户当中有一半是失败过两次最后找我来做的。我们首先看看第一个,组织保障是否能够真正到位,我们有很多项目把数据做成IT项目、做成工具项目。我们大概有4个维度,标准规范、数据清洗、工具、规范缺一不可。我们要要培训数据文化,第二是要调流程,第三是搭班子,成立专门的数据团队。第四是定战略,我们要真正用数据。
用户是否真正愿意参与,我们买了一个工具,用户不参与,IT自己唱独角戏,不愿意用。另外是能不能用,这个工具能不能真正地解决问题,所以我们要总体规划、局部试点、全体推广,要迭代、要快速开放,按照微服务架构进行快速开发,否则这个工具用不起来。另外要现场跟踪服务,做到保驾护航。我们能不能用、用户愿不愿用,“用”才是真道理。
接下来说一下数据管理面临的难点,我们在内部有四个难。第一是缺乏管理机制,最主要的是缺乏数据管理部门,缺乏数据共享的长效机制,数据共享制度不完善,质量参差不齐。第二是数据整合有限,孤岛太多,传统企业少的几十个、多的上百个孤岛。第三是需求响应太慢,业务部门希望快速的地响应,可能IT部门做得不够,时效性比较差,就导致我们遇到困难。最后是企业高管领导对于数据的重要性在理念上是认同的,但是行动起来不够,项目成本的限制导致我们很难快速迭代、敏捷开发,建模也比较难,数据挖掘的门槛过高。这是我总结的国内遇到的一些问题和困难。
在实施过程种我们总结了9步法则,第一是理需求,第二是划蓝图,第三是定职责,业务部门、数据部门、IT部门之间的关系。第四是定标准,要做企业级标准。第五是清数据,要清洗数据。第六是搭平台。第七是接服务,数据要为其它系统提供共享服务。第八是建体系,运维体系。最后是促应用,把我们的成果在整个集团层面全面的运用。
我们要构建企业级数据资产管理体系,要具备比较好的可落地性,要符合企业今后5到10年的框架体系,必须要有四个方面。第一是响应和贯彻企业发展战略要求,紧扣企业数字化要求,深刻理解,从业务数据化到企业转型的路径来走。第二是最大化解决现实遇到的一些问题,要有针对性地解决问题,这是比较重要的。第三是我们做的数据架构一定要具备全面的权威的理论来源,这里有两个,一是国际上的DMBOK,第二是国标,第三是数据资产白皮书,这些在业内是认可度比较高的。第四是比较先进的数据资产管理理念,数据治理和数据运营的“双轮驱动”运营模式是数据生产管理化的必经之路。
我们要做数据治理,必须要面向数据资源中心,首先要机制落实,标准建设、数据工具系统建设,这是数据治理长期而复杂的工作,需要专业人员、专业团队进行管理和服务,才能保证数据治理长效。
这里有几本书是做数据治理一定要看的,第一本是《数据资产管理》,作者现在在南方电网,帮南方电网做5年。第二是《在线》,是阿里巴巴王坚博士写的。第三是金融行业写的比较领先的《银行数据治理》这本书,还有《数据质量工程实践》、《首席数据官实战、《工业大数据》、《DAMA-DMBOK》,这是做数据治理必看的10本书。
另外推荐一个公众号,是做数据治理和数据资产非常经典的公众号。最后送给大家5句话:第一,数据是企业的核心竞争要素。第二,数据助力基于事实的决策。第三,数据是企业卓越运营的基石。第四,数据助推业务增长,占领市场。第五,数据是企业最最核心的竞争资产,要发挥它的价值。
谢谢大家!