当前位置:CIO新闻中心 → 正文

如何通过智能数据管理实现企业数字化转型

责任编辑:cres |来源:企业网D1Net  2019-08-19 10:32:28 原创文章 企业网D1Net

2019年8月10日,由企业网D1Net举办的CIO夏季沙龙在深圳召开。本次沙龙邀请大中型知名企业信息高管出席,聚焦政企数字化转型难点,探寻当代政企在数字化转型道路上的挑战和解决之道。
 
以下为现场速记。
 
梁有为:谢谢。今天我讲的片子不多,大概半个小时,因为刚刚跟你们聊天发现,有人走过来跟我们打招呼,Informatica,你是干什么?Informatica,不是ETL的吗?我想,今天的分享比较活泼一点,Informatica现在是做什么事情的?当然在片子里,我本来准备了一些案例,但有可能这些案例我会口头讲出来,因为我是负责华南区,比如说广州、深圳,香港、台湾的一些案子,因为我是售前,所以我比较多的经验是这三个地区不同客户的需求,我也跟这三个地区的CIO、CDO也会聊起来,现在你们的需求是什么呢,看看大家有没有分享的地方。
 
大家都知道,从几年前开始,大家都说数据很重要,不管是CIO还是其他人,我最近发现在香港有越来越多的新职位公司CDO,有的是CEO委派的,他想现在创建的一个新职位是CDO。大家都说数据很重要,但我要干什么,他不知道。我发现如果你是领先的行业,比如说做电商的,或者是汽车行业的,其实你已经转型的很好,因为你就是转型的火车头,我发现现在很多企业觉得自己是落后的,或者是认为自己是传统的行业,需要有一些新的想法帮助自己创新,但又在想我究竟要不要做数字化转型,这是每一个企业里想到的问题。
 
我和碧桂园的讲解有点结合的地方。大家都知道,比如说碧桂园做地产的,现在很多数据从不同的装备里、机器里产生出来,比如说你看的灯柱机器人,他除了帮助你做一些服务之外,背后产生很多数据,从不同的来源产生很多数据,然后就想需要数据。现在还有很火的机器学习、人工智能,Informatica要解决的东西,在这些概念里面,你说这些数据很重要、很大、很复杂,你现在的公司需不需要做这个事情呢?这是每一个企业要去想的,我们现在做一个国企,在湖南,他也很有趣的。他问我们,你们做那么多的案子,我们只是一个传统的行业,究竟我需不需要做这个事情呢?我就问,其实你们现在碰到的问题是不是其中的一个点里面,或者是一个开发点里面。什么意思呢?有时候我发现客户说想做数字化转型,不是为做而做,第一个,我把东西变得比较灵活,节省成本,倒不如我把我的应用或者是很多设备放到不同的云上,有时候他会参考,我们在香港也做很多银行和保险公司,他们有多达5个云的考虑。比如说我放在谷歌、放在亚马逊,他们有这样的考虑。因为这些考虑,如果我要做数字化转型,跟我的业务有什么关系?很多时候是因为现在手机APP那么流行,希望给自己的客户有更好的体验,才想做数字化转型。另外,我去湖南的一个国企,他为什么要做数字化转型?我想你们也有做数仓,会出报表,以前的报表是很普通的,我从SAP过来的,我现在可以自己做报表了,做的很漂亮,可以给老板交功课,领导看到很开心。可是,他看到这个报表很漂亮之外,还会产生一些需求,这个数据从哪里来的?这个数据准确不准确?这个数据可不可以信任?我们现在有一些体验,可能还没有想到要怎样在收入方面转型增加收入。比如说我希望现在内部的用户可以做自助服务,可是刚刚这些问题就跑出来了,不光是给他一个视觉化的报表工具就能解决问题。我们说湖南的国企,他想把这些东西再放大一点。每一个人都可以很容易地消费数据,而且他要知道数据从哪里来,比如说质量好不好,他是怎么去管理的等等。
 
我刚才也提到,现在有很多公司有一个创新的职位是CDO,你要帮我找出数据在企业里的价值在哪里,怎样帮助我创新。但是他们都不清楚公司里的客户数据、产品数据究竟放在哪里,这通常是每一个CDO考虑的,比如说我上任了,我第一个问的问题,问IT,我的客户数据在哪里?IT会告诉说,可能在这个应用里边、在那个应用里边。他都没有明确的答案。
 
我今天的分享是讲数据治理,数据治理是很广泛的名词,以前我们说做数仓项目也是做数据治理,你做报表也是数据治理,你做数据整合也是数据治理,你做脱敏也是数据治理。但现在返过来了,我们看到的趋势是如果你从项目去做数据治理,有什么问题呢?可能每一个部门他们自己做这个事情,最后没有把整个东西拉通。现在我们返过来发现,现在做数据治理的,以前是从下到上,现在是从上到下做这个事情。首先你做数据治理,你的目标是什么?最终你希望这个数据,不管是内部的业务也好,还是外部的客户也好,去消费你的数据。否则你做那么多的处理,最后没有人去消费你的数据,那你花大的工作量干什么呢。但是如果要做这些处理的时候,现在你会发现,当然要消费这个数据,不管是业务部门还是IT,中间做很多处理和数据治理的中间过程,我们希望有平台落地。我看到很多在数据治理的项目状况,可能有一个企业说要做数据治理,但我不知道要做什么事情。然后找咨询公司过来,做一堆的梳理,然后给你一堆文档。然后说这就是我们梳理完的结果,然后你们应该怎样,放上去做吧,但是你会发现,如果这样的话,我就开始做某些项目,项目运作的时候,整个方向会有改变、会有改动的。在整个企业里,没有一个人或者是没有一个团队很明确地看到,我现在应该朝哪个方向走。所以,数据治理从理论上来讲,不管是业务部门还是IT部门,都一起参与整个数据治理的过程,而且必须要有明确的方法,让我知道方向在哪里、指标好不好。
 
因为现在IT的环境太复杂了,举个例子,五年前还没有大数据项目,都是数仓、数据库还处理得了。几年前开始,大家都去做大数据项目了。我在香港感觉比较深的是现在都不做数据库了,都跑到云上了。因为我们发现,建一个数据库成本太大了,他说没有关系,都跑到云上。这几年复杂的环境变化太快了,如果我们还是用传统的方法做数据治理是很累的。我们现在做数据治理,必须要有一些AI的东西去辅助你做这个事情,要不然的话,我告诉你数据治理的应用,最近有很多法规,可能要经过GDPR,GDPR是什么意思?如果你有一些客户是欧洲的客户,欧洲客户的信息泄露出去,欧盟可以罚你很严重。
 
现在第一个问题,首先我的客户数据在哪里?我的哪些数据是欧盟客户的数据。IT就很头疼,我几百个系统、那么多数据库,我怎么去看?我去银行,银行用的方法是很搞笑的,他给几张纸,我去问应用部门的头儿,在你的应用里面,你的data base里面,有哪几张表是有数据的,然后就填进去。填完给我,我就信任你了。这个时候,很大的银行是这样做的。ok,这也正常。要做这个事情的话,你需要一些机器帮你做这样的梳理,而不是让人帮你做这个梳理。最后,大数据的架构是很重要的,要做所谓的数据资产的管理。
 
我们发现你要做所谓的数据治理,你企业的数据要给不同的人去消费,每个人的需求都不一样的时候,你怎么做这个事情。比如说这个是比较高层CDO想的问题,慢慢到业务线的主管、你的BU,有的是数据科学家,数据的消费者,他们对数据的需求都不一样,如果从以前的方法,很简单,我就给你。可能你们也做过元数据项目,举个例子,我有10个应用,你的10个数据库,我把10个数据库的说明都放在同一个地方,这张表、这个字段是什么意思,这张表和另外一张表中间的关系,我把它可视化出来,让每个人都能理解,最后谁能理解呢?只有IT能够理解,业务部根本不能理解。因为我们发现是每一个人想消费这个数据,他们其实需要的程度都不一样。CDO、老板需要的东西是比较偏业务的,而且他不需要那么细。但你刚刚走下去的时候,你发现IT的、数据消费者需要看很细很细,比如说我要知道这个字段的血缘分析从哪里来的,他再拿一张报表用这个字段,然后中间的处理过程,这些是IT很关心的,但对业务人员来讲,我都不关心,我只是想知道这个数据究竟大概是什么样的,而且质量好不好。所以我们现在做数据治理,我们希望是从上到下的方法做这个事情。首先,以前我们做数据治理,我们把东西打开、摊开给每个人去看,这是没意思的。我们必须要有一个平台,把刚刚我说的找机器人公司做一些梳理,你整个企业里有哪些系统、有哪些数据或者是哪些字段、哪些法规、哪些人、哪些流程。现在梳理完的结果,我会放到平台里,这只是其中的一部分,这是系统和系统之间的血缘关系,当然这是偏业务的,不是IT偏技术的血缘关系。因为有时候我们发现,数据库里有几千张表,你每一张表去看,他比较关心的是某些比较重要的,可能和业务有关的,可能是和场景有关的,哪一些数据或者是字段,跟哪些系统、哪些人有关,我把这些东西可视化。另外,我们还提供了一个很重要的事情,我们有一些所谓的可视化的报告,这是什么报告呢?这是数据质量的报告。
 
我举个例子,比如说通过我们的梳理,我们发现我们在某一个CIN里面是有客户的数据,而我必须要客户的名称、微信号码、身份证号码等不同的字段,我也希望这些字段里的质量是好的,可能是做一个指标的,它不可以是空的,所填的东西必须是符合某一个规格的,可能从业务的角度定义了这些东西。我们做数据治理要做什么事情呢?业务需要的东西,我们要告诉他事实。我们通过我们的平台,去真的扫描每一个数据库。你觉得你需要是这些指标的数据质量,我会去搜整个数据库,你说的这个时段,究竟质量怎么样,我把它呈现给你看。以前所谓数据治理的手段是断开的,你把这些东西拿来进行梳理,出来一堆报告、一堆结果,就放在一边。随着项目的开展、流动,这些事实和你原本概念上的东西会断开,脱离开。我现在希望把这两个东西永远拉紧,你的指标、你的概念上有这些东西。事实上,我们发现在系统里,或者是整个企业所有系统里,你的现状是这样,随时把这些东西放在一起,不管是数据治理的主管也好,或者是需要知道数据在哪里的人也好,会看到这个状况,有了这个东西以后,才可以合作把数据治理的东西做好。
 
另外,在整个平台里面,背后有一个很重要的能力,你有没有一个企业的数据资产目录,这是很重要的。举个例子,有一个老板常常问,其实你哪些需求里有客户数据?刚刚我提到的,你去每个应用部门的头儿几张表,然后填填填。现在不是这样做了,现在是通过机器学习、大数据的能力做这个事情,我真的会去扫描每一个应用里面,每一张表、每一个字段的内容,去判断这个内容究竟看起来是一个名称、是一个ID、是一个电话号码、是一个地址,我们把这些都标签出来。标签出来以后,整个东西就是你企业的数据目录。这个数据目录有什么应用呢?我们发现有三点,第一,我刚才提到了湖南的一个企业,IT把数据放在一个数仓里,业务人员自己做报告,做的报告很漂亮,但问题是整个过程里,还是有一个问题,他还是要IT先帮他处理好数据,放在一个地方,他去做报告。现在能不能放过来,我把整个企业里所有的系统都盘点好了,都已经打上标签了,你自己去找,找出来以后。他可以给业务员收那个数据、改那个数据,改完以后出报告。很多时候我们发现,整个过程里做企业目录的,第一个重点是能不能提供一个基础分析,每个人都有消费数据。第二个是资产管理,所谓的资产管理,刚才提到所谓的数据目录,很多是机器做的事情,机器帮你扫描、机器帮你打标签,我们发现很多标签是机器不能打的,举个例子,业务的术语、业务的定义,这些是我们给业务参与,一起在企业的数据目录里面,然后他们自己把这些业务的标签打上去。所以,做完以后,整个东西就变成了数据的资产管理。机器能做的事情是什么?我去扫描、做血缘分析,但也需要有人参与。
 
数据的治理,落地在什么地方?你把从上到下,业务知道现在要做什么事情,后面我们通过企业数据目录去扫描、打标签,把数据资产化,我们落地到什么地方呢?我举一个例子,可能今天因为法规的原因,我们针对GDP要做一些事情,比如现在法规说如果你有欧盟的客户,我要特别地对他们的数据进行保护。你要做几个事情呢?有几个步骤,首先你要发现究竟哪些客户数据是欧盟的客户,而且哪些数据是敏感的。这个发现的过程,通过机器学习,可以盘点,能够做出来。第二,你找到那些东西,现在的状况是你有没有保护,有可能你已经保护的好好的,ok,什么都不用做。但我会告诉你,我们找出这些东西之后,其实你没有好好保护他,因为我发现,这些数据晚上通过某些脚本或者是某些ETL的过程会流到另一个数据库里,但中间你没有做脱敏、没有做加密,这也是平台可以告诉你的事情。第三,你知道数据在那里,你没有很好地保护。我们可以针对敏感数据,帮你做脱敏、帮你做保护,而且我们会监控整个过程。这是把数据治理变成应用的场景,我为什么要做那么多事情,我要盘点我的数据、知道我的人、我的流程、我的系统在哪里,真的是你们去扫描这个事情,我们希望把整个过程逻辑上结合起来,把他放到不同的应用上。
 
我本来有一个案例分享,我可以给你看一下Informatica,不管是在国内还是国外,我们在帮企业做数据治理的项目。Informatica,以前你印象中的Informatica是不是做数仓的,是不是做ETL的。刚才我们发现,我们有集成的解决方案,我们有组数据的解决方案,我们有数据质量解决方案,我们有一些脱敏的解决方案,我们有安全方面的解决方案,这些比较面熟的是华为,华为大概在三年前,他们的总部,他们想做一个数字资产的项目,那时候他们也看不同厂家企业目录数据治理,最后他们也选了Informatica来做这个事情,因为他发现Informatica比较偏向于所有的方案有落地的软件平台。比如我虽然能做这个事情,但是我要开发的,我们不是这个角度的。Informatica是做什么事情呢?整个数据的过程是从外部的数据到消费的数据,中间要做很多处理,要做什么处理呢?我举个例子,企业目录,我要做数据的盘点,可能我要做很多中台的需求,先把数据集成集中在一个地方,这些集中的地方,我需要做数据的梳理、共享,如果从分析的角度,我们会把数据集中完之后,再把它集中到数仓或者是大平台上面,中间我们通过一些模块做数据质量的提升管理。如果现在你把数据集中在同一个地方,这一堆数据里肯定有敏感数据,你要好好保护,所以数据的安全这一部分,也是很重要的,数据管理的部分、数据治理的部分。这几年看到很多企业开始想,数据管理怎么做。其实你看到的每一部分,Informatica是做数据管理的加工、提升的部分、质量的部分、数仓数据库的部分、组数据管理部分、企业目录的部分、二级的部分,甚至于流程的部分,每一个部分我们都有落地的应用解决方案。这是Informatica和其他厂家不一样的地方。
 
Informatica做了很多年了,我们都是做数据管理的,做了25年了。我们比较有意思的地方,你发现这五个圈,Informatica是干什么的?一些成绩表吧,Informatica是做集成的,NO.1。我们是做元数据的,企业目录的部分,NO.1。我们做数据质量的NO.1,我们做组数据管理NO.1,如果有些客户说今天我有很多数据已经搬到云上面,已经有一些云的应用,然后云和地、天和地、天和天怎样去审核呢?Informatica也有成熟的解决方案。所以,如果几年前或者是十年前,我在Informatica干了十年了,十年前你问Informatica是干什么的?Informatica是做ETR,现在Informatica干什么?如果你最近看过阿里的数据中台那本书,里面也提到Informatica。其实中台概念的能力,Informatica已经很早就有了,只是那时候没有中台的概念,所以大家都不知道。Informatica,我们希望做一个中间人的数据治理平台,这样有很多的能力,很多企业在做数字化转型的过程中,他需要有一个数据治理的总纲,我刚才提到的,偏业务的,把这些数据梳理完的结果,放到一个平台上,不管是业务人员还是IT人员,让大家看到现在的准确,这是数据梳理的部分。企业目录部分,做数据的盘点、数据的标签化、资产化,我们有不同的能力接入现有的数据库、现有的应用、云的应用、大数据的应用,这套存储模型里面,Informatica没有做存储部分,但我们有一系列的管理的能力,比方说我们有ETL的部分,比如说绩效转换,我们有很强的能力,做数据的标准,数据标准的定义,数据质量的提升、数据的准备,这个数据准备就是我们怎样给业务人员自己做ETL,以前通常是IT做ETL,业务人员只是拿来做报表,现在是你去做吧,ok,怎么做组数据的管理,数据的安全风险管理,还有数据的归档。这些不同的能量,我们有一个AI的引擎,你可以看到AI是蓝色的。最后整个平台上也有数据服务分发的能力。现在这就是Informatica,所谓的数据智能平台所做的事情,跟你们传统想的Informatica只做这个,都25年了,所以这几年有很多变化,Informatica全球大概有1万个客户,如果在大中华区,现在已经超过1000个客户了,也分散在不同的行业里面。所以Informatica比较有意思,因为我们不是做某一个行业,我们做所谓的数据管理领域里,这个是很广泛的,政府部门、制造业、零售行业、电信行业,都觉得这个东西是管用的。而且我自己看华南、香港、台湾,发现每个地区、每一个行业的需求速度都不一样,比方说八年、十年前,台湾做金融服务很好的,那时候香港华人地区做的很好,这几年可能在华人地区很多电商或者是电信行业东西都做完了,现在慢慢是把这些概念,所谓数据化转型的概念转到零售行业或者是制造业,最近我在和很多政府部门合作做这个事情。
 
因为时间不多,我不可能把所有的东西都讲透、讲清楚,大家可以扫微关注我们的网站,也可以在我结束以后,再和我聊聊每一个部分。谢谢!

关键字:数据管理

原创文章 企业网D1Net

x 如何通过智能数据管理实现企业数字化转型 扫一扫
分享本文到朋友圈
当前位置:CIO新闻中心 → 正文

如何通过智能数据管理实现企业数字化转型

责任编辑:cres |来源:企业网D1Net  2019-08-19 10:32:28 原创文章 企业网D1Net

2019年8月10日,由企业网D1Net举办的CIO夏季沙龙在深圳召开。本次沙龙邀请大中型知名企业信息高管出席,聚焦政企数字化转型难点,探寻当代政企在数字化转型道路上的挑战和解决之道。
 
以下为现场速记。
 
梁有为:谢谢。今天我讲的片子不多,大概半个小时,因为刚刚跟你们聊天发现,有人走过来跟我们打招呼,Informatica,你是干什么?Informatica,不是ETL的吗?我想,今天的分享比较活泼一点,Informatica现在是做什么事情的?当然在片子里,我本来准备了一些案例,但有可能这些案例我会口头讲出来,因为我是负责华南区,比如说广州、深圳,香港、台湾的一些案子,因为我是售前,所以我比较多的经验是这三个地区不同客户的需求,我也跟这三个地区的CIO、CDO也会聊起来,现在你们的需求是什么呢,看看大家有没有分享的地方。
 
大家都知道,从几年前开始,大家都说数据很重要,不管是CIO还是其他人,我最近发现在香港有越来越多的新职位公司CDO,有的是CEO委派的,他想现在创建的一个新职位是CDO。大家都说数据很重要,但我要干什么,他不知道。我发现如果你是领先的行业,比如说做电商的,或者是汽车行业的,其实你已经转型的很好,因为你就是转型的火车头,我发现现在很多企业觉得自己是落后的,或者是认为自己是传统的行业,需要有一些新的想法帮助自己创新,但又在想我究竟要不要做数字化转型,这是每一个企业里想到的问题。
 
我和碧桂园的讲解有点结合的地方。大家都知道,比如说碧桂园做地产的,现在很多数据从不同的装备里、机器里产生出来,比如说你看的灯柱机器人,他除了帮助你做一些服务之外,背后产生很多数据,从不同的来源产生很多数据,然后就想需要数据。现在还有很火的机器学习、人工智能,Informatica要解决的东西,在这些概念里面,你说这些数据很重要、很大、很复杂,你现在的公司需不需要做这个事情呢?这是每一个企业要去想的,我们现在做一个国企,在湖南,他也很有趣的。他问我们,你们做那么多的案子,我们只是一个传统的行业,究竟我需不需要做这个事情呢?我就问,其实你们现在碰到的问题是不是其中的一个点里面,或者是一个开发点里面。什么意思呢?有时候我发现客户说想做数字化转型,不是为做而做,第一个,我把东西变得比较灵活,节省成本,倒不如我把我的应用或者是很多设备放到不同的云上,有时候他会参考,我们在香港也做很多银行和保险公司,他们有多达5个云的考虑。比如说我放在谷歌、放在亚马逊,他们有这样的考虑。因为这些考虑,如果我要做数字化转型,跟我的业务有什么关系?很多时候是因为现在手机APP那么流行,希望给自己的客户有更好的体验,才想做数字化转型。另外,我去湖南的一个国企,他为什么要做数字化转型?我想你们也有做数仓,会出报表,以前的报表是很普通的,我从SAP过来的,我现在可以自己做报表了,做的很漂亮,可以给老板交功课,领导看到很开心。可是,他看到这个报表很漂亮之外,还会产生一些需求,这个数据从哪里来的?这个数据准确不准确?这个数据可不可以信任?我们现在有一些体验,可能还没有想到要怎样在收入方面转型增加收入。比如说我希望现在内部的用户可以做自助服务,可是刚刚这些问题就跑出来了,不光是给他一个视觉化的报表工具就能解决问题。我们说湖南的国企,他想把这些东西再放大一点。每一个人都可以很容易地消费数据,而且他要知道数据从哪里来,比如说质量好不好,他是怎么去管理的等等。
 
我刚才也提到,现在有很多公司有一个创新的职位是CDO,你要帮我找出数据在企业里的价值在哪里,怎样帮助我创新。但是他们都不清楚公司里的客户数据、产品数据究竟放在哪里,这通常是每一个CDO考虑的,比如说我上任了,我第一个问的问题,问IT,我的客户数据在哪里?IT会告诉说,可能在这个应用里边、在那个应用里边。他都没有明确的答案。
 
我今天的分享是讲数据治理,数据治理是很广泛的名词,以前我们说做数仓项目也是做数据治理,你做报表也是数据治理,你做数据整合也是数据治理,你做脱敏也是数据治理。但现在返过来了,我们看到的趋势是如果你从项目去做数据治理,有什么问题呢?可能每一个部门他们自己做这个事情,最后没有把整个东西拉通。现在我们返过来发现,现在做数据治理的,以前是从下到上,现在是从上到下做这个事情。首先你做数据治理,你的目标是什么?最终你希望这个数据,不管是内部的业务也好,还是外部的客户也好,去消费你的数据。否则你做那么多的处理,最后没有人去消费你的数据,那你花大的工作量干什么呢。但是如果要做这些处理的时候,现在你会发现,当然要消费这个数据,不管是业务部门还是IT,中间做很多处理和数据治理的中间过程,我们希望有平台落地。我看到很多在数据治理的项目状况,可能有一个企业说要做数据治理,但我不知道要做什么事情。然后找咨询公司过来,做一堆的梳理,然后给你一堆文档。然后说这就是我们梳理完的结果,然后你们应该怎样,放上去做吧,但是你会发现,如果这样的话,我就开始做某些项目,项目运作的时候,整个方向会有改变、会有改动的。在整个企业里,没有一个人或者是没有一个团队很明确地看到,我现在应该朝哪个方向走。所以,数据治理从理论上来讲,不管是业务部门还是IT部门,都一起参与整个数据治理的过程,而且必须要有明确的方法,让我知道方向在哪里、指标好不好。
 
因为现在IT的环境太复杂了,举个例子,五年前还没有大数据项目,都是数仓、数据库还处理得了。几年前开始,大家都去做大数据项目了。我在香港感觉比较深的是现在都不做数据库了,都跑到云上了。因为我们发现,建一个数据库成本太大了,他说没有关系,都跑到云上。这几年复杂的环境变化太快了,如果我们还是用传统的方法做数据治理是很累的。我们现在做数据治理,必须要有一些AI的东西去辅助你做这个事情,要不然的话,我告诉你数据治理的应用,最近有很多法规,可能要经过GDPR,GDPR是什么意思?如果你有一些客户是欧洲的客户,欧洲客户的信息泄露出去,欧盟可以罚你很严重。
 
现在第一个问题,首先我的客户数据在哪里?我的哪些数据是欧盟客户的数据。IT就很头疼,我几百个系统、那么多数据库,我怎么去看?我去银行,银行用的方法是很搞笑的,他给几张纸,我去问应用部门的头儿,在你的应用里面,你的data base里面,有哪几张表是有数据的,然后就填进去。填完给我,我就信任你了。这个时候,很大的银行是这样做的。ok,这也正常。要做这个事情的话,你需要一些机器帮你做这样的梳理,而不是让人帮你做这个梳理。最后,大数据的架构是很重要的,要做所谓的数据资产的管理。
 
我们发现你要做所谓的数据治理,你企业的数据要给不同的人去消费,每个人的需求都不一样的时候,你怎么做这个事情。比如说这个是比较高层CDO想的问题,慢慢到业务线的主管、你的BU,有的是数据科学家,数据的消费者,他们对数据的需求都不一样,如果从以前的方法,很简单,我就给你。可能你们也做过元数据项目,举个例子,我有10个应用,你的10个数据库,我把10个数据库的说明都放在同一个地方,这张表、这个字段是什么意思,这张表和另外一张表中间的关系,我把它可视化出来,让每个人都能理解,最后谁能理解呢?只有IT能够理解,业务部根本不能理解。因为我们发现是每一个人想消费这个数据,他们其实需要的程度都不一样。CDO、老板需要的东西是比较偏业务的,而且他不需要那么细。但你刚刚走下去的时候,你发现IT的、数据消费者需要看很细很细,比如说我要知道这个字段的血缘分析从哪里来的,他再拿一张报表用这个字段,然后中间的处理过程,这些是IT很关心的,但对业务人员来讲,我都不关心,我只是想知道这个数据究竟大概是什么样的,而且质量好不好。所以我们现在做数据治理,我们希望是从上到下的方法做这个事情。首先,以前我们做数据治理,我们把东西打开、摊开给每个人去看,这是没意思的。我们必须要有一个平台,把刚刚我说的找机器人公司做一些梳理,你整个企业里有哪些系统、有哪些数据或者是哪些字段、哪些法规、哪些人、哪些流程。现在梳理完的结果,我会放到平台里,这只是其中的一部分,这是系统和系统之间的血缘关系,当然这是偏业务的,不是IT偏技术的血缘关系。因为有时候我们发现,数据库里有几千张表,你每一张表去看,他比较关心的是某些比较重要的,可能和业务有关的,可能是和场景有关的,哪一些数据或者是字段,跟哪些系统、哪些人有关,我把这些东西可视化。另外,我们还提供了一个很重要的事情,我们有一些所谓的可视化的报告,这是什么报告呢?这是数据质量的报告。
 
我举个例子,比如说通过我们的梳理,我们发现我们在某一个CIN里面是有客户的数据,而我必须要客户的名称、微信号码、身份证号码等不同的字段,我也希望这些字段里的质量是好的,可能是做一个指标的,它不可以是空的,所填的东西必须是符合某一个规格的,可能从业务的角度定义了这些东西。我们做数据治理要做什么事情呢?业务需要的东西,我们要告诉他事实。我们通过我们的平台,去真的扫描每一个数据库。你觉得你需要是这些指标的数据质量,我会去搜整个数据库,你说的这个时段,究竟质量怎么样,我把它呈现给你看。以前所谓数据治理的手段是断开的,你把这些东西拿来进行梳理,出来一堆报告、一堆结果,就放在一边。随着项目的开展、流动,这些事实和你原本概念上的东西会断开,脱离开。我现在希望把这两个东西永远拉紧,你的指标、你的概念上有这些东西。事实上,我们发现在系统里,或者是整个企业所有系统里,你的现状是这样,随时把这些东西放在一起,不管是数据治理的主管也好,或者是需要知道数据在哪里的人也好,会看到这个状况,有了这个东西以后,才可以合作把数据治理的东西做好。
 
另外,在整个平台里面,背后有一个很重要的能力,你有没有一个企业的数据资产目录,这是很重要的。举个例子,有一个老板常常问,其实你哪些需求里有客户数据?刚刚我提到的,你去每个应用部门的头儿几张表,然后填填填。现在不是这样做了,现在是通过机器学习、大数据的能力做这个事情,我真的会去扫描每一个应用里面,每一张表、每一个字段的内容,去判断这个内容究竟看起来是一个名称、是一个ID、是一个电话号码、是一个地址,我们把这些都标签出来。标签出来以后,整个东西就是你企业的数据目录。这个数据目录有什么应用呢?我们发现有三点,第一,我刚才提到了湖南的一个企业,IT把数据放在一个数仓里,业务人员自己做报告,做的报告很漂亮,但问题是整个过程里,还是有一个问题,他还是要IT先帮他处理好数据,放在一个地方,他去做报告。现在能不能放过来,我把整个企业里所有的系统都盘点好了,都已经打上标签了,你自己去找,找出来以后。他可以给业务员收那个数据、改那个数据,改完以后出报告。很多时候我们发现,整个过程里做企业目录的,第一个重点是能不能提供一个基础分析,每个人都有消费数据。第二个是资产管理,所谓的资产管理,刚才提到所谓的数据目录,很多是机器做的事情,机器帮你扫描、机器帮你打标签,我们发现很多标签是机器不能打的,举个例子,业务的术语、业务的定义,这些是我们给业务参与,一起在企业的数据目录里面,然后他们自己把这些业务的标签打上去。所以,做完以后,整个东西就变成了数据的资产管理。机器能做的事情是什么?我去扫描、做血缘分析,但也需要有人参与。
 
数据的治理,落地在什么地方?你把从上到下,业务知道现在要做什么事情,后面我们通过企业数据目录去扫描、打标签,把数据资产化,我们落地到什么地方呢?我举一个例子,可能今天因为法规的原因,我们针对GDP要做一些事情,比如现在法规说如果你有欧盟的客户,我要特别地对他们的数据进行保护。你要做几个事情呢?有几个步骤,首先你要发现究竟哪些客户数据是欧盟的客户,而且哪些数据是敏感的。这个发现的过程,通过机器学习,可以盘点,能够做出来。第二,你找到那些东西,现在的状况是你有没有保护,有可能你已经保护的好好的,ok,什么都不用做。但我会告诉你,我们找出这些东西之后,其实你没有好好保护他,因为我发现,这些数据晚上通过某些脚本或者是某些ETL的过程会流到另一个数据库里,但中间你没有做脱敏、没有做加密,这也是平台可以告诉你的事情。第三,你知道数据在那里,你没有很好地保护。我们可以针对敏感数据,帮你做脱敏、帮你做保护,而且我们会监控整个过程。这是把数据治理变成应用的场景,我为什么要做那么多事情,我要盘点我的数据、知道我的人、我的流程、我的系统在哪里,真的是你们去扫描这个事情,我们希望把整个过程逻辑上结合起来,把他放到不同的应用上。
 
我本来有一个案例分享,我可以给你看一下Informatica,不管是在国内还是国外,我们在帮企业做数据治理的项目。Informatica,以前你印象中的Informatica是不是做数仓的,是不是做ETL的。刚才我们发现,我们有集成的解决方案,我们有组数据的解决方案,我们有数据质量解决方案,我们有一些脱敏的解决方案,我们有安全方面的解决方案,这些比较面熟的是华为,华为大概在三年前,他们的总部,他们想做一个数字资产的项目,那时候他们也看不同厂家企业目录数据治理,最后他们也选了Informatica来做这个事情,因为他发现Informatica比较偏向于所有的方案有落地的软件平台。比如我虽然能做这个事情,但是我要开发的,我们不是这个角度的。Informatica是做什么事情呢?整个数据的过程是从外部的数据到消费的数据,中间要做很多处理,要做什么处理呢?我举个例子,企业目录,我要做数据的盘点,可能我要做很多中台的需求,先把数据集成集中在一个地方,这些集中的地方,我需要做数据的梳理、共享,如果从分析的角度,我们会把数据集中完之后,再把它集中到数仓或者是大平台上面,中间我们通过一些模块做数据质量的提升管理。如果现在你把数据集中在同一个地方,这一堆数据里肯定有敏感数据,你要好好保护,所以数据的安全这一部分,也是很重要的,数据管理的部分、数据治理的部分。这几年看到很多企业开始想,数据管理怎么做。其实你看到的每一部分,Informatica是做数据管理的加工、提升的部分、质量的部分、数仓数据库的部分、组数据管理部分、企业目录的部分、二级的部分,甚至于流程的部分,每一个部分我们都有落地的应用解决方案。这是Informatica和其他厂家不一样的地方。
 
Informatica做了很多年了,我们都是做数据管理的,做了25年了。我们比较有意思的地方,你发现这五个圈,Informatica是干什么的?一些成绩表吧,Informatica是做集成的,NO.1。我们是做元数据的,企业目录的部分,NO.1。我们做数据质量的NO.1,我们做组数据管理NO.1,如果有些客户说今天我有很多数据已经搬到云上面,已经有一些云的应用,然后云和地、天和地、天和天怎样去审核呢?Informatica也有成熟的解决方案。所以,如果几年前或者是十年前,我在Informatica干了十年了,十年前你问Informatica是干什么的?Informatica是做ETR,现在Informatica干什么?如果你最近看过阿里的数据中台那本书,里面也提到Informatica。其实中台概念的能力,Informatica已经很早就有了,只是那时候没有中台的概念,所以大家都不知道。Informatica,我们希望做一个中间人的数据治理平台,这样有很多的能力,很多企业在做数字化转型的过程中,他需要有一个数据治理的总纲,我刚才提到的,偏业务的,把这些数据梳理完的结果,放到一个平台上,不管是业务人员还是IT人员,让大家看到现在的准确,这是数据梳理的部分。企业目录部分,做数据的盘点、数据的标签化、资产化,我们有不同的能力接入现有的数据库、现有的应用、云的应用、大数据的应用,这套存储模型里面,Informatica没有做存储部分,但我们有一系列的管理的能力,比方说我们有ETL的部分,比如说绩效转换,我们有很强的能力,做数据的标准,数据标准的定义,数据质量的提升、数据的准备,这个数据准备就是我们怎样给业务人员自己做ETL,以前通常是IT做ETL,业务人员只是拿来做报表,现在是你去做吧,ok,怎么做组数据的管理,数据的安全风险管理,还有数据的归档。这些不同的能量,我们有一个AI的引擎,你可以看到AI是蓝色的。最后整个平台上也有数据服务分发的能力。现在这就是Informatica,所谓的数据智能平台所做的事情,跟你们传统想的Informatica只做这个,都25年了,所以这几年有很多变化,Informatica全球大概有1万个客户,如果在大中华区,现在已经超过1000个客户了,也分散在不同的行业里面。所以Informatica比较有意思,因为我们不是做某一个行业,我们做所谓的数据管理领域里,这个是很广泛的,政府部门、制造业、零售行业、电信行业,都觉得这个东西是管用的。而且我自己看华南、香港、台湾,发现每个地区、每一个行业的需求速度都不一样,比方说八年、十年前,台湾做金融服务很好的,那时候香港华人地区做的很好,这几年可能在华人地区很多电商或者是电信行业东西都做完了,现在慢慢是把这些概念,所谓数据化转型的概念转到零售行业或者是制造业,最近我在和很多政府部门合作做这个事情。
 
因为时间不多,我不可能把所有的东西都讲透、讲清楚,大家可以扫微关注我们的网站,也可以在我结束以后,再和我聊聊每一个部分。谢谢!

关键字:数据管理

原创文章 企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^