由企业网D1Net、中国企业数字化联盟和信众智(CIO智力输出及社交平台)共同主办的2024北京部委央国企及大型企业CIO大会于1月20日在京圆满召开。本次大会汇聚了百余位央国企部委及大中型企业CIO、信息主管以及数字化一线厂商,以“数智赋能可持续发展”为主题,围绕数据治理、BI、数据合规、数据入表、人工智能大模型、分布式云、安全等数字化技术应用,数据战略规划与实践、大模型在行业中的落地实践、数字化转型实践等热门议题展开深入探讨。
某世界500强德国车企原大数据部负责人历娜博士在演讲中基于国际化的经验分享了数据治理和信息安全的重要性,以及如何在企业中成功实施这些措施。
历娜博士强调,在大的公司中,技术只是数据治理和信息安全的一部分,虽然重要,但成功的关键在于建立系统化的思维方式和决策网络。她提到,数据治理和信息安全考虑多个方面,包括合作伙伴、法律法规、技术、利益相关人、决策与审批、预算与成本、团队资质、流程与制度等。历娜博士详细介绍了数据的全生命周期,从数据的产生、采集、分类、脱敏、清洗、转化、存储、监控、集成、处理、建模、云计算、展示、创新应用到最终的数据销毁。通过多个案例分享,历娜博士展示了在不同阶段如何处理数据治理和安全问题,包括工业4.0、车联网、电动车监控、企业数据湖建设、数据信息安全等。
最后,历娜博士以汽车产业为例,区分了信息化产品(如ERP系统)、数字/智能化产品(如车联网、无人驾驶)和大数据创新(如电动车电池报警分析),还讨论了数字化产品和大数据创新的区别及对企业的意义。
以下是现场速记。
某世界500强德国车企原大数据部负责人 历娜博士
历娜:各位领导、各位来宾,各位朋友,大家下午好!我是历娜,感谢范总和企业网的邀请,今天有机会跟大家分享数据治理与数据安全。我出身外企,今天听了各位央国企领导激情澎湃的演讲,以及供应商对数字化现状以及数字化大模型未来的介绍,我听了非常激动。接下来我跟大家分享下在这个领域,我做了哪些事情。
可能大家对我还不是很熟悉,我先做一下自我介绍。我在世界500强德国头部车企工作了十几年,任职大数据中心的负责人。我和我先生都从事IT领域的工作,非常繁忙,因为家里有两个小朋友,疫情期间需要投入一定的精力,为了兼顾家庭,我转身做了顾问的工作。我的工作领域主要涉及到这么几个方向:1.全球ERP系统的实施;2.集团总部信息化;3. 集团车联网中国本地化;4. 大数据中心建设和大数据创新。在2011年有一个非常好的机会,德国总部计划将车联网系统实施到中国本地,我非常有幸作为车联网IT中国区参与到这个项目。我的主要工作是负责集团进口汽车车联网IT后台本地化,以及与合资企业的IT后台技术谈判。在谈判的过程中我发现合资厂除了技术以外,对数据非常感兴趣,从那时候开始,我对车联网数据的采集和后台存储结构格外重视。
我给大家做个车联网的普及。车主现在买的汽车驾驶舱前面有一个大屏幕,这个大屏幕以前专门看导航,现在可以跟它进行对话,可以看新闻、天气、查找停车场等,还可以用手机来遥控汽车,比如进行远程的闪光鸣笛、解锁车门、开启空调等,甚至当车发生故障时可以呼叫道路救援。这是2011年开始我参与的非常大的集团的项目,涉及到很多、很多的部门,包括质保、技术、研发、售后、销售、市场、法务以及采购等各个部门。IT负责将整个技术后台落地到中国,我是当时IT中国中三个人中的一个。
当时发现数据的吸引力,我并没有把它放到日程上。因为整个集团正在实施车联网本地化,数字化的创新至少在集团的层面还没有太多的关注,尤其是德国总部,包括美国他们对个人信息的保护都是非常的重视的,所以很难把这个事情做大。所以我将这个事情慢慢的压下来,到2017年有一个非常好的机会,我们生产部的EVP想做智能工厂工业4.0的试点,这个试点就要用生产线上的大数据,机会终于来了。我当时将大数据中心的想法包括车联网数据进行数据创新的想法跟我的CIO和负责车联网的EVP沟通,非常荣幸整个大数据中心和组织架构被批了。而智能工厂生产线设备的可预防性运维大数据创新和进口汽车车联网大数据创新成了我团队的前两个试点项目。这两个项目的成功,让我有了更大的信心把大数据中心做大做强。
我等同于从0做到1,从0预算两三年内做到几千万的预算,规模很大的,当时在集团也赢得了很多的反响,包括德国专家到中国跟我们去了解这个事情是怎么做的。今天借助数据治理和信息安全焦点的问题,我给大家分享一下这个过程,我们遇到了哪些困难,这些困难我们是怎么解决的。
首先谈到数据治理,我相信各位的专家、领导都非常清楚,一定是从数据源的采集到清洗转化到计算应用、最后到数据销毁的过程中整个数据链路的控制和管理。对于我们甲方来说,技术仅仅是我们要管控的一个方面,还要想到很多其他方面的问题。比如你做数据治理,做大数据的项目,是不是得有钱,得有预算,如果自己的研发人员不够,研发力量不强,是不是还要跟合作伙伴进行合作?比如说SAP、埃森哲、IBM,oracle等这都是我过去的合作伙伴。可能我们要借助他们的一部分力量,来帮助我们搭建技术平台。
整个大数据的治理过程中涉及到方方面面,涉及到不同的阶段,有不同的利益相关人,可能有我们的智能工厂、有我们的车主,车主也是我们链条当中的一部分,因为车主拥有数据,是车联网数据的所有者,还有我们各个不同的职能部门如采购部门、生产部门、物流部门等等,包括我们的品牌和我们的合资企业,它都是我们的利益相关人。作为一个甲方的大数据负责人,这个是你非常重要的工作,你要把利益相关人管理好。
我们的项目要有进度,这个不多说了。我们要有团队,有自己内部研发团队,有外部合作的供应商,我们还要对整个数据治理的过程进行控制。同时可能还会受国际政治关系的影响,比如中美关系,它可能会影响我们大数据平台的选型,这个云厂商,我选择谁?在美国制裁的实体名单当中也有一些厂商,我们能不能选?如果我们选了,将来如果有一天需要切换,平台怎么进行安全低成本的迁移?我是选择IaaS还是PaaS还是SaaS?在这个过程中作为大数据中心的负责人必须得考虑将来可能带来成本的变化,可能带来技术迁移的困难,选择哪个厂商对我们来说也是非常重要的。在这个过程中还要受到不同各级领导的审批,还涉及到法律法规。
做大数据的大家都知道有三部非常重要的法律:《网络安全法》、《个人信息保护法》、《数据安全法》,这三部法律决定项目进展是否顺利,能不能进行?比如分析车联网的数据,刚才穆总讲数据资产的时候我印象非常深刻,没有车主的同意,没有车主签的合同,我们没有权利进行分析,因为汽车厂家只拥有数据的使用权。只有我们在卖车的过程中跟我们的车主签订了数据协议,能够对这些数据进行分析、使用并提供增值价值,我们的大数据中心才能够合理合法地使用这些数据。
《个人信息保护法》实施之后对车联网系统或者大数据来说影响最大的是什么?就是车主的这些关键信息如GPS数据,报警数据,包括这些零部件发生故障的这些数据,能不能进行分析?这个都得需要我们法律部门给一个标准出来。除了这个以外,我相信各位大数据中心负责人都会遇到一个问题就是汇报,你得做好汇报。为什么?大数据项目是未来增值潜力很大的创新工程,但是钱花得多,而且太复杂,经过模型预测后可能看不见预期效果,公司的高层需要了解它的复杂度、风险性和可能创造的价值的能力。投资大数据,做人工智能分析,是集团的创新,集团需要在风险中进行控制,作为大数据中心的负责人,我必须和我的领导及集团的高层保持紧密的汇报,以便及时发现问题,进行战略性的调整。
接下来还有内部流程以及合作伙伴的资质。举例来说像车联网系统在全球的推行可能要借助合作伙伴帮你做后台,但是这个后台它是需要拥有TSP资质的,它是需要所在国家授予资质的,审核供应商的时候必须得审核它的资质。所以说呢,对于大数据负责人,你得有这些东西,在你的大脑中形成一张网,而不仅仅是技术。虽然我们出自IT,但是在企业任职,上面有高层决策者,下面有不同合作伙伴和利益相关者,要想到方方面面的关系在脑海中形成一个关系网。
既然谈大数据的创新,那么得分清楚是大数据的创新还是数字化产品?我也是做信息化的,所以我们都是从ERP走出来的,从信息系统走出来的。在国家实现数字化的概念的时候,我觉得有必要澄清两个方向:数字智能化产品、数据创新。对于数字智能化产品,我以汽车产业为例,包括车联网,包括无人驾驶,包括智能生产线上工业4.0上那些智能的设备,这个叫数字化产品,它有什么特点?它是企业必定的发展的战略,一定要做的。投资大而明确产品价值,所见所得,做什么就能看见什么。
比如车联网,采集的数据都是事先约定好的。通过车身部件,从总线上采集的数据转化为车联网服务,提供车主来使用,这些服务是固定的,它背后的数据是为了支撑服务的,还没有进行分析使用。所以理论来说,除非你这个产品在技术方面遇到了重大问题,否则它一定会上线。你的投资可以看到预期的结果,可以通过销售的KPI看到。
数据创新是什么?我的数据有固定数据,如来自ERP信息化系统,也有不确定性数据,如车联网、无人驾驶系统和机器设备中采集的数据,要把它们放到一个大池子里去分析它、挖掘它,做人工智能、做神经网络,我有可能看不见,有可能得不到预期的结果。当然有些是可以的,比如BI,可以在上面做报表,可以拽模块让业务部门在上面分析,这都可预可得的,但是你做AI模型就不一定得到你所期待的结果,因为要做预测。遇到这种情况的时候,怎么汇报,怎么跟领导解释投入这么大笔钱,可能有一部分创新如模型预测部分,也有可能得不到预期结果,这是我们作为数字化的领导人需要考虑的这个问题,要和公司决策层共担风险,共同努力,去最大化公司的利益价值。
大数据创新,很多人不敢做。为什么不敢做?说大的方向,可能会对公司造成风险。小的方向,可能对你的职业生涯都会造成影响,因为你可能就是投进去看不见结果。所以我们把它称之为创新型的战略。
为什么说我能够抓住这次机会呢,因为我负责车联网的后台建设和谈判多年,我又熟悉制造业的ERP实施和生产线,我知道我们企业有哪些数据,哪些是实时数据,哪些是事务数据,哪些能够提取出来,哪些不能,因此在选择大数据战略和策略时,能够为企业最大限度的规避风险,实现价值最大化。还有一条,就是我是一个喜欢创新的人,我从工作起做的IT领域的所有工作,都是同时代最有挑战性和最具创新性的事情,如ERP和车联网。一个传统的车企在数字化转型的过程中,要抓住机会和关键的转型节点。
今天央国企的领导都给大家分享了宏观大的激动人心的实例,我给大家分享我在整个数据治理过程中遇到的问题,这些问题我是怎么解决的?
首先先谈数据源的采集和数据分类部分。我给它起了个名字叫做“你要学会搞“政治””,这是什么意思?我们是搞技术的,我是处在集团的位置,集团的下面有不同的品牌,有我们的合资企业,有我们的零部件厂,也会有我们的合作伙伴。你既然在集团的位置,那么怎么联合大家一起来搞创新呢?数据在车主的手中,在合资厂、在我们的品牌、在我们的生产线上。但是你从集团的角度想进行创新,必须解决数据得跑到你这儿来,否则你没有说话的底气,做大数据没有数据做什么?第一件事情就是要解决这个事儿。
我跟我的领导进行沟通,首先要站在集团的立场上去跟各方沟通,如果各个品牌,各个合资厂大家自己各搞一摊儿,技术不同步,标准不统一,不仅仅造成技术方面将来没有统一的主导,也会造成资金的浪费。先从大的观念上,得到大家的思想同步。
第二个要做几个成功的试点,让大家知道你的实力。生产部高层推动的智能工厂生产线数据创新,车联网驾驶行为分析,电动车实时数据报警等挖掘,这些都是我的部门搞试点的好机会,我先把这三个做成功,做给大家看,我能不能有本事把大数据建起来。我当时选择的是生产线上机器设备的可预防性运维,就是分析这个生产线设备发生故障的概率,另外研究车联网当中的驾驶行为,研究消费者经常去哪,他平时跑医院还是跑学校还是跑企业?跑医院是不是家里有老人,跑学校是不是家里有孩子,小学还是初中还是去哪个4S店,去哪个运动中心去运动,这些亮点都出来了,你把这块慢慢铺垫好,做出名了,你再跟品牌去谈,你看结果,给你把这个事儿给办成了,咱们这个事儿还可以继续做下去。怎么做?大家一起做。不是说我把大数据中心在集团建立起来了,数据在我这儿分析了,我们这个集团就得了主要的功劳,不,大家一起做。
我当时建立了企业各个相关部门的高层领导战略委员会,邀请我们的研发部门、质保部、售后部、财务部等,大家在高层方面建立这样的汇报会议,两三个月开一次会,我及其各个部门的数据负责人一起汇报项目的进度、成本、有价值的数据用例、开发优先级、共有服务还是私有服务,以及目前的风险等。让大家在战略上,在我们投资的方向上,在我们可能出结果上面都能得到同步。在底层我的下属他们打交道的不是高层领导,是下面的工作人员,为了平衡这些工作人员之间的部门利益,以及他们在这个领域所做出的突破,我们从底层建立数据社区,大家一起来讨论数据用例,一起来定优先级,这个就从上到下把关系就搞清楚了,把大家的利益就绑到了一块,跟集团整体战略方向是一致的。这些都是非常、非常的重要。
第二,工业4.0:智能生产线机器设备的数据采集问题及解决。我们工厂有智能设备,数据可以采集。但是遇到了什么问题呢?工厂当时买设备时从来没有想到我们要用数据,他们跟机器厂商签订的都是维保合同,在现场会有大屏幕,有几台电脑,你可以在上面看哪些设备运行状态,现在出了什么问题?出了问题,他们签的合同的供应商马上要过来解决,这是要花钱的。我们做工业4.0试点,怎么办?你帮我提取数据,最后发现数据不全,遇到最大的问题是我想要的数据没那么多,还不是每秒采集一次,每次10分钟甚至更久采集一次。在这样的压力下,你还想做数据采集,怎么办?这个时候你不能自己顶压力,立马向领导汇报,得到合资厂高层领导的支持和重视,跟我们的合作伙伴也进行了数轮沟通,最后他们已经尽他们最大的努力把数据提给我们进行分析。
对于机器设备合作伙伴来说,它可能会有一种担心,我把数据给你,你自己分析,那我还怎么收设备维修保养费?你做分析,将来你能够预测这个故障,你还跟我签什么合同,对于供应商来说其实是一种挑战和威胁。所以这个事情,也要把利益关系梳理通、梳理好,大家要谈判,你做什么,我做什么。如果将来咱们把这个事情做大的时候,数据肯定要花钱,这个数据不是你帮我拿过来的呢,大家要有利益方面的讨论。
解决完上面问题之后,在预测模型的时候也出现了问题。我们用的是神经网络,最后发现预测的概率远远不如想象的高,比如要能够预测设备,在明天5点钟80%发生机器故障,维保人员就可以提前去排查。但是我得到的不是80%,而是35%,这种问题出现了,简直就是一大灾难,我做了这个模型最后我预测得不准。怎么办?对于我当时的大数据团队来说也是非常大的挑战。但是好在你是一个甲方,你自己的这个团队能力不够的时候,你可以有外援。我当时跟供应商签合同的时候,我不是签一家供应商,我签三家或五家供应商,为什么?因为大数据是有风险的。一个供应商提供的数据科学家,他用的模型,他采用的方法有可能不一定正确,不够准确。好,我邀请五家,我跟你都有合同,我跟你签的合同不是按照不同阶段付款的合同,我是按人天付钱,数据科学家签30天,数据分析师签20天,当发生问题时让大家一起开会讨论数据预测不准了,找原因,解决问题。这个会跟工厂人员一起讨论找原因,最后决定改变预测的方法,同时要把我们的数据重新进行优化,最后终于得到了想要的结果。
当时你做这个方案的时候,还不能只做预测还得干点别的,万一这条真的过不了,这个钱不能白花。所以我们做了一些报表,还做了设备相关度的分析,如果一个设备发生故障,可能也会导致另外一个设备发生故障。所以当你做这样的大数据项目的时候,你作为大数据的负责人,你不能只抓这一条,你还要遍地开花,每个方面都要有结果,综合展示才能是完整的结果,而且还可以在某种程度上规避风险。
燃油车车联网的数据采集问题及其解决,德国总部在设计车联网后台的时候并没有想到将来会分析它的数据,因为目标是提供车联网的服务,远程解锁车门等。我要做呼叫中心,我并没有想到我将来会研究消费者经常去超市还是去商场,这个是当时没有想到的。所以当你做大数据的时候你会发现我这个后台系统当中有些数据我根本不知道有什么,它分布到哪些表里,这些数据和数据之间是什么关系?完全不知道。但是好在我负责这项后台的谈判,而且在当时谈判的过程中,我敏锐地察觉到我们的伙伴对这个项目非常感兴趣,所以当时把这个数据结构搞得非常的清楚,整个集团只有我的IT团队搞清楚了。所以我才有这么大的支持力度,大家来支持我去干这样的事情。因为这一个库里可能有成千上万张表,表和表之间的关系一定最清楚的是系统架构师,当你知道这么一个事儿的时候,你作为一个甲方第一件事儿要做的事情找到他研究明白表,有哪些数据,数据之间的关系,哪些数据能用?GPS数据有没有,车辆报警信息、故障代码信息有没有?最后我们把它做出来了,做得非常成功,得到了支持。有的时候人要有预见性,要善于抓住机会,因为机会决定着你这个事儿能不能做下来。
电动车不同品牌的实时监控信息。这个大数据最后我们能做出名,取决于电动车。为什么?国家对电动车有一项法律规定,必须把关键数据提交国家,包括报警的、电池的状态、健康度、GPS等等,每个车厂都要把这些数据以每15秒到30秒的频率上交国家,你就要提取这样的数据。好了,机会来了。这个可比智能工厂、比燃油车车联网系统要更好,更实时。
当时我遇到了这样的案例,这个最后也是得到了业务部门的支持。是我们的质保部门,他们接到了一个客户的投诉,这个投诉是什么?就是一个电动车卖了3个月之后,一个客户说刹车太硬,踩不动。这可难坏了质保部门,从技术、从售后的角度到处找原因,找不到。最后找到我们的CIO,说“IT,你们帮我们看看吧,你们有后台的数据,看看到底是怎么回事儿,试试能不能从数据方面发现原因”?真就找着了,找到的是什么?就是这个车主每次踩刹车的时候都要踩一下“油门”的踏板,它这个刹车和“油门”同时踩,如果没有数据分析,任何人是发现不到的。让我们发现了这个核心的问题之后,跟我们的车主去确认,真就是这样的问题,最后还发现不是一个消费者,真的有其他车主也有这种驾驶习惯,这对整个质保部门是颠覆式的影响,因为不仅挽回了品牌形象,还节约了大量修车成本,而这个是通过电动车实时大数据分析出来的,是实实在在的创新。数据可以创造新的价值,可以发现不了我们之前发现不到的原因。一下就把我们做出名了,接下来研发的人也来找我,售后的人包括销售的人也来找我们,为什么?因为这个案例以前没见过。在我们传统的车厂是看不到数据能创造这么大的价值,接下来又有一个例子发生了。
也是一个消费者驾驶的车去山区游玩,发现充不上电,怎么充也充不上电,就开始投诉了。也是我们用大数据分析,帮他找到了原因。最后的原因是这个充电桩的绝缘电阻出了问题,这不是我们品牌的问题,这是充电桩的问题。这样就保护了这个品牌的形象,也为我们节约了售后的成本。所以你通过这样一个一个实例基本上就让公司各个高层看到了数据价值。
企业数据湖建立,不同数据源、数据类型的整合,上云与不上云。这个很遗憾,没做成。为什么?最主要的问题是太多的数据不在我们这里了,因为合资厂他们ERP的数据,包括他们重要的财务数据是不在集团这一块的。我们就放手,由他们自己来做。但是对于集团总部这儿,我们可以做。我们把各个职能部门的信息化系统整合起来,做了企业数据湖大数据平台。这个时候你就要考虑了,是不是所有的数据都能上云?答案当然是no,像财务、生产这些重要的数据是不能上云的,对于刚才我说的车联网、电动车,这批肯定要在云上进行处理。企业建大数据中心的时候就要考虑到公有云、私有云、还是混合云的问题,这个很多都是技术问题,我不说了,大家肯定都会遇到这个问题。
接下来是数据信息安。我曾经在的公司对于数据安全非常重视,它有不同的分级,有不同的等级,我相信做信息安全的都比较知道。重要的是什么?它在我这个阶段就介入了,它不是在我开发的过程中介入,是在你立项的这一刻它就已经介入了,对你的信息进行分级整合。比如像GPS这种核心的信息,它就会审核消费者有没有签订合同?车厂有没有同意?你要做哪些分析?它会有一张完全的信息安全的表让你来签,这样就会让我们在后边相对来说比较顺利。
接下来我要介绍关于存储和监控,做大数据的人都知道存储太贵了,数据每15-30秒采集,一年卖那么多辆车得多少钱?向领导汇报的时候怎么汇报?我们以前在企业机房的时候,之前它属于资产折旧,但是现在大数据中心不是资产了,它是费用,是成本,每个月要按流量计费,那就到我的团队这里来了,我要汇报大数据的成本。比如之前一个月15万,再过三个月花25万,领导就急了,花什么了,得到什么利润花了这么多钱,需要解释。这个时候你就要去看一下大数据的云平台怎么用的,为什么有的时候它会出现那么贵?因为我们的用户在提需求时,它不关心成本,它只关心我现在点这个按钮3秒内立马响应,每个用户都这么提,有的时候如果一个IT人员没有经验的时候真就同意了,同意之后造成成本蹭蹭往上长,为了达到3秒、2秒一点就出来,它必须得放到热存里,这个存储成本非常高。
当我们得到这个原因之后就要跟业务部门去谈,真的是每秒钟都点吗?还是上班喝个咖啡之后慢慢地点,一天点的频率有几次?有必要做到3秒钟、2秒钟就出结果吗?你还得跟他说不是我不答应你,是公司要摊这部分钱。道理讲通了,业务部门立马就知道要求太高了,不知道越快意味着越贵,这时企业IT部门和业务部门达成共识之后,大家就来想优化一下成本。我知道今天有云的领导在这,但是作为乙方其实你要适当的去替甲方想一想,大数据这个事情跟别的项目不一样,有可能所见不所得,对于我们内部人进行汇报的时候,真的是很难的。也请云厂商的这些人帮甲方站在我们的角度去想一想,能帮大家能优化一下就优化一下,冷存和热存的成本真的是很高的。
因为我们这个云平台是供很多的品牌来使用的,包括合资厂,大家要平摊这个费用。平摊费用的时候,我们就要借助云厂商它的一些监控工具,你这个用了多少流量,它用了多少流量,每个月给大家报数。为什么单提这个?因为作为项目组以前不管这块,我只管项目,但是现在我管云了,它已经到了我这个部门了,我必须得肩负起这个责任,为公司省钱,而且得达到业务部门的满意度,所以这一点是非常、非常重要的。
接下来是数据建模,关于模型预测不准的事儿,刚才已经说过了。实时数据不够,也说过了。
接下来重要的是如何给企业高管做大数据模型的汇报?我可以不夸张地说,这张片子我改了7遍,为什么?作为生产部门的EVP,它根本不懂IT,你弄了表,怎么给它讲?他都听乱了,但是你又不能介绍得太宏观,因为你也得要考虑到这对他来说是新的技术,他可能也要给他的领导去解释,这是集团创新的一部分,高层都很关注。他想去搞清楚这个模型到底是怎么回事儿,神经网络怎么解释清楚了。在设计PPT的时候一定要想,我既可以让领导看明白,我又得把技术给它讲清楚,你还得在谢谢之后做附加文档,万一他要知道更多技术细节呢?你不能只做PPT,既用他能够听懂的语言去讲清楚,又让他真正明白更多的技术内容。我说的是什么问题?有的时候为了讲清楚一个技术模型,要想尽各种办法,目的就是让老板知道这个图到底是什么意思,复杂的IT系统,不能上去就展示IT系统,他需要看到价值。这个价值怎么体现,模型如此之复杂,怎么用最简单的语言把它讲清楚,用小孩子听得懂的语言讲清楚就行了。
最后一条各个业务部门都招聘大数据科学家,IT部门怎么控制?我是在集团做的大数据的创新,调动了我们不同的品牌、不同的业务部门大家一起来参与完成了这个事儿,大家一起汇报,一起来找use cases,最后你会发现每个业务部门都看到了好处,开始设置一定岗位,招聘大数据科学家,最后都跑你这儿来了,给我点数据我也来分析、分析。可是不行,我们的生产系统不允许任何非IT人进行介入,但是你又不能拒绝它,他把人都请了,能不让他用数据吗?这个难住了,最后我们想到了一个办法,在数据授权方面做了控制。业务部门大数据科学家,我给它开辟一片区域,这个区域就是我当时在收集存储数据的时候专门给它留的一部分比如3到5个月的数据,得到他们部门大领导的授权,他可以用它做模型,因为模型必须用生产数据,否则如何预测。所以给每个品牌,每个业务部门他们分别设置了数据研究中心,这个业务部门的科学家他们就在这可以玩数据了。
对于除了数据科学家以外,业务部门有懂得BI的人,我就设置从左侧拖模块,看到车联网的数据,在里面拖拽在里面做应用案例,行了之后再找IT部门进行研发。我之所以介绍这一条,是想跟大家说技术根本不是个事儿,事儿是人。当各个业务部门不跟你沟通的情况下,都设置了大数据科学家的时候,你得摆平这件事儿,你不能让他们为难,你还得帮着他们,你自己又得知道我们是有信息安全限制的。所以你就得找到折中办法,把这个事儿解决了。
下面是数据展示和数据创新,这个问题我刚才也大致介绍了。我建了数据社区,每一个月的时候甚至比如说集中度比较高的时候每两周大家坐在一起,来自各个部门的人,因为这些人都已经参加过好几轮数据会了,他们对数据非常熟悉。我当时给每个部门都发了数据列表,大家一起来讨论,我们能做出什么有价值的应用?而且这些讨论,每个人都坐在一起进行交流,所以不会有重叠。比如今天你想出三个,明天他想出两个,两周之后定优先级,哪个作为公共模块?哪个是你部门独有的?这个机制非常好,所以就协调了各个部门之间互相竞争或者是大家都想先做的这样的矛盾。
接下来是如何让大数据团队成为公司最闪亮的部门?刚才已经做过介绍了。本来你在集团是一个没有数据的部门,但是最后所有的人都支持你,为什么会出现这个事情?这是我最开始讲的,因为我做车联网的,我做ERP的,我比别人更了解数据,我知道如何帮助大家一起成功。我经常跟我的下属说,帮助业务部门成功就是帮助我们自己成功。
我们必须得帮助我们的业务部门,因为数据创新,人家给了你巨大的支持。你一定要让他从创新当中看到成功的可能,让他从这个过程中得到自身的成长。所以在这个过程中,当他遇到一些汇报的问题或者当他遇到use cases的问题,想办法去帮助他,直到他把这一块在他们部门做成了,让他的老板及其老板的老板看到了数据的价值,我们集团的大数据创新就实现了。
怎么搞数据创新?我最开始做大数据的时候,我们的业务部门问我一句话,你有什么数据?我当时回了一句,你想要干什么?你要干什么我就给你提供什么数据。他说我不看到数据,我怎么知道我能干什么?这就是矛盾。你最开始做大数据的时候,你一定要尽量地提供非常全面的,至少在这一块的数据列表,让每个人都看到,原来这些数据是我可以利用的,这就是数据资产了。
得到了这个表之后,大家要从工作当中,从你实际的业务当中去找use cases,比如质保部门遇到的就是实际发生解决不了最后想到数据这一块。结合穆总做的数据资产,举一个例子,在车联网的领域可以通过用户驾驶行为与保险进行合作,这一块等同于出售。当时为什么没有做成?当时国家有管控,只在个别城市进行试点,但是我们的车在那几个省市卖得没有那么多,所以数据采集有限。这个就是完全的数据创新,再比如二手车,你卖一个二手车你只能让第三方的评估机构给你评估,但是我有了车辆的数据,我就知道他的驾驶行为,我对三年之后这个车它的情况,我就会非常了解,我就可以跟4S店进行合作,从真正用户使用数据的情况下来评估车的价值,这真是非常有价值的一件事情。
回到数据治理,各位都是做大数据的,所以大家也都比较清楚,我在这个过程中要进行哪些的控制?对于一个公司如果它的流程、制度、标准或者是法律,这个方面都管的比较严的话,你的数据治理不存在太多的问题。因为每个过程都会有审批流程,都会有人看着你,一起帮你把这个事儿做好。这个过程中,除了技术以外,可能就会有很多非常重要的非技术的因素,包括刚才我说的三步法:数据安全、合规、合同、供应商、质量等等,这些事情都要考虑到。
接下来的信息安全,我给大家讲一下在我过往的项目当中我在哪个地方受到了安全信息挑战,设置关卡来卡项目组。首先做试点时候就会有三条法律来卡你,因为你还要用生产数据,你得跟你的合作伙伴签NDA。接下来立项时除了数据安全立项外还有这个方面的方案,项目立项了,大家一起开会讨论项目怎么干的时候,定计划、定安排时,这个时候又让你填一堆的表,包括网络安全的、数据安全的、个人信息保护的,包括系统登录的,加密、传输,完全在这个地方做了全方位的控制。
将来在你设计的时候会有专门的部门来审核你这部分的信息安全方案实施得如何,有没有考虑到设计当中。开发过程中也会有信息安全相关开发,测试的时候最著名的就是防攻击设计,第一花钱第二很麻烦,会对你的成本和进度都会造成影响。但是当你做了一个项目以后,你就知道每个项目都要跑这一轮,所以最开始时你实际都准备好了。最后在交接运维时要有相关的文档,而且在运维的过程中跟供应商签的NDA合同,因为他们要运维生产数据等等这个都非常重要。
我今天的分享就这么多,今天主要是央国企的领导们都从大的方向高屋建瓴,我给大家讲一点工作当中的具体小问题,大家如果以后有问题还可以随时找我沟通,谢谢大家!