以下是现场速记。
UCloud优刻得高级副总裁 陈晓建
陈晓建:大家下午好!我今天想用接下来的20分钟时间,跟大家来谈一谈有关数据流通的事,为什么这个话题对行业来说是有价值的,我希望通过这20分钟能讲清楚。
我先介绍一下我们公司,我们公司是一个做云服务的公司,更准确地讲,我们是做一个IT的基础架构的公司。IT的基础架构最基本的就是云服务,包括了网络、计算、存储,同时我们也做一些IoT、AI、大数据服务,总体来讲,我们希望为每个行业赋能,为他们提供底层的IT的能力,这是我们做的事。这个层面来讲,我们做的事情还是挺多的,可以想象一下,既要提供网络,又要提供存储,还要做IoT计算,这么多事情里面,我想数据流通是非常特殊的事,为什么这么说呢?大家可以看到,今天跟汽车行业相关,我把跟行业相关现在目前的现状归纳了四条。大家可以看到,2021年应该是整个数据治理的元年,为什么这么说呢?国家相继出台了好多政策,6月1号《网络安全法》开始实施,今年12月1号全国人大也会通过《个人信息保护法》,在汽车行业还有一个汽车行业相关的法律,《汽车数据安全管理条例》,10月1号也已经实施了。在这个行业产生了这么多数据,这些法律的制定为数据的应用构建了一个很好的框架。
有这些框架是不够的,我们还需要这些数据应该怎么去用?最显著的一个问题,我想就是数据的分类分级,数据本身,产生了这么多数据之后,哪些是重要的,哪些是不重要的,需要我们做很多工作。新能源汽车到今天为止,应该说有两个关键词,一个是新能源,包括像电力,混动,或者是氢能源。第二个词也很重要,智能网联,车本身已经不是传统的代步工具,而是成为具备高度智能的产品,现在目前的新能源汽车很多都会有三千个,或者是五千个传感器,每天在路上可以产生2TB-20TB的数据,这么大量的数据,数据处理方面需要非常复杂的IT系统,从端到云,再到各个系统的互联,这里面有很多很多问题需要解决。
我简单的用IT的术语解释一下数据本身整个生命周期,车一方面是交通工具,另外一方面,也是一个IT产品,从IT产品来讲,包括数据的采集、存储、传输、使用和流通。如果从技术角度来讲,前面四个环节目前都有一些成熟的技术可以用,唯独最后一个环节,数据流通,在现在目前来说还是处于非常早期的阶段,这也是我希望今天能够跟大家一起探讨的问题。
为什么这么说呢?数据本身和实体商品是非常不一样的,如果大家看一个实体商品,咱们面前一台电视机,如果我把这台电视机卖给你,这台电视机我就不拥有了,变成你拥有这台电视机。但是数据有两个特点,决定是不能这样流通的。第一,数据的复制是全息化的,复制的过程当中不会损失一点信息,是可以100%复制过去的。第二,数据复制是极低成本的操作,由于这两个特点,如果我把数据,作为一个数据卖给一个人,他可以转手把这个数据原封不动卖给另外一个人,这样导致的直接后果,就是从我自己来讲,如果我想把这个数据变现,最多只能卖给一个人或者是几个人,因为数据本身流传出去就不受控制了。数据流通的方式,是不能按照传统实体产品的流通方式来做的。
有一个比喻大家可能都听说过,工业时代的石油是工业时代的血液,数据时代,在信息时代,什么才是血液呢?答案很简单,就是数据,怎样让数据能流通起来,这就是我们要解决的问题。任何一个企业来说,他的业务发展一定需要很多的数据,有很多是自身的数据,也需要其他各个合作伙伴的数据,怎样能做到数据的跨企业,跨组织之间的流通,就是我们要解决的问题。
下面我举一下目前数据流通常见的技术,大家看到这些词第一次看,不一定非常理解,只要看在中间这三个蓝色的方框,沙箱、多方安全计算和同态加密,代表了目前所使用的技术的主流。要去讲这个细节,会需要很多的时间,肯定不是这20分钟能够覆盖的。接下来我想用院士的话给大家做一些介绍。这是四位目前在一线的院士,他们也在整个数据的流通和隐私计算方面非常有研究,分别是在多方安全计算、沙箱和联邦学习这方面做过非常深刻的研究。
第一位是姚期智院士,华裔里面第一个拿图灵奖的院士,行业里面非常有名气的,他在2000年提出一个很著名的问题,百万富翁问题,其实就是隐私计算最简化的例子,其实非常简单,比如说假设有两个百万富翁,他们都很有钱,也知道对方很有钱,他们很想知道自己是不是比对方更有钱,这个例子虽然很简单,但是几乎是无解的,为什么?因为谁也不会愿意把自己的财产具体数量告诉对方,你是很难做直接的比较,原因很简单?因为我不愿意把我的原始数据交出来。这个例子可以看到隐私计算,或者是多方安全计算要解决的问题是什么?要解决的问题就是在数据没有发生实际泄露或者是分享的情况下,仍然能够进行协同的合作。
我再举一个例子,跟百万富翁问题很类似,比如说我们有两个汽车的主机厂,他们都生产某一款商用车,他们每年的销量都是非常可观的,作为政府的行业机构,可能年底的时候,他要统计这款车,到底生产了多少辆。当然这是一个假想的例子,假设对他们来说,这都是他们的商业机密,不愿意把这个车的生产的实际数字报给政府,但是他们政府也想知道,最后他们两个厂商加起来能有多少辆车。这个问题其实是有解的,假设A厂商他的数量今年产了A辆车,B厂商今年产了B辆车,怎样把A+B的操作做好,同时又能做到A和B不把自己原始的数字告诉政府。解决方式很简单,就是在于我把A拆成两个数字,A1和A2,B拆成B1和B2,把A1和B1两个数字交给某一个中间商,A2和B2两个数字交给另外一个中间商,他们把这个数字相加之后,再把中间的局部结果交给政府,政府做最后一个操作,把A1、A2、B1、B2全加起来就可以了。整个过程当中,A的数值和B的数值都没有泄露,最终完成了A+B的操作。通过这个例子大家可以看到,多方安全计算是干嘛的,他在保证原始数据不泄露的情况下,能够让多方数据来协同。
第二位是王怀民院士,他在业界提出了沙箱的概念,通过云的操作,让用户在沙箱里面接触原始数据,但是不把数据带走,这是另外一个创新的概念。最后是联邦学习,联邦学习通常是用于在AI的联合建模里面的技术。
我今天想介绍通过这三个技术做的产品,这是我们公司所实现的产品,叫安全屋的安全流动平台。我们在这个产品里面已经实现了基于安全多方计算,沙箱,联邦学习,这三个能力所具备的产品。逻辑的角度来讲,这个产品用来干嘛?其实可以分为四个角色,第一个角色当然是右下角的数据源,套用前面开课吧刘总举的例子,宁德时代需要开发一个电池的算法,不希望把这个原始数据拷贝给客户或者是合作伙伴,但是他希望能够通过这个数据开发一个算法,怎么办呢?可以在他的生产环境里面架设一个开放平台,数据放在开放平台里面,在这个里面我们会有数据的需求方和增值服务方,他们在这个里面可以提供AI的能力,在这个里面,整个生产的安全环境里面使用这些数据,但是他们不把这些数据带走。这样的话,最后的结果就是数据的所有权和使用权的分离。数据的所方,数据源把这个数据拿出来做分享,做开放,但是他的开放的结果只是把数据的使用权开放给了客户,原始数据仍然不会造成泄露,通过这个可以满足各方的需求。最后还有一个监管方,通过监管方对于整个数据的交易过程进行监管,保证数据是安全可靠使用的。
这是一个产品高度简化的架构图,可以看到在这个里面,分为两个方框,第一个是数据提供方,通常最左边的方块使用的是生产环境的数据,在生产环境里面,通过对数据进行各种处理之后,打标签,去重,脱敏等操作之后,把这个数据注入第二个方框里面,这个方框就是数据的安全开放的环境。大家可以理解成为,这个环境本身就是云的环境,因为云环境里面用户可以按照他自己的意愿,可以来自由地使用云环境,等于你可以在云的环境里面租几台服务器,把你的程序放进去,可以建模,也可以搭游戏的平台,可以做各种事情。在这个里面,他仍然是跟云的使用一样的,所不同的是,这是一个安全加固的沙箱,这个环境里面虽然可以用,但是他是不能把这个数据从沙箱里面拷贝出去的。通过这个手段,我们就可以保证数据源本身对于数据安全的担心。
最后通过计算之后,无论是AI的算法,可能最后是要把AI的算法结果带走,其实他也不希望把这个原始数据带走,但是希望带走的是这个算法本身,有可能是对于某一些其他的操作,他可以把这个结果带走。通过这样的操作,既可以保证数据源的安全,也可以保证应用方对于数据的使用。
这个其实是我们做的另外一个,为了能够把这个产品化,需要去解决数据源对于数据使用的担心。第一个,我刚刚提到的是数据本身,除了环境不能被使用方所带走。第二个担心同时存在的是,用户是怎么去使用我这个数据的,这个对于数据源来说,通常也是非常担心的问题。我们做到三点,可控、可靠、可追溯,所做的工作就是右边这个图的中间这条线,是我们通过区块链的手段,在整个安全屋操作里面,每个环节的步骤都记录在链上。区块链本身最大的特点,他是不可篡改的,通过这样的操作,可以让数据源很清晰地知道整个数据的使用方是如何使用这些数据的,也做到了可控的能力,这个对于数据源来说是非常重要的。
数据流通的能力如果放在汽车的环节里面,因为汽车每天会产生非常非常多的数据,当然我们目前很多主机厂已经把汽车的数据至少做到第一步,数据采集完之后,能够传输到后台,能够存储起来。在这方面,一方面给主机厂本身所用,另外一方面,可以给整个行业产生很高的价值。举一个简单的例子,自动驾驶的算法优化,如果把这些数据经过脱敏之后提供给自动驾驶的算法厂商,通过数据可以优化调试他的算法,这个一定会带来好的结果。主机厂的下游来看,还会有车险,车的维修,充电桩的各种厂商,举一个例子,通过车险如果他能够了解车主本身的驾驶行为,也可以更好地判断他的保险应该多少钱,理赔的时候是不是有虚假理赔的情况发生。这一页我们举的例子只是我们能想到的,车产生的这些数据非常局部的场景,如果真的能让数据安全流通起来,相信这个数据可以创造更大的价值。
下面我介绍两个现在目前正在给主机厂做的实践,第一个跟开课吧嘉宾所做的分享是非常类似的,也是电池管理的优化。大家知道,在新能源车方面,电池其实是现在目前整个所有部件里面最重要的一个部件,在这个里面,也集成了非常多的传感器,产生了非常大的数据。这些数据本身对于主机厂来说,可能自己也没有一个专业能力完全去处理这些数据,但是更好的方式,能够把他跟电池的供应商一起合作,把这些数据用起来。
我们所做的实践,分为生产环境和流通环境,生产环境里面,这些数据从车本身上传到后台之后,经过一些去重处理之后,放在流通环境里面,整个环节是一个单向的环节,流通环节是不会影响到生产环节里面的,每天会把这个数据定期从生产环节复制到流通环节,流通环节里面搭建了基于计算沙箱和大数据的平台,用户可以跑在这个平台里面,可以把他自己的算法,把他自己的数据放在这个沙箱里面,结合主机厂所提供的这些电池的数据,一起进行他自己的电池算法的优化,或者说做一些运营,运维的工作。他自己得到结果之后,再经过数据源的审核通过之后,可以把这个数据做一个输出,所以整个过程当中都是不会涉及到原始数据本身泄露的。
第二个工作,我们目前跟另外一个厂商做的UBI的工作,其实是基于个人来做的定制化的保险服务,这个服务本身并不是新名词,在海外,比如说在美国,UBI早就已经超过了10%的份额,这个服务所依赖的,很明显,需要大量的业务数据,包括个人数据,包括行车数据等等。在这方面,我们同样通过安全屋这个平台,把个人的这些行车数据,通过脱敏之后,放在车险的平台里面,这个环境仍然是在车的自身的环境里面,保险公司可以把他自己的这些算法,在整个开放的平台里面去跑,能够获得有关于车主的信息。通过这个,能够为他车的投保和理赔服务,提供很好的参考。
在这个里面我们还做了一件事情,整个平台当中,不光是有车厂本身的数据,另外也整合了包括像其他第三方的数据,因为对于车企和保险公司来说,需要的不光是行车的数据,也需要其他的跟个人相关的数据。所有这些数据的开放和分享,都是要基于个人数据的保护的前提下来做的,我们也做了很多,怎样取得个人用户的授权,并且把这些授权记录在区块链里面,作为日志,来保证数据本身的授权是合规的,这样来保证数据的安全使用。这些就是我们现在做的工作。
我再介绍一下我们公司,我们公司是一家科创板上市的云企业,也是在这个行业里面做了七八年的时间,我们的客户最开始的时候是互联网客户,现在有非常多的传统企业,政府,都是我们的客户,包括我们的产品安全屋,最开始服务的行业是政府行业,因为大家可以看到,像网络安全法,在今年的网络安全法,其实已经很明确地提到促进政务数据的开放,政务数据本身的开放和流通,是我们最开始在2017年的时候,跟各级政府都已经有了很多的合作,也是诞生了一些案例。
我们也在全球有非常多的服务中心,包括在国内,包括在东南亚,还包括像北美、南美、欧洲,甚至在非洲都有我们自己的数据中心。我们主要的客户,其实也是中国进行海外业务拓展的公司。
这是我们的产品,时间所限,我就不一一展开了,我们是基于云服务、大数据、AI、IoT做的产品,这些是通用的能力,是根据不同的行业做一些行业定制化解决方案。
最后一页是我们所设想的,基于汽车的行业,包括目前跟车厂的合作实践,我们看到蓝色的这些方块,是我们目前可以为这个行业赋能的。第一个,当然是底下云的能力,包括私有云的能力,另外一个是大数据的能力,这些是跟业务非常紧密耦合的,另外还有数据的存储,还有跟公有云之间的打通,最后是我前面介绍的安全屋,怎样帮助企业能够把整个产业链,从上游到下游,跟各个合作伙伴之间,把业务数据流通起来,为他的业务助力。这些是从我们目前看到的,和这个行业能发生合作的机会点,随着我们的认识逐渐提升,可以做的事情还会很多。
这就是我今天的分享,数据流通的行业其实是非常新的话题,相信未来还有很多的工作需要做,今天来的都是汽车行业的大拿,如果有兴趣的话,可以借助这个微信群一起交流,谢谢大家!