当前位置:CIO新闻中心 → 正文

《数联网》——大数据如何互联

责任编辑:cres |来源:企业网D1Net  2018-05-25 10:58:47 原创文章 企业网D1Net

2018 CIOC全国CIO大会5月24日在贵州盛大举办,来自全国的近400位CIO共聚一堂,最接地气的观点、最实用的实战经验、最前沿的技术、最新的产品在此汇聚,碰撞出属于CIO的精彩火花。
 
以下为现场速记。
 
中国移动集团 大数据总架构师 段云峰
 
段云峰:很高兴有机会跟大家做交流,首先感谢范总提供这么一个机会,让业界的同仁能聚在一起,能够就很多内容充分的展开,这也是很难得的机会。今天讲的内容可能比较烧脑,讲完很多内容之后,今天我跟大家讲的题目可能是站在未来的20年,很多内容也是从我们的实践过程中发现的一些问题提出的,我们叫数联网,这是第一个角度。
 
补充一下自我介绍,本人应该算是国内最早从事计算机的一拨人,我是从1984年从苹果2开始接触计算机的,在座有比我早的举手,真有,very good,真是头一回碰到。过去30年里一直没有离开过计算机,从2000年前后开始从事数字仓库,当年叫数字仓库,后来做大数据。整个一路走来,这个数据仓库现在在电信领域也是算是最大的,是500个PD。累计前后17年时间投了140多亿,所以在国内应该说是买到了最难得的教训,应该说大家知道的数据仓库领域和大数据领域的各种工具,我们都曾经买过、都曾经用过,所以大家有什么疑问都可以找我。这里有很多内容,所以今天也跟大家做一个分享。
 
这是我出过的几本书,今天跟大家分享数联网的内容是在这本书,2015年就出了。当时我在这本书里面提出了数联网的雏形或者概念,今天跟大家分享数联网的内容,因为影响会很深远。这本书是《大数据的互联网思维》,实际上是讲方法论的,今天做大数据的很多,到底这个系统怎么建、怎么服务,在学术圈没有方法论,所以把互联网和大数据的思维结合起来应该是第一个。
 
这是各种规范和文档,我们做了大量的资料整理设计工作,所以应该说是花了大量的精力。这是插了几页,介绍一下中国移动的一些情况,之后再进入整体。这是最早的情况,2010年的时候是从数字仓库开始,大家看最早是数字仓库,怎么建集市,在上面提供报表。2015年的时候我们定了一个大数据的架构,因为中国移动的特点是传统数据仓库也买了很多,各种仓库都买了。后来我们想用MPP等这样的一些数据库,来替代传统的数据仓库,因为传统的数据仓库是在小型机上,成本比较高。这个系统相对来说比较复杂,而且我们花了大量时间做数据质量的工作。
 
昨天邓总也说,他们在中石油花了2个亿做数字质量的梳理,我花了2年的时间去整理数据质量,所以这个过程是所有人都对比不过去的。这是我们大致的一个历程,这是大概从2010年前后开始标的,每一年我们都有一些工程项目,做的事情都很明确,我们一步一步积累到现在大概有17年的内容,这个在国内应该也是比较少见的。这是我们系统的情况,大家可以看一下,在运营商里系统比较复杂,今天提的很多内容也是我们的现实场景提出来的,这些给大家看到的只是大家感受到的,我们网络管理、业务系统等等,实际上累计加起来IT系统大概有2000多个,每个IT系统都有很多数据,这种庞杂的程度可能国内没有人比我们更复杂的。这么大的量你怎么去处理,这可能都是我们面临的一些问题。
 
这是一个简单的量,大家对比一下就知道了,在运营商里面一天光地域的,我们说的地域是计费领域,收入数据是96亿条,这只是一个省而已,大概是7个TB数据量。这些内容我们可以感受到,运营商的数据量是很庞大的,所以这个量可能也会对我们的各种技术平台的处理方方面面带来很多挑战。实际上我们很多问题像IBM在国际上都没有碰到过,他没有碰到过这么大的量,一系列的问题都需要我们探索怎么解决。
 
这是我们在X86的15000台,还有小型机等等,这个量比较大,就不给大家展开了。这是我们提供的一些相关的应用,这些应用里面大家可以看100多个分析模型,这100多个分析模型是全国通用的,一个省里面大概上千个个性化的应用。所以应该说大家能看到的应用我们都做,包括产品分析、营销分析、内部管理分析、网络怎么结合等等。在人工智能方面,我们也做了一两年的探索,今年初范总的内容里面,我给大家讲的是人工智能,所以这次给大家讲的时候稍微结合一下大数据,所以讲数联网。这些内容都是具体实际做过的,做的过程中反正也有很多的经验和教训。
 
这是我们现在对外提供的大概的几个大数据层面的,这是我们叫DaaS层,一般云计算是IaaS层,上面是PaaS和SaaS。DaaS主要是提供数据,现在中国移动的总数已经很庞大了。我们这些数据的内容怎么对外提供,现在各方都对我们有数据的需求,但是有时候央企对数据比较敏感,不太对外提供,这是我们体制的制约。
 
刚才主要是插播了一下中国移动的情况,给大家做一下介绍,下面进入主题数联网阶段。数联网范围很大,以BAT为主,我们产生了很多平民英雄,创造了互联网的奇迹。未来数联网产生的远不止目前这样的情况。在讲之前我做一个小调研,各位手里谁有10个TB以上数据量的举一下手,不多。第二个,用过Hadoop的举手,这么多。第三个,你读过Python或者写过Python的举手。我做一下调研是跟大家分享一下,看一下大家的情况,我主要的主题思想是别再错过这波新机会了。
 
为什么会提数联网?核心变化是什么?通俗说话是从IT时代进入DT时代,我们这次的会议是CIO,实际上未来最大的影响可能是产生在DT上、是产生在数据上。我们形象的说法,IT面对更多的是流程,面向流程,通俗的说法叫流程僵化、固化再优化,这是我们一个传统的思路。但是在DT时代不是这种玩法,DT时代更多的是面向数据、面向分析,提供的是智慧的角色。而且最重要的一点,各位CIO们,未来你们将不再是配角,你们有可能把CEO干掉,你们来当CEO,知道吗?我希望这个有掌声。
 
为什么给大家说这个?我给大家举个例子,我们现在正在用人工智能去做数据分析,分析完了以后,我们可以发现人工智能比人做营销更靠谱,所以未来我们可能的场景是什么?首先替换到营销,理论上不需要人来营销,用AI营销,来决定给谁卖什么东西。因为人的经验大概是十几个维度,AI起码上百个维度,这个已经做到了,首先是替换掉人做营销。未来所有的管理、所有的内容都将基于数据、将基于人工智能,所以未来各位权利掌握在你们手上,你来决定公司怎么走、应该卖什么、怎么卖、怎么生产等等等等。所以你会成为未来企业的核心竞争力,而不是现在在IT时代我们只是一个配角。为什么说这个?因为是我的切身感受,我干了30年的IT,一直从配角终于到今天往舞台的正中央在走,这是我的切身感受,所以拿来跟大家分享。
 
在DT时代我们更多提到的是大数据,贵州的同志都知道大数据,但是大数据时代面临着第二个重要的问题,我们的数据是单点、割裂的大数据,我们现在提出的都是单点的割裂的数据。基于我们中国移动内部的需求,我们提出了数联网的概念,这是我们今天跟大家分享的内容,数联网为什么会冒出来、它的基础、技术架构、管理机构以及会带来的商业机会。
 
从个人的案例说起,举个例子,如果各位做过装修可能都有切身的感受,一会儿安装橱柜的人到你家量一下,一会儿卫生间铺地砖的,只要你家装修家里就要不断留人,干活的各种人会来你家测量数据,这是我们面临的真实情况。还有一种是企业之间怎么做数据交换,比如说中国移动的可能就涉及到和省里做交互,怎么交互、怎么提供接口。传统都是一对一的,现在能接的都一对一接口,这是我们目前的情况。但是将来如果在整个社会上全是用大数据的时候,我们会面临一个什么样的问题,我要跟所有人谈一对一的接口,比如说我和昨天春秋航空的邱总谈接口、我和红芯谈接口、我和各种想用中国移动数据的人谈接口,这个就很像当年单点PC机的过程,并不是解决一对一连接的问题,而是普遍连接的问题。这是互联网。
 
同样的站在大数据的角度,不同企业之间在交换数据的时候也面临同样的问题,还是像传统单机时代一对一的去连接、谈数据接口吗?还是提供一个统一的环境和接口,大家一起按照这个去进行交互呢?这就是我们数联网提出的主要的背景。中国移动在这个过程中也是面临这个问题,就是我怎么去对外提供一个大家能接受的数据的情况等等内容,这是我们要面临的一些问题。对大家而言,
 
大家可能会问,这个数联网可能离我很远,但是大家可以以终为始,大家在做大数据系统的时候就可以考虑它的标准化等等方面的问题,这个对我们国家将意义深远。
 
这是今天讲的一些内容,第一章是概述,介绍一下什么是数联网。这是数联网的演进过程,核心问题是面向数据的连接,解决数据的直接互联问题。因为传统的模式里面,我们的互联网是站在信息流的角度,并不是站在数据的交流,所以它是面向连接的,这个角度是不一样的。我们站在大数据角度,这是我们看的一个点,互联网解决了计算机的连接问题,我们希望未来的数联网解决数据的连接问题,这样会带来一个什么样的场景,我后来会给大家讲。总结下来,过去的20年看的是互联网,未来的20年看的是数联网。所以今天跟大家分享一些可能会对在座各位都会有很深远影响的内容。
 
举个例子,什么叫数联网呢?比如说张三要买一辆汽车,正常的情况他看上ABC三辆车,他会查这些车的油耗数据、卖点、价格、售后数据等等,进行数据收集,决定是否购买。我们通俗的是一个网站一个网站的收集,包括客户的评价、产品的评价、市场的销量、广告的效果等等,这些维度的很多数据现在张三是拿不到的。未来在数联网的场景里面,张三能够直接调出A汽车的油耗的真实数据,举个例子所有在座诸位都看上A这款车,实际的油耗是多少,我拿过来做一个平均,我就能知道这款车的油耗是多少,比工信部公布的油耗数据靠谱多了,那个不太准,你们都是实际的用户,都是实际跑的,作为一个买家而言极其重要。因为我是理工科的博士后,我干什么东西一般都愿意用数据分析,我不看广告,广告对我没有什么吸引力,我更关注的是数据,这是我们理工男的特点。
 
拿到这些数据之后,对我判断买A车还是B车是重要的影响,但是目前我们拿不到这些数据。这是我们目前能看到的,包括我们现在的搜索也面临这个问题,比如说百度或者谷歌,现在面临的问题是我收集到的是信息而不是数据,都是一个一个网页,我要自己从这个网页里面摘、读,抽出A车的油耗数据。现在还有大量的非结构化数据,站在人工智能的角度来说,未来可能很多数据是非结构化数据。在做非结构化数据的时候,我们发现我们收集的数据很少。非结构化数据你怎么去收集它,怎么建立检索的机制等等一系列的问题,我们核心的问题是要流通的数据带来价值。我们都知道,商品商业交换,这个杯子放在我手里某种意义上并不值钱,只有我把这个杯子卖给你的时候才能变现、才能赚钱。
 
数联网的出发点就是打开彼此的数据库,比如说中国移动的数据库、春秋航空的数据库、在座各位的数据库,我们彼此打开数据,而且不需要你给我解释,我就直接能读懂你的数据,这是我站在数联网的角度来说的一个出发点。所以大家能理解这些事背后能带来的一些意义,战略性的意义。我一说大家就能理解,单点数据的价值维度是有限的,举个例子,中国移动只能看到中国移动的数据,我站在银行的角度能看到金融的数据,我站在淘宝的数据能看到网络购物的数据,这么多维度混合起来意义重大、这么多数据混合起来意义才重大。数联网我们强调的是节点之间的数据互联,怎么提供泛集群的处理能力。
 
这里大家可能会问一个问题,共享经济下我们的数据能不能共享?很多人是摇头的,因为现在最大的问题是数据隐私,后面我会单独谈。这里先给大家举个例子,这个小伙子把自己三个月的隐私数据7个GB在网上公开售卖,卖了1000美金,这是几年前的案例,说明背后有很大的商业价值在里面。可能很多人听不明白,但是我希望几年以后大家都能理解我今天说的事,这就意味着我可以创造新的商业模式,后面我会单独讲。
 
这是我们看到的数联网的一些关键的内容,一个是要解决数据互联的问题,还有架构层面、应用层面、设备管理层面,还有一个是隐私保护的问题,哪些数据能够共享,哪些数据不能共享等等。数联网最大的变化可能是从免费到盈利,这是站在客户角度来说可能会出现这个节点,互联网时代我们可以免费使用各种东西,在数联网时代你可以卖7你的各种数据,这个可能更有想象空间。这是我们比较的一个大致的架构、概念,数联网我们每个大数据的节点,比如说中国移动的节点、淘宝的节点、工商银行的节点都是一个数联网的节点。我们通过数联网能够进行彼此的数据交互,这个过程中我们要解决协议的问题、我们要解决计算的问题,这个计算的问题实际上也是我们站在移动的角度内部真实面对的问题。
 
举个例子,西藏服务器不够多,突然出现一个大的计算的需求,怎么办?我能不能把他大的计算需求放给广东来做,广东的设备足够多,把结果反馈回去就行了,当然这是现在正在做的一个方向。这是我们看到的一些大致的角度,右边这边是大致的层次关系。因为我的博士是在北京邮电大学毕业的,所以我们比较擅长做通讯,我们可以这样做。今天跟大家分享的很多内容都不成熟,都处于萌芽状态,数联网刚刚开始提出,而且现在在有些机构里面刚刚开始提这个概念。这个大家可以看到,数联网将来建立在互联网的基础之上,就能带来很多想象的空间。
 
这个我们感受到数联网的意义,第一带动新的产业机遇,有很多,为什么我刚才前面几张PPT说不能错过这波机会,这波机会远超过互联网,会有很多新的产业机会。第二是有很多新的商业模式,新的商业模式会重新产生,举个例子征信,我们传统的商业模式都是我把东西卖给你、你给我钱,都是这样的套路。淘宝解决的是什么?彼此不信任,我怕我把货给你你不给我钱,我担心的是我给你钱你不给我货,淘宝解决的第一层面的问题,未来在征信层面我们所有的人都将是透明的,明白我说的意思吗?实际上你干的所有事情都是透明的,未来在数联网时代理论上骗子没有存在的可能,现在我们的手机支付改变了我们几年前的一个行业,大家知道是什么行业吗?小偷基本没了,为什么?因为你不带现金了,你不带现金以后这帮小偷偷什么?偷你的手机麻烦,第一解锁不了、第二卖不了钱,几千年的小偷在今天很难生存,这是一个很大的变化
 
未来有了数联网、有了大数据以后,可能的结果会是什么?骗子也将会不再存在,因为你没法骗别人。马云开玩笑说,现在男孩和女孩见面决定处朋友的时候,交换一下蚂蚁信用分,看对方是否靠谱。富士康的郭台铭说要通过大数据找女婿,因为骗不了人家。这种征信会改变我们的社会,我们中国人几千年前学《论语、《孔孟》就是学道德的标准,以前我们是靠榜样的模式,现在有了大数据、数联网以后是倒逼你不得不做好人,否则你一辈子将背着这件事情。
 
我给大家举个例子,我有一个朋友在澳大利亚干了一件事,喝酒开车、酒后驾驶被警察抓到。因为证据确凿没办法,他当时特意玩了警察,这件事对我有多大影响,当时那个白人警察说没有什么影响。这个哥们只能认罪,最后的结果他因为这次酒驾有一次犯罪记录,在国外叫犯罪记录,所以不能移民澳大利亚,最后又回来了。这就是一个征信最简单的案例,这就可能会改变我们未来的商业模式,为什么?大家知道温州帮为什么炒房子彼此之间不用打借条,给你100万你到时候给我还钱就行了,为什么?建立在信用基础之上,实际上未来的商业也会这样做。比如我跟范总以前认识与否都可以,我们两个彼此都有自己的所有征信数据,我对范总很了解、范总也对我很了解,我们可以直接做生意,很多商业模式都将改变。
 
而且大数据会是一个倍增器,从我们现在正在做的事情看,人工智能的影响应该是很颠覆性的。大家都是做IT的,我做IT做了30年,很多新技术我开始是将信将疑,但是现在看速度越来越快,而且效果越来越好。虽然有炒作成分,但是这些新技术渐渐炒成真的,而且大家也看到它的效果和影响。所以在数联网时代,商业更加透明,商业模式将发生很多颠覆性的变化。我今天给大家讲的可能都是很烧脑的内容。这是第一个数联网的一些概念。
 
下面是数联网的一些新的涉及到的技术层面,要做哪些方面的研究。数联网方面我们看一个是促进数数相连,未来数据不是问题,为什么?物联网的连接按照目前的规划大概在2020年全世界500亿的连接数,中国100亿的连接数中国移动目前才算9亿用户,才算9亿连接数,就有500个PB的数据了。如果是500亿的连接数会是多大的量,未来数据不是问题,未来数据的打通是问题,这是我们必然面临的情况。所以大家可能现在还面临数据怎么收集整理的问题,将来这些都不会是主要的问题。我们从信息的连接到数据的连接,这可能是我们面临的一个主要的点。
 
这个参照了TCPIP等等协议,它是按层次划分的。右边是我们站在一个大数据节点的分层,分层完了之后可以在每一层构建自己的通信模块,来解决每一层的通信问题,最终的想象结果是比如说西藏要做一个计算,我在广东能够把自己的计算CPU甚至CPO资源帮西藏算出来,最终把结果反馈给西藏,可能产生这样的一个场景。未来各位也一样,你有数据计算不用自己计算,放到中国移动我帮你算。这是云计算的模式,但是云计算的特点是你首先要把数据挪到云中心,未来的数联网不用,很多颠覆性变化都会产生。但是有一点核心的基本数据标准,这是我们必须要做的,物理模型、逻辑模型、概念模型还是要做的,在大数据领域我们一样要解决数据的标准化问题。这个我们苦衷很深,大家开始做的时候都关心算法是不是好、是不是优秀,我的负责人告诉大家,17年过后机器学习算法不超过20种,大家用到的都是那些聚类分类的东西,17年过去我在机器学习方面没有见到什么新的算法。但是我们在机器学习面对的问题是数据质量对模型的影响,远超过算法对你的影响。这是我向大家分享的一些经验,所以我们的数据标准基础活永远无法避免。
 
数据传输的标准化,我们怎么做,包括一些协议。昨天红芯的陈总给大家讲了浏览器,在互联网我们可能会产生新的协议,很多东西都会产生。还有新的传输标准,还有新的应用层的解读数据,我们一定要想办法在数据上自己携带语义,这个数据到底说的是什么,这个车的参数到底是什么,我怎么知道这个车的参数是油耗,而且单位是升、是百公里油耗,这些语义信息一定要在传输过程中自己携带。在数联网不可能像现在一样,我一直和邱总谈这个数据什么意思、那个数据什么意思,这个太麻烦了,以后是数据自己携带语义。
 
这是数据交换的标准、数据接口的标准等等,所以大家能感受到里面的一些机会。举个例子SQL,我们原来在数据仓库领域、在机器学习领域写了很多机器学习的程序,这个大大的降低了我们我们在AI编程方面的难度。在我这个圈子里面有一个真实的案例,我的一个朋友的孩子2岁,2岁的孩子正常应该是学英语,但是他让他的孩子学编程,因为英语已经用处不大了。如果我不会英语,我到美国拿着翻译机,我这边说中文,这个东西翻译成英语,那边说英文这个东西翻译成中文,满足我们日常的生活需要是没问题的。我们2岁的孩子还需要学英语吗?未来真正决定他们的工作是程序思维,人工智能这些东西都将颠覆。人工智能未来会颠覆的金融领域80%都会被颠覆掉。
 
昨天陈总讲到帝国理工,帝国理工在英国是仅次于牛津、剑桥的学校,都是属于前三的,这种学金融的都找不到工作,大家就知道。因为在华尔街高盛600多个黄马甲就是卖股票的交易员,大家猜猜现在剩几个?剩了两个,从600多个到剩下2个,全部被AI替代,又换了200多个搞IT的、搞AI算法的。所以我有时候开玩笑,未来对我们的颠覆远超过我们现在的想象,很多人不一定意识到。为什么要提这些编程的语言,这是很麻烦的。
 
数联网访问终端的标准化,未来的终端也不是这样的,我们现在的手机在5G之后可能都会改变,今年两会已经明确2020年中国要上5G。5G最大的特点是加AI,AI的算法就是大数据,没有大数据就没有AI。数联网解决了数据互联,解决了AI分析能力,这是我们看到的。在终端领域能标准化到什么程度,有很多想象空间,甚至是穿戴式的、我的胳膊、我的手机,可能是投影型的,不一定是现在这样的手机。我们在这个领域上做了一些研究,它真正的技术架构我们要解决一些关键的技术难题,包括一些基础元器件。
 
在数联网里面要解决数据收集和整理,我有时候跟大家讲,各位同学,你们现在看到的世界更多看到的是实物世界。我干大数据可能是职业病,我看到的是数据世界,所有的实物是为了产生数据而生的。不知道有多少人听懂我这句话?明白我的意思吗?实际上这个世界各位看到的是实体世界,但是另外一个世界是数据世界,实体会欺骗你,数据不会欺骗你。将来整个数据就打通流通起来,我就知道此时此刻在会场上有多少人等等的情况都能判断出来。
 
还有七层架构,七层架构是基于原来的七层链路,但是七层链路不一样的是我们站在大数据的角度,重新阐释我们每一层要做怎样的数据互通。我的最终目标是解决数据互通、计算互通、甚至将来AI的互通、人工智能能力的互通等等方面,这是我们思考的一些角度和方向。这是架构。
 
还有一个表述,这种表述刚才说了一定是自带语义的表述。现在是超文本,未来是“超数据”的概念,这个超数据有自己的协议、有自己的传输语言甚至是自带语义来解释自己的数据等等。未来的数据寻址是什么?我们现在的网页是基于UI,未来大数据数联网的寻址不一定是这个,可能是基于超数据的定义它的文本内容。这个是我们在内部做的一些尝试,这些尝试还只是起步,不同节点之间怎么知道我的数据在哪儿,我说的不同节点之间比如说跨省的,未来可以跨企业的。比如说我和不同的金融机构、航空公司等等都可以是这样的,他能知道我的数据在哪儿,直接暴露出去,直接知道我的数据内容等等信息。
 
这是我们的数据交换对于语义的表述,未来我们数据的表述是自带语义的,大概我就可以知道传过来的数据是什么意思。包括数据的浏览器,昨天红芯陈总讲的是IE浏览器,未来基于数联网到底应该怎么样展现数据,你明白我的意思吗?因为我很早之前就接触了浏览器,未来的数联网将是什么样的呢?巨大的想象空间。这是跟大家分享的,未来我们的形象说法,将不再是网站,而是数站,而且每一页也不叫网页,而叫数页。这是我们未来的想象空间,都很巨大。
 
这是我们做的操作系统,可能每个节点都是面向大数据的互通来做OAS,这样效率更高、速度更快。这是我们正在设计的一些内容。这是管理架构,我稍微一带而过。因为将来的数据怎么管理质量,“内容编辑”将会升级到“数据编辑”,我帮你收集数据,而不是现在的爬虫概念,而是爬数据库的概念,产生之后形成一个车所有的相关数据的内容。这是数据的管理、标准的建立、数据质量怎么评估,到底这个数据是准还是不准,10个人认为这个数据误差率超过90%,这个数据就不能用,很多内容的颠覆性变化会产生。
 
这个是数联网的生态圈,未来所有的东西都将是重新洗牌,现在腾讯开始“封杀”抖音,也不能说“封杀”,可能是遏制速度,因为抖音发展速度更快。这是互联网,更何况是数联网呢,在数联网层面是重新定义、重新颠覆的东西。
 
未来新的百度在哪里、新的谷歌在哪里,它的搜索将打开所有人的数据库、打开所有人的数据来搜索的。未来的电商在哪里,我想卖出我的数据,比如说范总,估计范总卖大数据能卖出几十万没问题,因为他的数据很值钱,透露出高端客户的一些消费习惯,很多人愿意去买。这是我们未来能看到的场景,谁来卖这些数据,形成这些协议等等,电商在哪里。还有新的社交网络,基于数据的社交网络,我对这个数据不理解,你能告诉我是什么意思吗?我对算法不理解,我对人工智能不理解,你可以告诉我怎么做人工智能吗?未来新的社交网络将会重新产生。
 
包括数据交易,目前隐私是拦在我们面前,未来只要范总能愿意共享他的数据,换一辆奔驰X300也行,可能很多人就会出来主动分享自己的数据,当然是一定维度的,有些维度太隐私的你可以屏幕。这样的好处是什么?所有人都可以在数据上变现,这种情况下还有隐私的法律门槛吗?你主动买我的数据,你来主动跟我签协议,你自己卖只能卖1毛,到我这儿卖1块,可能会有很多颠覆性的变化。互联网给大家带来的是免费模式,数联网将给大家带来的是盈利模式,还给你钱行吗?这个有很多想象的空间。
 
应用的内容,包括基于数据怎么提取报告、怎么做专家诊断。举个例子,现在AI已经能够颠覆教育,我的孩子在北京,他们今年初三,英语口语考试是AI判卷的,因为人判卷很难客观,AI人工智能来打分。而且现在AI教育是知识点教育,高二物理有多少知识点,让我的孩子来做题,发现第三个知识点不太熟,做题的时候就围绕第三个知识点。比如10个知识点,我把10个知识点都做完了,我会根据你的弱点给你出题,这是AI现在正在颠覆的,北京四中正在用AI来做教育。所以这个我们感受到,将来也一样,未来讲高二物理的可能全国一个老师、两个老师就够了,因为他们是全国最顶尖的东西,可能很多东西都将被颠覆。
 
这是在线服务。可能后面有几个问题,稍微讲一两个。第一个是计量问题,数据到底怎么计价,原来我们看到的都是有形的东西,这个馒头多少钱、范总今天打了多少个电话,这个要算一算。计价方式、评估标准、价值表述方式、数据交换市场的隐私等等,这里面有一系列的问题。包括这个隐私怎么规避,首先在大数据时代、在未来的数联网时代,各位同学你觉得你还有隐私吗?隐私没有吧,隐私是一个奢侈品。扎克伯格为了保护自己的隐私买了这栋别墅,他怕别人在旁边建高楼看到他的情况,他就把旁边的都买了,这说明什么?未来维持隐私极其奢侈。中国几千年,同学们你们有过隐私吗?中国人有过隐私吗?如果范总是某个省的省长,你什么意思啊?领导过去就会说什么意思,你们几个要开什么会,中国几千年里实际上就没有过隐私,隐私是一个舶来品,是国外传过来的隐私。所以中国人对隐私的关注度不如欧美,所以愿意拿隐私换方便,如果再拿隐私换钱呢?大家就没意见了。实际上什么是隐私呢?帅哥们你的开房记录也是对你老婆是隐私,对我们谁关心呢?我们不关心,很多东西都是相对的,这是我们看到的。
 
最后给大家作一个总结,数联网可能会改变我的思维模式,人工智能会颠覆未来。人工智能目前我们看到的金融会被颠覆,教育、法律、英语,这种外语将来都没有什么大的问题,现在最大的是方法OK了,以后是工作量的问题,只要你有足够的工作量和足够的数据就OK,所以人工智能会颠覆很多。我常常跟大家开玩笑,在我眼里未来只有两个专业:AI专业和非AI专业,虽然我们传统产业会相对慢一些,但是也一样。你会担心门口的野蛮人,怕干掉你,很多时候干掉柯达的、干掉相机的都不是做相机的,而是做手机的把做相机的干掉了,很多颠覆性的东西会出来。未来的商业模式都将会产生新的模式,因为我们传统的商业模式都有一个特点,传统是工业文明的,我们目前的思维方式、所有的商业模式都是工业文明的商业模式,没有人想过未来的数据文明产生的数据模式会是什么样的,大数据环境下、数联网环境下的商业模式会是什么样的,谁都不知道。可能结果是我只专心把我的桌子做好,为什么?我只要负责任的把全国的桌子做到质量最好的、价格最合适的,我才能活下来。我自己是不看广告的,因为我只相信数据,未来的客户都将理性,所有的数据都将透明,所有的生产者、生产方只要把自己的产品做到全球No.1才行,否则别人就会把你干掉,会产生很多情况,因为信息极其透明。而且未来的特点是数据极其透明,是到了性能指标的层面,不再是你的感官层面。
 
互联网是美国人的世界,数联网呢?我把这个问号抛给各位CIO们,我希望大家能够想到。我刚才讲的内容是人民邮电出版社要出版的这本书《数联网——大数据如何互联》,可能6月底会出版。“以终为始,规划数据”,我相信大家还处于IT阶段,第二个阶段是数据收集,马上再面临第三个阶段数据的互联互通,有了更多的数据你对市场的把控比销售的把控更准确,比如说桌子的市场是怎么样的,你比销售人员更靠谱,所以未来我们才能实现CIO去替代CEO。这是我们看到的,我最终用了这句话,实际上是马云说的话。有些人“因为看见而相信”,还有一些人“因为相信而看见”。希望各位CIO听完我的内容之后,“因为相信而看见”,旁边是我的二维码,感谢范总!

关键字:大数据

原创文章 企业网D1Net

x 《数联网》——大数据如何互联 扫一扫
分享本文到朋友圈
当前位置:CIO新闻中心 → 正文

《数联网》——大数据如何互联

责任编辑:cres |来源:企业网D1Net  2018-05-25 10:58:47 原创文章 企业网D1Net

2018 CIOC全国CIO大会5月24日在贵州盛大举办,来自全国的近400位CIO共聚一堂,最接地气的观点、最实用的实战经验、最前沿的技术、最新的产品在此汇聚,碰撞出属于CIO的精彩火花。
 
以下为现场速记。
 
中国移动集团 大数据总架构师 段云峰
 
段云峰:很高兴有机会跟大家做交流,首先感谢范总提供这么一个机会,让业界的同仁能聚在一起,能够就很多内容充分的展开,这也是很难得的机会。今天讲的内容可能比较烧脑,讲完很多内容之后,今天我跟大家讲的题目可能是站在未来的20年,很多内容也是从我们的实践过程中发现的一些问题提出的,我们叫数联网,这是第一个角度。
 
补充一下自我介绍,本人应该算是国内最早从事计算机的一拨人,我是从1984年从苹果2开始接触计算机的,在座有比我早的举手,真有,very good,真是头一回碰到。过去30年里一直没有离开过计算机,从2000年前后开始从事数字仓库,当年叫数字仓库,后来做大数据。整个一路走来,这个数据仓库现在在电信领域也是算是最大的,是500个PD。累计前后17年时间投了140多亿,所以在国内应该说是买到了最难得的教训,应该说大家知道的数据仓库领域和大数据领域的各种工具,我们都曾经买过、都曾经用过,所以大家有什么疑问都可以找我。这里有很多内容,所以今天也跟大家做一个分享。
 
这是我出过的几本书,今天跟大家分享数联网的内容是在这本书,2015年就出了。当时我在这本书里面提出了数联网的雏形或者概念,今天跟大家分享数联网的内容,因为影响会很深远。这本书是《大数据的互联网思维》,实际上是讲方法论的,今天做大数据的很多,到底这个系统怎么建、怎么服务,在学术圈没有方法论,所以把互联网和大数据的思维结合起来应该是第一个。
 
这是各种规范和文档,我们做了大量的资料整理设计工作,所以应该说是花了大量的精力。这是插了几页,介绍一下中国移动的一些情况,之后再进入整体。这是最早的情况,2010年的时候是从数字仓库开始,大家看最早是数字仓库,怎么建集市,在上面提供报表。2015年的时候我们定了一个大数据的架构,因为中国移动的特点是传统数据仓库也买了很多,各种仓库都买了。后来我们想用MPP等这样的一些数据库,来替代传统的数据仓库,因为传统的数据仓库是在小型机上,成本比较高。这个系统相对来说比较复杂,而且我们花了大量时间做数据质量的工作。
 
昨天邓总也说,他们在中石油花了2个亿做数字质量的梳理,我花了2年的时间去整理数据质量,所以这个过程是所有人都对比不过去的。这是我们大致的一个历程,这是大概从2010年前后开始标的,每一年我们都有一些工程项目,做的事情都很明确,我们一步一步积累到现在大概有17年的内容,这个在国内应该也是比较少见的。这是我们系统的情况,大家可以看一下,在运营商里系统比较复杂,今天提的很多内容也是我们的现实场景提出来的,这些给大家看到的只是大家感受到的,我们网络管理、业务系统等等,实际上累计加起来IT系统大概有2000多个,每个IT系统都有很多数据,这种庞杂的程度可能国内没有人比我们更复杂的。这么大的量你怎么去处理,这可能都是我们面临的一些问题。
 
这是一个简单的量,大家对比一下就知道了,在运营商里面一天光地域的,我们说的地域是计费领域,收入数据是96亿条,这只是一个省而已,大概是7个TB数据量。这些内容我们可以感受到,运营商的数据量是很庞大的,所以这个量可能也会对我们的各种技术平台的处理方方面面带来很多挑战。实际上我们很多问题像IBM在国际上都没有碰到过,他没有碰到过这么大的量,一系列的问题都需要我们探索怎么解决。
 
这是我们在X86的15000台,还有小型机等等,这个量比较大,就不给大家展开了。这是我们提供的一些相关的应用,这些应用里面大家可以看100多个分析模型,这100多个分析模型是全国通用的,一个省里面大概上千个个性化的应用。所以应该说大家能看到的应用我们都做,包括产品分析、营销分析、内部管理分析、网络怎么结合等等。在人工智能方面,我们也做了一两年的探索,今年初范总的内容里面,我给大家讲的是人工智能,所以这次给大家讲的时候稍微结合一下大数据,所以讲数联网。这些内容都是具体实际做过的,做的过程中反正也有很多的经验和教训。
 
这是我们现在对外提供的大概的几个大数据层面的,这是我们叫DaaS层,一般云计算是IaaS层,上面是PaaS和SaaS。DaaS主要是提供数据,现在中国移动的总数已经很庞大了。我们这些数据的内容怎么对外提供,现在各方都对我们有数据的需求,但是有时候央企对数据比较敏感,不太对外提供,这是我们体制的制约。
 
刚才主要是插播了一下中国移动的情况,给大家做一下介绍,下面进入主题数联网阶段。数联网范围很大,以BAT为主,我们产生了很多平民英雄,创造了互联网的奇迹。未来数联网产生的远不止目前这样的情况。在讲之前我做一个小调研,各位手里谁有10个TB以上数据量的举一下手,不多。第二个,用过Hadoop的举手,这么多。第三个,你读过Python或者写过Python的举手。我做一下调研是跟大家分享一下,看一下大家的情况,我主要的主题思想是别再错过这波新机会了。
 
为什么会提数联网?核心变化是什么?通俗说话是从IT时代进入DT时代,我们这次的会议是CIO,实际上未来最大的影响可能是产生在DT上、是产生在数据上。我们形象的说法,IT面对更多的是流程,面向流程,通俗的说法叫流程僵化、固化再优化,这是我们一个传统的思路。但是在DT时代不是这种玩法,DT时代更多的是面向数据、面向分析,提供的是智慧的角色。而且最重要的一点,各位CIO们,未来你们将不再是配角,你们有可能把CEO干掉,你们来当CEO,知道吗?我希望这个有掌声。
 
为什么给大家说这个?我给大家举个例子,我们现在正在用人工智能去做数据分析,分析完了以后,我们可以发现人工智能比人做营销更靠谱,所以未来我们可能的场景是什么?首先替换到营销,理论上不需要人来营销,用AI营销,来决定给谁卖什么东西。因为人的经验大概是十几个维度,AI起码上百个维度,这个已经做到了,首先是替换掉人做营销。未来所有的管理、所有的内容都将基于数据、将基于人工智能,所以未来各位权利掌握在你们手上,你来决定公司怎么走、应该卖什么、怎么卖、怎么生产等等等等。所以你会成为未来企业的核心竞争力,而不是现在在IT时代我们只是一个配角。为什么说这个?因为是我的切身感受,我干了30年的IT,一直从配角终于到今天往舞台的正中央在走,这是我的切身感受,所以拿来跟大家分享。
 
在DT时代我们更多提到的是大数据,贵州的同志都知道大数据,但是大数据时代面临着第二个重要的问题,我们的数据是单点、割裂的大数据,我们现在提出的都是单点的割裂的数据。基于我们中国移动内部的需求,我们提出了数联网的概念,这是我们今天跟大家分享的内容,数联网为什么会冒出来、它的基础、技术架构、管理机构以及会带来的商业机会。
 
从个人的案例说起,举个例子,如果各位做过装修可能都有切身的感受,一会儿安装橱柜的人到你家量一下,一会儿卫生间铺地砖的,只要你家装修家里就要不断留人,干活的各种人会来你家测量数据,这是我们面临的真实情况。还有一种是企业之间怎么做数据交换,比如说中国移动的可能就涉及到和省里做交互,怎么交互、怎么提供接口。传统都是一对一的,现在能接的都一对一接口,这是我们目前的情况。但是将来如果在整个社会上全是用大数据的时候,我们会面临一个什么样的问题,我要跟所有人谈一对一的接口,比如说我和昨天春秋航空的邱总谈接口、我和红芯谈接口、我和各种想用中国移动数据的人谈接口,这个就很像当年单点PC机的过程,并不是解决一对一连接的问题,而是普遍连接的问题。这是互联网。
 
同样的站在大数据的角度,不同企业之间在交换数据的时候也面临同样的问题,还是像传统单机时代一对一的去连接、谈数据接口吗?还是提供一个统一的环境和接口,大家一起按照这个去进行交互呢?这就是我们数联网提出的主要的背景。中国移动在这个过程中也是面临这个问题,就是我怎么去对外提供一个大家能接受的数据的情况等等内容,这是我们要面临的一些问题。对大家而言,
 
大家可能会问,这个数联网可能离我很远,但是大家可以以终为始,大家在做大数据系统的时候就可以考虑它的标准化等等方面的问题,这个对我们国家将意义深远。
 
这是今天讲的一些内容,第一章是概述,介绍一下什么是数联网。这是数联网的演进过程,核心问题是面向数据的连接,解决数据的直接互联问题。因为传统的模式里面,我们的互联网是站在信息流的角度,并不是站在数据的交流,所以它是面向连接的,这个角度是不一样的。我们站在大数据角度,这是我们看的一个点,互联网解决了计算机的连接问题,我们希望未来的数联网解决数据的连接问题,这样会带来一个什么样的场景,我后来会给大家讲。总结下来,过去的20年看的是互联网,未来的20年看的是数联网。所以今天跟大家分享一些可能会对在座各位都会有很深远影响的内容。
 
举个例子,什么叫数联网呢?比如说张三要买一辆汽车,正常的情况他看上ABC三辆车,他会查这些车的油耗数据、卖点、价格、售后数据等等,进行数据收集,决定是否购买。我们通俗的是一个网站一个网站的收集,包括客户的评价、产品的评价、市场的销量、广告的效果等等,这些维度的很多数据现在张三是拿不到的。未来在数联网的场景里面,张三能够直接调出A汽车的油耗的真实数据,举个例子所有在座诸位都看上A这款车,实际的油耗是多少,我拿过来做一个平均,我就能知道这款车的油耗是多少,比工信部公布的油耗数据靠谱多了,那个不太准,你们都是实际的用户,都是实际跑的,作为一个买家而言极其重要。因为我是理工科的博士后,我干什么东西一般都愿意用数据分析,我不看广告,广告对我没有什么吸引力,我更关注的是数据,这是我们理工男的特点。
 
拿到这些数据之后,对我判断买A车还是B车是重要的影响,但是目前我们拿不到这些数据。这是我们目前能看到的,包括我们现在的搜索也面临这个问题,比如说百度或者谷歌,现在面临的问题是我收集到的是信息而不是数据,都是一个一个网页,我要自己从这个网页里面摘、读,抽出A车的油耗数据。现在还有大量的非结构化数据,站在人工智能的角度来说,未来可能很多数据是非结构化数据。在做非结构化数据的时候,我们发现我们收集的数据很少。非结构化数据你怎么去收集它,怎么建立检索的机制等等一系列的问题,我们核心的问题是要流通的数据带来价值。我们都知道,商品商业交换,这个杯子放在我手里某种意义上并不值钱,只有我把这个杯子卖给你的时候才能变现、才能赚钱。
 
数联网的出发点就是打开彼此的数据库,比如说中国移动的数据库、春秋航空的数据库、在座各位的数据库,我们彼此打开数据,而且不需要你给我解释,我就直接能读懂你的数据,这是我站在数联网的角度来说的一个出发点。所以大家能理解这些事背后能带来的一些意义,战略性的意义。我一说大家就能理解,单点数据的价值维度是有限的,举个例子,中国移动只能看到中国移动的数据,我站在银行的角度能看到金融的数据,我站在淘宝的数据能看到网络购物的数据,这么多维度混合起来意义重大、这么多数据混合起来意义才重大。数联网我们强调的是节点之间的数据互联,怎么提供泛集群的处理能力。
 
这里大家可能会问一个问题,共享经济下我们的数据能不能共享?很多人是摇头的,因为现在最大的问题是数据隐私,后面我会单独谈。这里先给大家举个例子,这个小伙子把自己三个月的隐私数据7个GB在网上公开售卖,卖了1000美金,这是几年前的案例,说明背后有很大的商业价值在里面。可能很多人听不明白,但是我希望几年以后大家都能理解我今天说的事,这就意味着我可以创造新的商业模式,后面我会单独讲。
 
这是我们看到的数联网的一些关键的内容,一个是要解决数据互联的问题,还有架构层面、应用层面、设备管理层面,还有一个是隐私保护的问题,哪些数据能够共享,哪些数据不能共享等等。数联网最大的变化可能是从免费到盈利,这是站在客户角度来说可能会出现这个节点,互联网时代我们可以免费使用各种东西,在数联网时代你可以卖7你的各种数据,这个可能更有想象空间。这是我们比较的一个大致的架构、概念,数联网我们每个大数据的节点,比如说中国移动的节点、淘宝的节点、工商银行的节点都是一个数联网的节点。我们通过数联网能够进行彼此的数据交互,这个过程中我们要解决协议的问题、我们要解决计算的问题,这个计算的问题实际上也是我们站在移动的角度内部真实面对的问题。
 
举个例子,西藏服务器不够多,突然出现一个大的计算的需求,怎么办?我能不能把他大的计算需求放给广东来做,广东的设备足够多,把结果反馈回去就行了,当然这是现在正在做的一个方向。这是我们看到的一些大致的角度,右边这边是大致的层次关系。因为我的博士是在北京邮电大学毕业的,所以我们比较擅长做通讯,我们可以这样做。今天跟大家分享的很多内容都不成熟,都处于萌芽状态,数联网刚刚开始提出,而且现在在有些机构里面刚刚开始提这个概念。这个大家可以看到,数联网将来建立在互联网的基础之上,就能带来很多想象的空间。
 
这个我们感受到数联网的意义,第一带动新的产业机遇,有很多,为什么我刚才前面几张PPT说不能错过这波机会,这波机会远超过互联网,会有很多新的产业机会。第二是有很多新的商业模式,新的商业模式会重新产生,举个例子征信,我们传统的商业模式都是我把东西卖给你、你给我钱,都是这样的套路。淘宝解决的是什么?彼此不信任,我怕我把货给你你不给我钱,我担心的是我给你钱你不给我货,淘宝解决的第一层面的问题,未来在征信层面我们所有的人都将是透明的,明白我说的意思吗?实际上你干的所有事情都是透明的,未来在数联网时代理论上骗子没有存在的可能,现在我们的手机支付改变了我们几年前的一个行业,大家知道是什么行业吗?小偷基本没了,为什么?因为你不带现金了,你不带现金以后这帮小偷偷什么?偷你的手机麻烦,第一解锁不了、第二卖不了钱,几千年的小偷在今天很难生存,这是一个很大的变化
 
未来有了数联网、有了大数据以后,可能的结果会是什么?骗子也将会不再存在,因为你没法骗别人。马云开玩笑说,现在男孩和女孩见面决定处朋友的时候,交换一下蚂蚁信用分,看对方是否靠谱。富士康的郭台铭说要通过大数据找女婿,因为骗不了人家。这种征信会改变我们的社会,我们中国人几千年前学《论语、《孔孟》就是学道德的标准,以前我们是靠榜样的模式,现在有了大数据、数联网以后是倒逼你不得不做好人,否则你一辈子将背着这件事情。
 
我给大家举个例子,我有一个朋友在澳大利亚干了一件事,喝酒开车、酒后驾驶被警察抓到。因为证据确凿没办法,他当时特意玩了警察,这件事对我有多大影响,当时那个白人警察说没有什么影响。这个哥们只能认罪,最后的结果他因为这次酒驾有一次犯罪记录,在国外叫犯罪记录,所以不能移民澳大利亚,最后又回来了。这就是一个征信最简单的案例,这就可能会改变我们未来的商业模式,为什么?大家知道温州帮为什么炒房子彼此之间不用打借条,给你100万你到时候给我还钱就行了,为什么?建立在信用基础之上,实际上未来的商业也会这样做。比如我跟范总以前认识与否都可以,我们两个彼此都有自己的所有征信数据,我对范总很了解、范总也对我很了解,我们可以直接做生意,很多商业模式都将改变。
 
而且大数据会是一个倍增器,从我们现在正在做的事情看,人工智能的影响应该是很颠覆性的。大家都是做IT的,我做IT做了30年,很多新技术我开始是将信将疑,但是现在看速度越来越快,而且效果越来越好。虽然有炒作成分,但是这些新技术渐渐炒成真的,而且大家也看到它的效果和影响。所以在数联网时代,商业更加透明,商业模式将发生很多颠覆性的变化。我今天给大家讲的可能都是很烧脑的内容。这是第一个数联网的一些概念。
 
下面是数联网的一些新的涉及到的技术层面,要做哪些方面的研究。数联网方面我们看一个是促进数数相连,未来数据不是问题,为什么?物联网的连接按照目前的规划大概在2020年全世界500亿的连接数,中国100亿的连接数中国移动目前才算9亿用户,才算9亿连接数,就有500个PB的数据了。如果是500亿的连接数会是多大的量,未来数据不是问题,未来数据的打通是问题,这是我们必然面临的情况。所以大家可能现在还面临数据怎么收集整理的问题,将来这些都不会是主要的问题。我们从信息的连接到数据的连接,这可能是我们面临的一个主要的点。
 
这个参照了TCPIP等等协议,它是按层次划分的。右边是我们站在一个大数据节点的分层,分层完了之后可以在每一层构建自己的通信模块,来解决每一层的通信问题,最终的想象结果是比如说西藏要做一个计算,我在广东能够把自己的计算CPU甚至CPO资源帮西藏算出来,最终把结果反馈给西藏,可能产生这样的一个场景。未来各位也一样,你有数据计算不用自己计算,放到中国移动我帮你算。这是云计算的模式,但是云计算的特点是你首先要把数据挪到云中心,未来的数联网不用,很多颠覆性变化都会产生。但是有一点核心的基本数据标准,这是我们必须要做的,物理模型、逻辑模型、概念模型还是要做的,在大数据领域我们一样要解决数据的标准化问题。这个我们苦衷很深,大家开始做的时候都关心算法是不是好、是不是优秀,我的负责人告诉大家,17年过后机器学习算法不超过20种,大家用到的都是那些聚类分类的东西,17年过去我在机器学习方面没有见到什么新的算法。但是我们在机器学习面对的问题是数据质量对模型的影响,远超过算法对你的影响。这是我向大家分享的一些经验,所以我们的数据标准基础活永远无法避免。
 
数据传输的标准化,我们怎么做,包括一些协议。昨天红芯的陈总给大家讲了浏览器,在互联网我们可能会产生新的协议,很多东西都会产生。还有新的传输标准,还有新的应用层的解读数据,我们一定要想办法在数据上自己携带语义,这个数据到底说的是什么,这个车的参数到底是什么,我怎么知道这个车的参数是油耗,而且单位是升、是百公里油耗,这些语义信息一定要在传输过程中自己携带。在数联网不可能像现在一样,我一直和邱总谈这个数据什么意思、那个数据什么意思,这个太麻烦了,以后是数据自己携带语义。
 
这是数据交换的标准、数据接口的标准等等,所以大家能感受到里面的一些机会。举个例子SQL,我们原来在数据仓库领域、在机器学习领域写了很多机器学习的程序,这个大大的降低了我们我们在AI编程方面的难度。在我这个圈子里面有一个真实的案例,我的一个朋友的孩子2岁,2岁的孩子正常应该是学英语,但是他让他的孩子学编程,因为英语已经用处不大了。如果我不会英语,我到美国拿着翻译机,我这边说中文,这个东西翻译成英语,那边说英文这个东西翻译成中文,满足我们日常的生活需要是没问题的。我们2岁的孩子还需要学英语吗?未来真正决定他们的工作是程序思维,人工智能这些东西都将颠覆。人工智能未来会颠覆的金融领域80%都会被颠覆掉。
 
昨天陈总讲到帝国理工,帝国理工在英国是仅次于牛津、剑桥的学校,都是属于前三的,这种学金融的都找不到工作,大家就知道。因为在华尔街高盛600多个黄马甲就是卖股票的交易员,大家猜猜现在剩几个?剩了两个,从600多个到剩下2个,全部被AI替代,又换了200多个搞IT的、搞AI算法的。所以我有时候开玩笑,未来对我们的颠覆远超过我们现在的想象,很多人不一定意识到。为什么要提这些编程的语言,这是很麻烦的。
 
数联网访问终端的标准化,未来的终端也不是这样的,我们现在的手机在5G之后可能都会改变,今年两会已经明确2020年中国要上5G。5G最大的特点是加AI,AI的算法就是大数据,没有大数据就没有AI。数联网解决了数据互联,解决了AI分析能力,这是我们看到的。在终端领域能标准化到什么程度,有很多想象空间,甚至是穿戴式的、我的胳膊、我的手机,可能是投影型的,不一定是现在这样的手机。我们在这个领域上做了一些研究,它真正的技术架构我们要解决一些关键的技术难题,包括一些基础元器件。
 
在数联网里面要解决数据收集和整理,我有时候跟大家讲,各位同学,你们现在看到的世界更多看到的是实物世界。我干大数据可能是职业病,我看到的是数据世界,所有的实物是为了产生数据而生的。不知道有多少人听懂我这句话?明白我的意思吗?实际上这个世界各位看到的是实体世界,但是另外一个世界是数据世界,实体会欺骗你,数据不会欺骗你。将来整个数据就打通流通起来,我就知道此时此刻在会场上有多少人等等的情况都能判断出来。
 
还有七层架构,七层架构是基于原来的七层链路,但是七层链路不一样的是我们站在大数据的角度,重新阐释我们每一层要做怎样的数据互通。我的最终目标是解决数据互通、计算互通、甚至将来AI的互通、人工智能能力的互通等等方面,这是我们思考的一些角度和方向。这是架构。
 
还有一个表述,这种表述刚才说了一定是自带语义的表述。现在是超文本,未来是“超数据”的概念,这个超数据有自己的协议、有自己的传输语言甚至是自带语义来解释自己的数据等等。未来的数据寻址是什么?我们现在的网页是基于UI,未来大数据数联网的寻址不一定是这个,可能是基于超数据的定义它的文本内容。这个是我们在内部做的一些尝试,这些尝试还只是起步,不同节点之间怎么知道我的数据在哪儿,我说的不同节点之间比如说跨省的,未来可以跨企业的。比如说我和不同的金融机构、航空公司等等都可以是这样的,他能知道我的数据在哪儿,直接暴露出去,直接知道我的数据内容等等信息。
 
这是我们的数据交换对于语义的表述,未来我们数据的表述是自带语义的,大概我就可以知道传过来的数据是什么意思。包括数据的浏览器,昨天红芯陈总讲的是IE浏览器,未来基于数联网到底应该怎么样展现数据,你明白我的意思吗?因为我很早之前就接触了浏览器,未来的数联网将是什么样的呢?巨大的想象空间。这是跟大家分享的,未来我们的形象说法,将不再是网站,而是数站,而且每一页也不叫网页,而叫数页。这是我们未来的想象空间,都很巨大。
 
这是我们做的操作系统,可能每个节点都是面向大数据的互通来做OAS,这样效率更高、速度更快。这是我们正在设计的一些内容。这是管理架构,我稍微一带而过。因为将来的数据怎么管理质量,“内容编辑”将会升级到“数据编辑”,我帮你收集数据,而不是现在的爬虫概念,而是爬数据库的概念,产生之后形成一个车所有的相关数据的内容。这是数据的管理、标准的建立、数据质量怎么评估,到底这个数据是准还是不准,10个人认为这个数据误差率超过90%,这个数据就不能用,很多内容的颠覆性变化会产生。
 
这个是数联网的生态圈,未来所有的东西都将是重新洗牌,现在腾讯开始“封杀”抖音,也不能说“封杀”,可能是遏制速度,因为抖音发展速度更快。这是互联网,更何况是数联网呢,在数联网层面是重新定义、重新颠覆的东西。
 
未来新的百度在哪里、新的谷歌在哪里,它的搜索将打开所有人的数据库、打开所有人的数据来搜索的。未来的电商在哪里,我想卖出我的数据,比如说范总,估计范总卖大数据能卖出几十万没问题,因为他的数据很值钱,透露出高端客户的一些消费习惯,很多人愿意去买。这是我们未来能看到的场景,谁来卖这些数据,形成这些协议等等,电商在哪里。还有新的社交网络,基于数据的社交网络,我对这个数据不理解,你能告诉我是什么意思吗?我对算法不理解,我对人工智能不理解,你可以告诉我怎么做人工智能吗?未来新的社交网络将会重新产生。
 
包括数据交易,目前隐私是拦在我们面前,未来只要范总能愿意共享他的数据,换一辆奔驰X300也行,可能很多人就会出来主动分享自己的数据,当然是一定维度的,有些维度太隐私的你可以屏幕。这样的好处是什么?所有人都可以在数据上变现,这种情况下还有隐私的法律门槛吗?你主动买我的数据,你来主动跟我签协议,你自己卖只能卖1毛,到我这儿卖1块,可能会有很多颠覆性的变化。互联网给大家带来的是免费模式,数联网将给大家带来的是盈利模式,还给你钱行吗?这个有很多想象的空间。
 
应用的内容,包括基于数据怎么提取报告、怎么做专家诊断。举个例子,现在AI已经能够颠覆教育,我的孩子在北京,他们今年初三,英语口语考试是AI判卷的,因为人判卷很难客观,AI人工智能来打分。而且现在AI教育是知识点教育,高二物理有多少知识点,让我的孩子来做题,发现第三个知识点不太熟,做题的时候就围绕第三个知识点。比如10个知识点,我把10个知识点都做完了,我会根据你的弱点给你出题,这是AI现在正在颠覆的,北京四中正在用AI来做教育。所以这个我们感受到,将来也一样,未来讲高二物理的可能全国一个老师、两个老师就够了,因为他们是全国最顶尖的东西,可能很多东西都将被颠覆。
 
这是在线服务。可能后面有几个问题,稍微讲一两个。第一个是计量问题,数据到底怎么计价,原来我们看到的都是有形的东西,这个馒头多少钱、范总今天打了多少个电话,这个要算一算。计价方式、评估标准、价值表述方式、数据交换市场的隐私等等,这里面有一系列的问题。包括这个隐私怎么规避,首先在大数据时代、在未来的数联网时代,各位同学你觉得你还有隐私吗?隐私没有吧,隐私是一个奢侈品。扎克伯格为了保护自己的隐私买了这栋别墅,他怕别人在旁边建高楼看到他的情况,他就把旁边的都买了,这说明什么?未来维持隐私极其奢侈。中国几千年,同学们你们有过隐私吗?中国人有过隐私吗?如果范总是某个省的省长,你什么意思啊?领导过去就会说什么意思,你们几个要开什么会,中国几千年里实际上就没有过隐私,隐私是一个舶来品,是国外传过来的隐私。所以中国人对隐私的关注度不如欧美,所以愿意拿隐私换方便,如果再拿隐私换钱呢?大家就没意见了。实际上什么是隐私呢?帅哥们你的开房记录也是对你老婆是隐私,对我们谁关心呢?我们不关心,很多东西都是相对的,这是我们看到的。
 
最后给大家作一个总结,数联网可能会改变我的思维模式,人工智能会颠覆未来。人工智能目前我们看到的金融会被颠覆,教育、法律、英语,这种外语将来都没有什么大的问题,现在最大的是方法OK了,以后是工作量的问题,只要你有足够的工作量和足够的数据就OK,所以人工智能会颠覆很多。我常常跟大家开玩笑,在我眼里未来只有两个专业:AI专业和非AI专业,虽然我们传统产业会相对慢一些,但是也一样。你会担心门口的野蛮人,怕干掉你,很多时候干掉柯达的、干掉相机的都不是做相机的,而是做手机的把做相机的干掉了,很多颠覆性的东西会出来。未来的商业模式都将会产生新的模式,因为我们传统的商业模式都有一个特点,传统是工业文明的,我们目前的思维方式、所有的商业模式都是工业文明的商业模式,没有人想过未来的数据文明产生的数据模式会是什么样的,大数据环境下、数联网环境下的商业模式会是什么样的,谁都不知道。可能结果是我只专心把我的桌子做好,为什么?我只要负责任的把全国的桌子做到质量最好的、价格最合适的,我才能活下来。我自己是不看广告的,因为我只相信数据,未来的客户都将理性,所有的数据都将透明,所有的生产者、生产方只要把自己的产品做到全球No.1才行,否则别人就会把你干掉,会产生很多情况,因为信息极其透明。而且未来的特点是数据极其透明,是到了性能指标的层面,不再是你的感官层面。
 
互联网是美国人的世界,数联网呢?我把这个问号抛给各位CIO们,我希望大家能够想到。我刚才讲的内容是人民邮电出版社要出版的这本书《数联网——大数据如何互联》,可能6月底会出版。“以终为始,规划数据”,我相信大家还处于IT阶段,第二个阶段是数据收集,马上再面临第三个阶段数据的互联互通,有了更多的数据你对市场的把控比销售的把控更准确,比如说桌子的市场是怎么样的,你比销售人员更靠谱,所以未来我们才能实现CIO去替代CEO。这是我们看到的,我最终用了这句话,实际上是马云说的话。有些人“因为看见而相信”,还有一些人“因为相信而看见”。希望各位CIO听完我的内容之后,“因为相信而看见”,旁边是我的二维码,感谢范总!

关键字:大数据

原创文章 企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^