企业AI转型的实践与反思

责任编辑:cres

2019-08-19 10:49:48

来源:企业网D1Net

原创

企业AI转型的实践与反思。

2019年8月10日,由企业网D1Net举办的CIO夏季沙龙在深圳召开。本次沙龙邀请大中型知名企业信息高管出席,聚焦政企数字化转型难点,探寻当代政企在数字化转型道路上的挑战和解决之道。
 
以下为现场速记。
 
冯伟:今天给大家介绍第四范式这家公司和范式所做的事情,我们选了跟制造、传统行业更相关的案例,与大家一起分享。我的PPT有一些调整,我先介绍一下公司本身的状况。
 
范式公司,我们公司的名字起的有点不是那么太通俗,第四范式,这实际上选的是科学史上的一个科学名词作为公司的名称,有一个科学史学家,他总结认识世界的方式,范式,第四范式之前有第一、第二、第三,第一范式是我们通过实验科学来认识世界,第二范式是通过相应的理论科学,比如说牛顿的物理定律。第三个范式是通过计算机科学,从上世纪五六十年代开始,大规模的计算机普遍使用。到第四范式也就是现在这个年代,我们通过大量的密集型的数据,来认识这个世界、描绘这个世界,和这个世界进行沟通。公司用科学历史上的一个科学名词作为公司的名称。范式是做什么的呢?是人工智能技术和服务的提供商,我们提供相应的人工智能技术,当然本身人工智能技术也分很多子的层面,无论是图形还是计算,还是机器学习,还是相应的各种语音语言的处理,本身分很多门类,但我们通过机器学习的平台,公司有一个机器学习平台的产品叫“先知”,我们一会儿会简单地看到。通过机器学习平台这个产品,为不同的行业和企业提供人工智能技术,除了技术本身,我们也提供相应的服务。
 
公司在北京、上海、深圳、香港、新加坡都有不同的分公司,公司大概2014年底成立,到现在快五年的时间。最开始的创始人是这几位,戴文渊是CEO兼创始人,他最开始是在百度,为百度提供相应的百度广告系统,不知道大家熟不熟悉,戴文渊百度凤巢系统设计做很重要的工作,之后到了华为做诺亚方舟,华为有一个科学家的实验室,最开始他在华为的那家实验室做相应的研究,后来出来做第四范式这家公司。杨强教授,之前是港科大计算机系的系主任,港科大计算机系是亚洲最厉害的计算机系,杨强教授在机器学习方面,尤其是在更前沿的迁移学习、强化学习方面的研究是最领先的,而且他也是相应的国际机器学习协会的主席、理事长,在这个月底,8月29日还是30日,我们在上海有世界智能大会,那个规格非常高。上一届是副总理去,今年可能习近平会去。在这个月底,在上海有世界计算机大会,杨强教授、戴文渊都会去。之后的是联合创始人,我在这里就不做过多的介绍。
 
范式公司通过什么提供相应的机器学习或者是人工智能技术呢?大家如果能看到的话,我们中间黑色的这几个部分,通过底层的,不管是通过云计算还是通过传统的IT架构提供的算力,利用这些算力,我们通过先知机器学习平台产品,利用底层的计算能力,通过数据进行训练,然后有相应的不同的人工智能门类的模块或者是技术,在这里包括视觉相关的O2CV的模块,和视觉处理相关的。另外有自然语言处理相关的,通过这些不同的机器学习能力模块,再往上通过相应的行业的或者是领域的业务的结合和应用,会为不同的行业和企业提供相应的,针对业务的最直接的赋能。
 
机器学习这些技术和传统的过往这二三十年IT的发展有很大的不同,它的方法论是全新的,过往的这二三十年如果要说以制造业为核心的,就是以ERP、CRM,人财物、进销存,所有的这些都是关于流程优化的,所有都是为了节省相应的流程的成本,提高流程的效率。但机器学习不是,机器学习无论是从开始的理论到现实的应用,本身的目标、目的不是针对流程的,是直接面对结果。所谓直接面对结果,就是它并不是告诉我们某一个具体的业务流程该怎么优化,或者是某一个业务的效率,本质上通过流程优化怎么提高,他是直接面对结果。我举一个很简单的例子,因为范式在银行做的是最多的,当然我们也有很多其他的行业,但对银行来说,范式不是告诉银行该怎么去放贷、使得风险更小,也不是说你该怎么推介银行各种理财产品、营销产品,使得流程优化、回报率更高,不是针对流程,是直接面对结果。什么意思呢?你还是原来的流程,我就直接告诉你,可能针对贷款的话,相应的申请贷款的这些人,有哪些他们的风险性是更高的,他是直接面对结果。但如果营销的话,我相信过往,大家会常常收到营销的短信,尤其是在早些年。那时候做营销的工作,随便发、随机发,有谁响应了,就算是响应了。但他本身并不知道谁会响应,但如果用机器学习人工智能的技术,用在面对结果上,这是什么意思呢?我们可以根据相应的历史数据的积累,通过建模,指导业务说,如果你有1万人的名单,我告诉你,你往前面1000人,给他们发短信、发营销活动,这些人会更可能对你的营销活动响应,更可能接受你推介的产品。在这个过程中,我不是告诉你怎么样优化营销的流程,应该有什么样的步骤添加或者是有什么样的步骤减少,我没有办法告诉你营销流程,但我直接告诉你结果,你就给这1万人当中的这1千人、2千人发营销短信,他们通过历史数据、建立的模型,知道原来这些人是更可能、更快地响应我的营销活动。以往我是随机发,我可能需要发1万人,才能在这1万人当中,把那有可能的1千人、2千人碰到,但通过人工智能技术,你就给这1千人、2千人发短信。
 
范式本身相应的机器学习,产品、平台、技术都是有完全的自主知识产权的,我们先知这个平台,我们机器学习平台的名字是“先知”,底层和硬件相关的加速卡,和实时场景相关的,比如尤其是对银行持续交易的场景,对数据的处理量和处理速度有非常高的场景,我们有数据库,以及到上面分布式计算机器学习的框架,以至于每个不同的算法,以及相应的DSN的算法,范式都有自己的知识产权。范式无论从理论上的准备,还是到工程上的实践,都有很多的投入和很多积累,范式完全不只是应用型的公司,不只是有拼拼凑凑的技术,稍稍加工一下应用到某个场景,范式本身在这些技术的投入和储备上做了很多积累。
 
今天想给大家抛砖引玉的是我们在油气管道运营方面所做的项目,这是去年的时候,和中石油旗下的一个管道通信公司做的项目。本身机器学习的技术是一项比较通用的,或者是跟具体的业务没有那么紧密联系的一项技术,对我们普通人通常来说,现在感受机器学习、人工智能技术最多的,比如我们常常听到的自动驾驶、人脸识别,以及在一些零售商场、超市,这种场景下,我们普通人能接触的多一些。但实际上这项技术与范式服务过的公司和合作过的行业,无论是金融、证券,还是保险,以及相应的零售,我们跟制造业、油气运输所有的行业,这些都可以通过人工智能技术提高效率。我们一起来看一下,我们在中石油做了哪些工作。
 
先讲讲背景知识,我们国家的油气通过管道运输,这几十年,随着经济的不断发展,我们对进口石油的量逐年增长,管道也在一直铺建和铺设当中,到明年的数据统计,我们差不多有17万公里的油气管道。主要是这“三桶油”做管道的建设,其中中石油占的比重是最大的,差不多占70%的量。一般的管道,他们有几种问题。我不知道大家还有没有印象,前些年在青岛有一个大新闻,由于施工还是什么原因,把油气管道挖断了,产生了大爆炸。坦率地说,这种问题是层出不穷的,只是能上报纸上报道的,被大家知道的是特别重大或者是损失特别大的案件。实际上本身的管道在日常的过程当中就会出现这些问题,这对相应的管道日常的问题做的分类,大概有两类,首先,管道本身因为年久失修的原因、自然的原因,导致自然管道本身出现的一些问题。另外,这些是由于外力所导致的,要么是自然的环境,这些天开始刮台风的,这会导致地面对管道的影响。也有故意的,去盗油,做一些非法的行为,完全是人为的破坏。还有一大类是最主要的,就是城市建设在施工的过程当中,比如修路,做管网的建设,在这个过程当中,对油气管网也会产生影响。油气管道被施工的影响,大概占70%以上。本身油气管网的公司,他们就会需要对这些油气管道本身的状况作监测,做相应的运维。总共的历程是14万公里,可能到明年会将近有17万公里,这么长、这么广泛、地域跨度这么大的管网,完全依靠人,不可能,因为完全检查不过来,他们有相应的技术做管网的运维和处理。本质上有专门的管网通信公司,他是管网通信公司,什么意思呢?就是他负责维护管网,他通过什么样的形式和手段维护管网?是在铺就管网的同时,可以并行地铺管网的光纤,光纤上有相应的信号采集设备,隔一定的距离就会有机房信息采集点,本质上的逻辑是通过这些光纤和管道并行的光纤上面的信号采集器,通过采集这些信号来判断管网现在的状态,到底有问题或者是没问题,或者是什么样的问题。范式就和相应的光纤或者是管道通信公司合作,应用人工智能技术,解决和监测管网的状态,提高信号的准确预判能力。
 
这个问题由来已久,不是新问题,但由于人工智能的技术,我们把技术应用到相应的场景上,用新技术解决老问题。从2004年开始就建立起相应的管网运维系统,一代代发展,到现在利用人工智能技术判断本质上管网光纤的信号,不同的采集器收到的信号,第一是分类,分类之后做相应危险等级的排查。
 
我们的方案简单地说,就是将物联网技术与人工智能技术相结合,光纤信号的采集、存储、处理以及检测、分析、渠道对管网破坏整个的流程串联起来,实现管网端到端的安全运行应用。本质上是两大技术的结合,现在制造业,尤其是以汽车为代表的各种指导,实际上都有很多,把相应的物联网技术纳入到设备本身,物联网所要的技术,很重要的一点是使得本身的实体的物件能够有数据采集的功能,或者是无论是采集外界的信息和数据,还是采集设备本身运行的数据和状况,最重要的是把所有的行为数字化。如果要多说一句的话,相应的人工智能技术,范式的经验,为什么在银行业,比如说电信业,用的最多、最领先,互联网行业用的最领先?因为很简单,这些行业经过前些年的工作和积累,他们的数据较其他的行业来说是最全的,较其他行业来说准备是最好的。现在对于各种各样的制造业企业来说,对这些行业来说,互联网的技术很重要的一点是把这个行业数字化,不是简单的生产线上的流程,除了这些流程之外,需要把每一个流程以及参与到这个流程当中的每一个物理的部件,所有的状态和信息数字化,在有了这些状态和信息的数字化之后,可以利用这些数字和信息做非常多的工作。今天我们介绍的是在油气管网的应用,还有其他制造业的企业,他们在做什么样的转型呢?
 
我自己知道有一家是做风机发电的企业,在过往他完全就是一个设备制造商,我是制造业制造商,我做很多风力发电机,本质上我的买卖就是卖这些发电机,如果哪里有坏或者是相应的故障,我就派人去修。本质上商业模式还是制造业的模式,但现在他们可以做哪些转型的工作呢?通过物联网的技术,在风机的各个部件上,在各个步骤上,他放非常多的信息采集器,他就把自己从一个制造业的企业转型为一个服务性的企业。我不用你告诉我现在风力发电机有问题或者是有一些什么故障了,你打电话,我派人去检修或者去看,我通过这些采集器,我有中央的控制室,我就能够看到所有的设备卖到全球什么地方,每个地方的状态是什么样的,他们的每时每刻运营的状态是怎样的,当他有问题的时候,是哪里有问题,他马上可以把商业模式转变为一个服务型的模式,我的设备可以租给你用,我收相应的服务费用,就不简简单单是一个制造商,我生意的模式是生产和销售,生意的模式马上就可以改变,商业的模式在做这样的变化。这一系列完全是通过技术本身对商业的模式、对服务的模式有相应的改变。
 
和管网相关的架构,本质上这些架构除了底层提供相应的机器学习的平台之外,还有相应的模型建立、模型运维的模块。本质上的管网公司是有相应的信号采集器、信号采集系统、监测系统,他们如何利用机器学习的技术,通过机器学习的模型流转整个数据的过程,本身光纤信号采集器采集的信号作为历史数据可以输入到模型的开发环境当中,构建一个评判信号本身的模型。这个模型发布到线上的生产环境系统之后,他可以对于相应的实施得来的采集信号进行评判、评估,这些信号可以筛选,到底是有问题还是没问题,到底是什么样的问题。同时,模型评判的结果输送给相应的管网接收系统,管网的接收系统最后判定是什么问题、是有问题还是没问题,通知相应的现场工作人员到现场做相应的维护、核实。现场的工作人员在做了现场的勘查之后,会把相应的勘查结果反馈给响应的监测系统,报警或者是预报是正确的还是错误的,哪里正确、哪里错误,监控系统就会把现场勘测人员得到的结果又反馈给生产环节当中的模型自学习的模块,这时候模型本身通过反馈的数据进行模型的迭代和模型的训练,使得模型一直保持较高的准确率,整个过程就是通过数据的输入、建模、相应的模型、提供相应的真实数据、业务场景的输出、相应的现场人员对模型的结果有反馈的数据,进一步提高模型本身的准确率。机器学习很大的一个特点,我刚才说过的,不是针对流程的,是针对结果的。这个结果本身,因为涉及到模型,模型本质上是数学的问题,他是把所有业务的场景,一些真实的业务问题,抽象成一个数学的问题。如果再说的本质一些,抽象成一个统计学的问题,后面都是一个概率。之所以涉及到概率,本质上就不是百分之百的事情。模型肯定有相应的准确率,不是100%,可能是70%、80%、90%,那就看具体业务的要求能够容忍到这个模型有怎样的准确率。对于那些模型判断错误的结果,相应的收集反馈数据,给模型不断地迭代、不断地更新,使得模型本身能够有越来越好的准确性。
 
在本身的架构当中,有几部分的核心技术上的应用,我们可以做一些简单的介绍。一方面是高维的模型和自动特征的组合。高维的模型,所谓的高维就是指多维度,维度是我们描述一件事情的角度。比如说描述我的话,男性、年龄、在什么地方工作、身高、体重,这是描述事情的角度。当维度越高的时候,我们描述一件事情的准确性就越高,因为越丰富。如果只是描述现场的话,大家有几十个人,只是人数。但如果维度高,我们可以对每一个人特别具体的描述。在这个场景当中,我们对不同的信号、不同光纤采集的信号增加了很多模型分析的维度,使得模型本身能够更全面、更深入地检测信号本身、描述信号本身,这是高维的模型。另外一方面是有自动特征的组合,所谓的特征是什么意思呢?在机器学习里,描述维度的值,在机器学习领域里叫做特征。实际上把这些基础数据经过相应的衍生和变化,产生很多衍生数据,所谓的衍生数据自动之间能够相互组合,产生更多的数据。所有的工作,这里是为了更多地描述一件事物。这里是能够产生更丰富的数据本身,因为训练模型的时候,需要有相应的数据支撑。越多的数据支撑,对于模型训练的效果就会有更多的保障。
 
另外,用到深度学习的算法,这里就不把它说的那么学术,如果大家对于机器学习有一点点设计和了解的话,常规用到比较多的算法是GBTT和LI,逻辑回归的模型。这两个模型用在两分类的业务场景上是比较多的,所谓的两分类就是是或不是,直接分两类。如果涉及到多分类,这两部分的算法就不太适合。我们在这个场景下选用的是卷集神经网络CNN算法,他通过对不同光纤信号的输入,经过非常多轮次的卷集、池化,非常多轮次的迭代之后,最终分出多个种类、多个类别。这个类别首先按照相应的业务要求,要把所谓的信号,到底是什么原因导致这些信号。比如说是人工导致的还是施工导致的,还是自然环境导致的,有多分类,这个时候我们就选用卷集神经网络的算法。卷集神经网络除了在多分类用的比较多,另外在视频和图像领域用的非常多。比如说我们常常去火车站、机场做相应的安检,我们通过照相、身份认证的通过,这个算法后面都是用到卷集神经网络的算法,因为不是涉及单分类,是涉及多分类的。
 
另外,模型的自学习,为什么要模型自学习呢?本身数学的问题是概率和统计的问题,本质上模型是会衰减的,所谓衰减,模型本身对新出现的状况、对未来的预测能力会随着时间的推移变弱。很简单,模型所能学到的数据是过往的历史数据,如果时间越往未来推,那未来不会是过往百分之百的重复,总会有一些新的事情发生、总会有一些新的数据是过往学习模型历史的时候数据不具备的,这时候模型就会衰减,所谓的衰减就是效果不好了。我原来对一些事情的预测可能非常准,但越往后时间就越不准,这个时候模型就需要自学习,所谓自学习的过程,就是把模型预测错误的结果,把这些结果再次作为模型的输入数据,再训练一遍。就好象以前学习考试做错的题,你再把那些作错的题当做训练题,再做一遍,你就知道原来正确答案应该是这样的,这样就能够提高模型的效果,减缓模型的衰减。它本质上是这样的一个过程。
 
模型自学习本身的周期可以按照业务需求确定相应的模型自学习的周期,我知道大家会时常用到今日头条、抖音等社交媒体工具,抖音、头条模型自学习更新的频率,大概是到分钟级的,几分钟就会对每一个人所用到的相应的模型做相应的控制。对于这个场景来说,他会根据自己业务的需要,比如说以周、以月、以季做相应模型的控制。
 
另外,模型在这个业务场景下,他有两个模型完成这个工作,一个是异常信号的识别模型,这个信号到底是什么类型的信号,我们刚才说了,是正常的还是异常的,首先要对这个进行相应的识别。当信号是不是异常,识别过之后,再对异常信号进行分类。比如我们这里可以看到是机械类的,还是人工作业的,还是车辆通过,本质上对信号有一些扰动,对机械类的,会做进一步的划分。在这之后,他还会对本质上这些信号的威胁程度、危险程度进行评判和划分,这是什么意思呢?实际上这是为了业务上是不是要立即就请勘查人员做这样的维护、做这样的评判,本质上我们通过多个模型的接连应用,从最开始原始的信号,到最后给现场勘查人员工作做具体的指导,有一系列的模型有做接力的预测工作。
 
本质上是两大集成技术架构,是物联网技术和人工智能AI技术,物联网是采集数据、数据的存储,数据本身的处理,有相应的不同模块做不同的工作。机器学习就是物联网技术提供的相应数据建立模型,同时为相应的结果提供反馈,这两块技术叠加在一起,实际上是能够跟设备、制造、相应的领域里提供非常多的,无论是优化流程本身,还是直接提供结果,这方面都能够提供很多帮助。
 
范式可以提供相应的企业级的AI产品,范式提供机器学习的平台,我们建模有相应的建模工具、建模平台,模型上线运行之后,本身的日常维护、迭代、相应的上线和下线的处理,需要机器学习的平台维护,范式是提供响应的机器学习的平台。
 
另外,我们在不同的行业有不同的案例,有在不同的项目上积累经验的团队进行支撑,在外面的时候,奇星的石总过来简单地聊两句。石总有一个困惑,奇星是做文具的,有众多的供应商都往奇星供应商相关的系统录入供应商能够提供的产品,但大家录入的时候,你建立的产品品类,在系统里已经有了,或者是其他人已经录入过了,此时此刻对于奇星来说,这些处理的过程,他通过人工一个个校验、比对,看一个新的供应商录入的品类是否已经存在。如果用机器学习这个技术,可能解决什么样的问题呢?我和石总刚才说,我们之前在招商银行做过用自然语言处理的一个项目,大家如果用招行手机银行APP的话,里面有非常多的商户,不光是银行的应用,上面也提供各种优惠券、各种营销活动,招行在一开始接入这些商户的时候,并没有对这些商户进行分类。接入之后,现在有几十万的商户,他如何按照工商局企业门类的标准分门别类,完全通过人吗?这得通过多少人、花多长时间才能把几十万的商户分门别类好呢?机器学习就完全可以帮忙人,用到的技术是自然语言处理技术。我们就通过本质上的商户名本身,以及对于商户本身录入的自己店铺介绍的信息,实际上是能够代替人或者是至少是帮助人来理解商家是做什么生意的,然后再按照国家有标准的行业企业分类规则、守则,分为大类、小类,分门别类地把这些商户归到相应的门类里去。相应技术的处理,跟石总之前提到的困惑是一样的,都可以通过自然语言的处理,代替人去理解本身自然的语言、语义做这些工作。包括现在在银行、医疗,电商有很多客服处理的工作,大家也在淘宝、天猫上买东西,客服的工作很多情况下,有用到相应的自然语言处理人工智能技术,减轻一部分客服的压力。
 
人工智能技术本身是一个中性的技术,并不和某个具体的行业、某个具体的业务强绑定,他是一个中性的技术,以我们的经验来看,能够用到方方面面的不同的行业、不同的业务,只不过需要和具体的业务具体结合,刚才我们介绍到的是管网的技术,我们也说到不管是在供应链上,还是在银行里,还是在保险,都可以做很多的应用,欢迎大家有机会一起交流和讨论。谢谢大家!

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号