运维是一个古老的话题,可是今天的运维比以前已经大不一样了,智能化、可视化这些新技术给运维带来了更多新的手段,在7月14日企业网D1Net举办的2018汽车行业CIO现场,博睿数据技术总监刘毅先生在《智能运维驱动车企数字化转型》中讲述了车企转型中关于智能运维的那些事。
以下是现场速记:
【博睿数据技术总监 刘毅】
刘毅:感谢各位专家,我是代表北京博睿来参加会议的,因为汽车行业的会议是第一次参加,原来很多都是参加金融或者互联网的会议。实际上刚才陆总提到了几个关键词即用户体验,今天所有的IT系统支撑业务很多时候是为用户提供这样的保障服务,其实大家可能关注更多的是用户在使用自家IT系统的时候的满意度和保障程度,这对我们运维整个的体系提的要求而言是一项飞跃。该领域大家都知道,因为以前的十年基本上互联网高速发展,其实互联网行业大部分的用户对运维的体系理解已经超越了可能一些传统行业,今天也借此机会,我们把其中的一些与公司相关的理解给大家做一次分享。
此次演讲的目录是“取势、明道、优术”,长江商学院的这句话被引用了无数次。汽车行业数字转型,第一个是我会给大家说一些大背景。第二个是具体在ATM上面,我们助力车企实现智能制造,其实智能制造说起来有点大,可能在IT支撑方面给大家贡献一些新的思路。第三个是简单介绍一下博睿全数据链、业务链的应用性能管理上面的一些经验。数字转型其实是整个行业的趋势,据调查行业第三方的数据,一千强企业有67%已经提到数字化转型的核心战略,刚才陆总提到很核心的一点是数字化转型,实际上数字化转型可以非常虚,但也可以非常具体,包括现在汽车行业里面很多用户都在尝试着做数字化转型。全球整个在数字化相关作坊会有1.7万亿美金,相比2017年整个会有42%的提升,当然数字化转型概念很多,包括现在其实提到自动化驾驶,这些问题都可以囊括在数字化转型当中,把数字化的应用到新产品开发、新的技术开发当中去,然后其中落地在中国,可能未来有20%的GDP来自于数字化转型,这是当时整个的行业。
我们来看一下这张表,它是2017年10月份全球非常有名的,因为做IT我们都知道这个,其实是全球非常顶尖的咨询机构,它在2017年做了一个调查,做了什么调查?大概选择了有3000多个企业的CIO做调研,当然调研有很多的维度,其中我大概选了几项,这是关于整个大概行业的CIO对未来在整个投入上面关注的重点上面有一些排序,可能列了很多项,其中数字化转型、数字业务排得非常高,整个行业的CIO对这个将近排到第二位,第一位是市场增长、利润,这永远是企业的话题,包括现在该概念已经不难讲,因为我接触互联网企业比较多,直接是IT部门要利润,IT部门生产利润,没有什么再制造,因为没有制造,因此IT部门都是这样。其实他们很多的CIO考虑的是怎么样设计产品、争取更多的流量、更多的用户,是这样的概念。
但是我比较惊讶的是,在汽车行业里面,第一次数字转化的这一项任务也被排进了前十,而且排在第四位。后来我去思考,实际上这两年随着互联网+和传统行业的叠加,再加上其实我拜访的客户里面,有一些是新型的汽车制造企业,在上海有好几家,他们很多CIO直接从互联网挖过来,他和我谈的概念可能重点不是ERP、制造业,而是营销、客户服务、前市场与后市场的延伸,整个生态。因此其实来说,他们可能对数字的敏感、数字转化生产的敏感度比较高,我认为这将来会成为一种趋势。
回到现实当中,我应该是做IT有二十多年,以前是做集成出身,其实在这过程当中,也服务过很多的汽车行业服务,当然那时候还在做传统,也做集成、ERP、咨询,至少在近十年里面,我看到没有什么太大变化,当然每年都在投入、建设,但是建设的核心依然是一些传统的东西,前几年可能数据中心,ERP在升级,或者很多新的一些再造系统,这些投入很多。但是近两三年,我看到完全不一样,因为实际上我刚才讲到了,新的技术包括刚才早上其实陆总也提到,新的这种新能源汽车的制造,其实它会带来汽车用途的革新非常大,实际上我们也截取了,同样在这份报告里面,这份报告的表实际上你在未来的一到两年里面,会最关注的新技术,在你企业里面比较关注是哪些新技术。
当然一开始我们看到都是正常的,与刚刚几位的演讲都是呼应,第一位是BI,汽车行业做BI做得很早,做金融分析数据做得很早。第二位是安全性,安全很重要。第三位是ERP,依然老三样排在了前三位。但是我们发现几个,因为我们同时去看了其他的调研,有些项目不在里面,但是在2017年调研上面出现了,比如说数字化市场,说到这个,我在这一年当中去拜访过大概七八家汽车制造业,有的在上海,有的在武汉、南方广州都有,我去的时候,带着传统思维,去推监测的方案,负责运维的保障。以前我认为我们汽车行业IT部门主要是在现有的系统上面应用上的问题,造成生产终端,经常会遇到投诉,需要有利的工具去保障它。但是实际上我遇到所有的用户,大概有80%他们的IT负责人都会很关注电商、APP、服务的这种,我很奇怪,其中有一位用户告诉我,他说很简单,现在遇到的问题是把电商渠道当成很重要的渠道。我说车放在网页上怎么样卖得掉,还是要4S店传统的营销,但是他告诉我,他们不是,有一些特殊车主是尝试做互联网营销模式,收效还不错,他们上一次遇到问题是,他们在做冲销,其实是一个活动,也不是直接销售,可能预约一个什么样的活动,非常针对年轻人的时候,没想到用户访问量瞬间非常大。
因此刚才其实嘉宾有提到汽车行业不会轻易遇到电商这样的问题,实际上不是,我的用户里面就有经历电商的白马,以前双十一只是阿里的问题,618只是京东的问题或者苏宁的问题,但是现在实际上只要你走电商的路,互联网的问题都会出现。实际上他当时做了很多营销设计,但是你可能投入了大量的资金,而且你的用户反应不错,上你这个活动的时候居然拥塞了,而且该活动只是进行了半小时就有人投诉,你们有几个键点下去没有反应,这对销售来说是很糟糕的问题,如果我负责销售的活动,可能忙了一个月,终于推出去了,居然是因为我们不可预测的问题而导致了这些。数字化的市场我看到了这一点,和我实际的感受相吻合。
还有一个很重要的是,虽然不相关,即IT和人工智能,因为这不是比如说自动驾驶、什么技术,也确实是重中之重,有很多企业在研究。但是有一个地方我没有想到的是移动的应用,我没有想到移动应用,因为之前我去汽车行业,当然我都知道汽车行业都有做自己的APP,做了很多APP,甚至一个车厂会做很多的APP,但是我打开APP,以前我的概念是介绍一下公司、车型,然后没有了,连一个销售的通道都没有,好像是一个广告宣传的作用。但是今天我看到的APP有一些,我想说明一些新智造的企业有很多APP的应用在汽车行业里面、汽车制造业的公司里面,其实有很多的用途,我都受到了很多教育。
比如说一家上海蛮有名的汽车制造企业,他和我说要对你们APP性能和体验监测,我说你有多少用户?因为我们以前都不讲这个,互联网领域叫日活有多少。他说注册用户有六万,我说六万太少了,好像项目不会做得很大。但是他告诉我们项目很重视,为什么?因为他把4S店所有大概六万的专职销售全部注册,而且他要通过我们的APP上面体验和行为数据采集去分析、管控他4S店人员的规范化,即他对4S店的人员有要求,但其实一旦发下去以后,他们并没有完全按照要求去做。因此他们市场部做了该APP,发现其实还没有去管控到销售端,希望通过行为分析去分析他们是否按照规范的流程去向客户介绍我们服务。其实这东西只要正常在APP里面走一遍,我们都可以记录下来,包括停车时间、停留时长,或者你的到店什么的,这是互联网里面有很多指标。
其实有很多的应用场景,但是它的用法不一定和互联网一样。包括刚才陆总说到每天有可能流水线上的人都用手机,给我们脑洞大开,当然我在汽车行业里面没有想到,但是我本人做4D行业,基本上几大4D公司都是我的客户,他以前的应用很简单,我只要把他需要的应用设置到运行就好,但是现在在做有两家公司也很大,已经实现了手机替代了他们前端所有以前看到的用扫描枪在扫描包裹,以前没有扫描枪,全部是手机,因为扫描枪只能兼容扫条码、数据简单录入,如果你的业务多种经营化,实际上你的扫描枪不能用,因此手机是一个很好的替代品,主要解决手机扫描条码的速度和扫描枪的速度一致即可,所以现在你去看快递公司,已经让下面他们下面所有的快递员全部用手机替代扫描枪,这个业务量变得很大,一个快递公司有十几万的快递员。如果汽车行业的用户用手机,员工也不少,而且会产生很多的问题,因为手机端的应用,大家都是做IT,手机端的应用比传统的应用要复杂得多,因为操作系统、手机操作不一致,用户使用不一致,因此实际上带来了很大的运维困难。我发现了几个技术,这是我刚才讲到的,有很多,我也上网搜了一下,确实不少。
回到今天的挑战,新的思维方式、新的数字化的业务模型转变,使得我们比较关注用户体验,因为我们有很多的类互联网的业务方面。刚才我在下面,其实坐我旁边的是做汽车物流,我和他分享,因为他做技术,他说现在没办法支撑,希望去转微服务架构,当然微服务架构很灵活、方便架构,而且非常容易扩充,但是微服务架构的运维很难,因为互联网公司都是微服务架构,也不用拿手机,都是PC,性能不够了就扩,甚至用容积方式去扩,很灵活,成本很低,但是会带来运维上很讨厌的地方,为什么?因为你都不知道这笔交易是哪个微服务接口,因此像蜘蛛王一样,会带来新的给用户体验、运维带来更大的压力。
第二,车与人、车与车、车与度,当然这很好理解,反正是未来汽车行业会手机的数据可能会增加十倍到二十倍,你的很多互联网数据都要收集,自动驾驶、传感器随时都在采集数据,这些数据有商业价值吗?我不知道,反正当我不知道它有什么价值的时候,我就要采集、保存,因为未来什么时候也许我发现它有商业价值。车里面,比如说以前的车联网之类的东西。大量的这种数据使得我们未来有可能车会变成一个互联网的流量入口,当然现在其实该概念最早不是我说的,而是新的那些造车CIO谈的,完全变成互联网的入口,只是和我们手机没什么区别,功效不一样,是一个开的东西,但是会有大量的数据在中间产生,其中有一部分有很大的帮助,去把它采集起来。
第三,可能比较聚焦,业务模式优势改变,数据量几十倍的增长,业务复杂度本来就不低,我记得汽车行业本来ERP里面有非常复杂的业务流程,现在可能生产和重心转移到销售、服务,怎么办?说句实话,我喜欢实话实说,我看到的汽车行业用户里面有非常好的,很多年前的IT客户每天都非常忙,他们概念非常领先,已经做成与互联网公司没什么区别,但是有一部分还比较传统,主要是围绕ERP每天生产保障,不能断,不能出问题,这样的企业也比较多。所以一旦我的业务要发展,像这样的运维会受到非常大的影响。
我们聚焦到运维,然后谈一下全球的发展趋势,我们现在在这儿,OPS即现在的运维方式,互联网行业怎么样?当然这是口号,因为互联网行业的特点是研发即运维,产品即销售,这是它的特点。一个软件规划师、应用规划师设计出一款产品设计出来之后,需要对营收负责,如果该东西营收不好,就被拿下,或者换一个新的项目。研发是做该产品,你要为该产品的运行完全负责,现在大家觉得这有很大的问题,我们运维就是运维,研发就是研发,其实两者之间没有什么关联,出了问题,运维解决运维的问题,研发解决研发的问题。我告诉大家,用我的体会来说,很多时候不能够非常快速的去保障业务系统高质量的健康运行,该架构有很大的问题,因为研发解决研发的问题即可,大家有偏差。但实际情况是,你要排除一个业务上的问题时候,除非比如说机器已经着火,很明显,这就是服务器问题,因为很多情况下我们说不清楚,看看服务器、网络都正常。但是那边用户端有投诉,然后软件部门也看不到程序运行的状态,所以说我们测试都测试完,都是好的,所以上生产,运行了一个多月、一年,都没有出问题,所以你们不能说我们有问题,这里面有很多的隔阂。但是在互联网公司都存在这样的争论,因为研发也为应用顺畅运行提供保障。
因此这样一个行业的发展有些不同,但是一旦我们可能会涉及到互联网业务转型,或者说有多种业务经营方式,也许可能未来正是这个标准需求很大。我现在发现汽车行业里面大量的在招研发,以前我不知道,但是我每去一个公司,发现隔半年去,研发的人又多一倍,我说你们在做什么系统?他们说好多系统。反正这也是一个趋势,因此自己很多应用上面会做很多。当然最终极限是走VIOS,我的预估是到2025年有真正成熟的VIOS的平台会在汽车里面推动,那时候真的能够实现只要有一个业务上的问题,系统会直接告诉你是什么原因,然后我们不需要那么多运维,这是VIOS的终极目标,但是现在需要数据通过人为的分析去解决问题。时间问题,我不展开,以后有专门针对VIOS的话题来讲。
我刚刚讲过,因此我们可以帮用户聚焦解决三个问题,这是活跃的角色在这儿。第一,我们可以实现可用性和性能的体系化管理,只要你的业务系统是符合我们的要求,当然绝大部分业务系统都符合我们的要求,因为做的人太多了。我们可以帮你对应的业务运行精确到,也就是说,其实没有什么我们看不到,你的用户使用过程当中,可能按个按钮发送,一直在转圈,我们知道到底问题出在PC端、手机端,还是网络端、服务器的某一个进程里面,实际上是我们所说的这个,把它捅出来,如果是软件的问题让研发解决,如何是运维的问题让运维解决,要精准,这是对今天运维提出一个非常高的要求,我刚刚说当时的APP要用这样的方案去解决。
第二个,我通过追踪机制重新定义追踪的数据分析,实现可视化。待会儿我会给大家看几张图,刚才其实包括陆总提到几个好的叫软件架构和基础架构,我们可以把它直接在上面显示出来,这完全不一样。然后VIOS是现在准备在研究、试错,但是未来不久的时间会有成型的产品,实际上需要把大量的看似没有用的IT数据放在一起,然后经过计算,会产生一些对你有用、有价值的数据。
分工明确,我们希望未来的运维其实有这样的图,什么意思?管理层实际上都不是具体做研发、运维,但管理层对业务负责,比如说你的CIO或者你的CTO,或者运维总监,对业务运行负责,其实很简单。我记得我去东唐的时候,他们的负责人移动部门的人和我说,一是我的这套业务系统好不好,能让我可视看得见;二是我的业务系统有用户投诉,可能有问题,你要让我看得到在业务系统的整个过程当中哪个模块有问题;三是你告诉我流程出来,那块模块的负责人是谁即可,就三个问题。实际上IT老大不用在下面做事,只要负责,但具体的问题具体的人去解决,分工明确。但我现在经常遇到一个问题是,我经常看不到,只知道等到问题爆炸,影响到生产、服务,下面的人再开始急,开始有投诉投过来,这是很被动的做法,而且就算投诉投过来,那是很局部的问题,其实我都不知道这个原因在哪里,应该去找谁,因此蛮简单。
运营部门可能对用户的行为感兴趣,因为他对我经营分析会有所帮助。当然这里面提到运营部门,我不知道汽车行业怎么样,我给大家分享一下券商,因为券商做得比较多,证券公司现在已经有一个部门非常强的是网金部,该部门的领导都是不懂IT,但他对我们现在APP都用,他对金融全权负责,包括零售都要负责。如果该APP出现任何问题影响使用,他可以把运维的负责人叫到面前,劈头盖脸的一顿说,因此它是一个业务导向的部门,有非常大的权利看住研发和运维,甚至有的网金部直接招聘研发,比如说APP业务上面一些自己做,完全自己做,其实这样的部门蛮在乎这东西用得好不好。
第三,IT部门,网络性能、应用性能、系统性能,说简单也就是实际上我只要前端有人用了多少,后端就能制造什么问题。还有是前端,因为有很多前端开发部门,前端部门是要知道用户的体验怎么样,因为运营部门如果有人投诉,会来找我们部门,所以我要是收到投诉怎么样做。
简单得介绍一下,这是公司业务,因为我们是传统行业,可能不知道,当然有很多人知道,因为是我们的客户。我们其实2007年成立,在中国有11年,一般IT公司从小到大生存11年不太容易,如果到互联网行业、金融行业应该知道我们比较多,实际上我们公司随着移动互联网爆发成长起来,今天整个互联网行业,大家平时都可以用到我们公司的服务,比如说你们看电影、看新闻、买东西吗?每天都会用到,因为我也用到,有些特别是大的,它的性能条目做得非常好,很少出现很严重的故障,为什么?难道是它架构设计得好,就不会出问题?不是,因为他们对很多服务都进行监测,如果说这些服务有一些些甚至,比如说我告诉你们,今日头条有很多小视频,它的竞争对手是腾讯,大家都是在线的新闻推送,这两个竞争到什么地步?你的小视频我从第一个视频推上去推到第二个视频,因为推过去你当中会有一个间隙,然后才会放,会有缓冲,他们在算首字节回馈时间,如果说今天腾讯做得多好,然后今日头条会去改进,因为他们有我们比较数据,他们改进,使得新闻推送要超过腾讯。竞争几乎是每个操作都有,后面其实使用了我们非常多的用户体验的应用性能监测。
因此很多时候是真实的数据,一个只有300多人的公司居然有30项,而且是实实在在的30项的专用,这是已经申请获批下来。在数据采集领域,我们其实有非常深的这种应该说造就,我们CTO也很厉害。客户早就超过三千家,传统行业有很多,几乎是涵盖了现在看到所有的互联网业务模式,这是我们以前说的ES架构,只要你的业务是这样,用新技术做,我们基本上都可以做到该架构。
再看十张图,这是我们APP的监测页面,某一个用户或者某一个APP的监测页面。我大概给大家描述一下,在它的左上方有网络、CTM、第三方资源、手机端软件、后台五个指标,还有客户满意度,这六个指标都是有评分,因为我们最早这种页面都是根据用户设计出来,他要求一个APP的服务,对下面所有的IT运维部门有评分制,你给我支撑网络环境,如果低于六百分,这一季度考核,比如说出现过多少次这样的情况,我可能考核会低一个档次,已经到了自己内部的数字化,当然这也是非常严格。
在这儿我们可以手机端,这是你的用户,用你的APP发送了多少次崩溃,崩溃的原因是什么;哪些频道用户比较拥挤,然后出现了卡顿;哪些请求失败,送到后端去,与你的后台服务器的服务可能也有关系,因为今天其实云非常好,但是用了多之后,势必也会出现很多问题,我们说云上出问题也不是一天两天,经常会出现。其实云服务上的资源都是动态切割,根据客户的优质程度去动态切割资源,因此你去看很多,其实要实时的能够知道提供的服务状态怎么样,这些东西都很重要,我们全部OK。这是针对APP的一个界定。
这是刚刚讲的管理层要知道什么?我不需要知道得太多,我只需要知道我的业务架构上面好不好,刚刚有评分、值,这其实是互联网行业标准的通用值,你这个值到90分以上,说明你用户打开你的页面APP、网页非常快、好,你的出错率低于千分之三,一般千分之三是互联网行业里面的指标,你的出错率如果高于千分之三,用户基本上满意度就不会很高,当然你要分析他会不会在这上面,如果经常登录在IT上面,我本人可以打赌,他是一个潜在的优质用户,其实有很多分析。
老板做什么?天天看到这张图,上面如果都是绿色,就没有问题;如果发现有一块红的很深,这又是什么?不用埋头查看,一定可以找到他的负责人。这是我们刚刚讲到的应用架构,表面上看是一个大的一张图,但实际上大家有机会可以去尝试一下,每一个点都有数据,可以做大分析,因此不是一个表皮,只是把数据抽取下来。该东西背后是什么?是一个非常复杂的应用调用,我们都知道其实比如说你的机器硬件也好,可能是一百台机器,在上海可能五百个应用,但是这些应用到底怎么样流转,实际上时间长了之后并不知道,其实我相比较硬件比较容易发现问题,但是相比较软件很难发现问题,好的方式是什么?把你的软件怎么样跑的抓出来,形成你的架构,而且软件无论在哪个节点出现了问题,实际上我们都可以关联地分析到你该软件所部署的软件,以及容器的优化环境到底怎么样,是不是因为硬件和容器的优化环境导致软件跑得不好,都有多种分析。因此这个是给工程师用的,你要判断问题、解决问题,但是可能我是负责一条产线,或者某一个SI功能系统的运维人员,只需要去看着它就好,其他与我没有关系,只要它运作是正常,我就会有问题。
我们看到的是完整的业务调用,每个业务入口、业务出口,往后,我们在很多公司,其实他们已经遇到很大的问题是,比如说刚才讲到的中台、后台,在金融里面也叫中台、后台,中台是第三方公司开发的,后台、前台是自己做的,当他发现他的调用是因为中台出问题,当然现在简单了,因为我知道该模块在中台里面爆出问题,我去找第三方公司就好,甚至知道他们这块部分是谁写的,马上找到这个人,我们有数据给他,直接用好。以前做不到,为什么?因为监控都是局部,比如说手机端、PC端、前端有监控,网络有监控,但是一旦监控到,往那边一调用,调用到某一个监控里面,大家就知道解决,那边发生了什么问题?不知道,不知道就没办法指责别人,因为还没有办法精确的定位。因此实际上这样的一个架构服务首先要抽取出来,而且能够精确的定位,责任分清。这是业务采用的东西。
后端,这是我刚刚讲的,工程师要做的是,老板发现你容易发现的东西,所以不要和老板在狡辩,其实针对你要负责的问题直接去分析,所有的业务调用、结构都在这里面,数据调用,包括远程监视等很多,无所谓,这不细讲了,都是一些技术细节。我们在用户使用环境里面,几乎经常帮用户抓到这些问题,EMS营销系统上面,经常营销系统一张报表拿不出来,时间很长;一张订单批量数不行,等待了很久,没有反馈,后面只要你操作,我们就可以立马把你操作引起的问题在哪里,全部抓住。然后这是供应链上的一个,刚才抓到的其中有一个数据库调用的时间,平均处理调时是多少,我看到,大概是16013秒,要转化成小时。
这是所有的远程调用,如果你以后做微服务就靠这远程调用,所有的微服务接头的这种效能全部在这里,一个应用跑下去,有可能就是一个微服务接口导致的服务场景在内,因为微服务管理起来太难。下面这些案例,我就不多说,其实我在刚刚过程当中讲了很多我见到的用户以及反馈的案例,实际上用途在其他行业里面已经有非常多,因此如果大家有兴趣,会后可以找我们来做深度交流。这是我们客户的名单,其实写不下来,而且最近在制造业,当然像格力也是我们的服务,他们整个后台服务器的应用、监控、全自动化的提取都是我们做的。大家有兴趣可以使用,这是针对电商,如果有电商的一些东西,因为比较简单,扫一扫,注册用户就可以。
我抛砖引玉讲到这儿,谢谢大家!