深度学习落地探讨 Amazon SageMaker有望加速

责任编辑：jcao 作者：曹建菊 |来源：企业网D1Net 2020-05-20 11:18:03 本文摘自：企业网D1Net

在上周企业网D1Net举办的中国能源化工行业数字化转型线上直播中，中石化集团信息和数字化管理部副总经理李剑锋的AI数字助理“李小帅”一出来就“惊艳”了全场。“李小帅”是李剑锋博士精心培育的数字助理，“李小帅”幽默地说“我和李剑锋博士唯一不同是，他在中石化领工资，而我则全部是义务劳动。“李小帅”代替李剑锋博士进行了40分钟口齿清晰、逻辑清楚的全程直播演讲。

以机器学习为代表的许多人工智能技术正在快速成熟

这两年，我们总是被各种各样的AI应用惊艳到!AI，已经完全融入到了我们的工作与生活，即便最保守的企业在当今都无法忽视人工智能的作用。根据IDC的数据，当前40%的企业数字化转型项目都会运用人工智能。IDC预计，到2023年中国人工智能市场规模将达到979亿美元，2018-2023年复合增长率为28.4%。

根据Gartner发布的2019人工智能新技术成熟度曲线，以机器学习为代表的许多人工智能的技术正在快速成熟。

机器学习：受限于应用场景、技术门槛与实施难度

但我们也看到，机器学习技术之所以几十年一直没有得到爆发，除了以往应用场景受限以外，也与机器学习本身的技术积累门槛与实施的难度密切相关。应用场景与技术积累门槛是公认的难题，下面仅以实施难度作为重点讨论。

机器学习的实施是一项非常复杂的工作，涉及大量试错及专业技能。开发者和数据科学家首先必须对数据进行可视化、转换和预处理，这些数据才能变成算法可以使用的格式，用以训练模型。即使是简单的模型，企业也需要花费庞大的算力和大量的训练时间，并可能需要招聘专门的团队来管理包含多台GPU服务器的训练环境。从选择和优化算法，到调节影响模型准确性的数百万个参数，训练模型的所有阶段都需要大量的人力和猜测。然后，在应用程序中部署训练好的模型时，客户又需要另一套应用设计和分布式系统方面的专业技能。并且，随着数据集和变量数的增加，模型也需要变化，客户又必须一次又一次地重新训练模型，让模型从新的信息中学习和进化。所有这些工作都需要大量的专业知识，并耗费庞大的算力、数据存储和时间成本。而且，由于没有集成化的工具用于整个机器学习的工作流，机器学习模型的传统开发方式是复杂、繁复和昂贵的。

大宇无限技术副总裁刘克东对此就深有感触。刘克东说：“在大宇无限的产品中实现视频内容的在线推荐，对我们的开发团队来说是一个巨大的挑战。构建机器学习系统的整个流程极为复杂，需要大量的开发者耗费很长的时间才有可能完成。”大宇无限是一家专门从事移动应用程序开发的公司，主要为中东、东南亚和拉丁美洲等新兴市场提供移动短视频服务。

制约因素：人才、技术与成本

从发展现状来看，目前制约以机器学习为代表的人工智能的因素主要有三个：

一是掌握人工智能专业知识的人才不足;

二是构建和扩展人工智能的技术产品有难度;

三是在生产经营中部署人工智能应用费时且成本高。最终导致缺乏低成本、易使用、可扩展的人工智能产品和服务。

换个角度理解，也就是如果能解决上述难题，将能加速人工智能应用的落地。近日亚马逊云服务(AWS)宣布推出Amazon SageMaker， Amazon SageMaker是一项完全托管的服务，可以帮助开发者和数据科学家快速地规模化构建、训练和部署机器学习 (ML) 模型。

Amazon SageMaker：可快速构建、训练和部署的机器学习托管服务

据AWS首席云计算企业战略顾问张侠博士介绍：Amazon SageMaker消除了机器学习过程中各个步骤的繁重工作，通过预置的Notebook、针对PB级数据集优化的常用算法，以及自动模型调优，AmazonSageMaker大大降低了模型构建和训练的难度。并且，Amazon SageMaker显著简化和加快了模型训练过程，可以通过自动提供和管理基础设施来训练模型和运行推理。同时，Amazon SageMaker最近宣布了多项重要功能和高级特性，让客户能够更轻松地构建、训练、调优和部署机器学习模型。包括：面向机器学习的集成开发环境(IDE)、弹性笔记本、实验管理、调试与分析、自动构建模型、概念漂移检测等等。这些功能封装在首个面向机器学习的集成开发环境Amazon SageMaker Studio中。集成开发环境 (IDE) 是当前IT界一个重要的概念。

以图神经网络(GNN)部署为例：DGL (Deep Graph Library) 图神经网络框架是由AWS上海人工智能研究院开发的一个开源代码库，旨在简化图神经网络的实现和部署。DGL有助于提高基于GNN的推荐、欺诈检测和药物发现等系统的预测准确性。当前，尽管GNN在研究中显示出了诱人的前景，但是它们的实际应用却非常有限，这是因为需要复杂的基础设施来训练大型图数据，并且缺乏可靠的、特定领域的模型。开发GNN需要在具有数百万个节点的的图上查找和训练，构建和维护执行如此训练所需的计算基础设施非常耗时。Amazon SageMaker的DGL支持，消除了打包软件依赖项、构建基础设施和寻找已验证模型的负担。这样，开发者可以在数小时而不是数周或数月内测试和部署GNN。AWS深度学习容器打包了所有软件依赖项，而且Amazon SageMaker API自动设置和扩展了训练图所需的基础设施。有了已验证模型的打包库，开发者可以立即测试最先进的GNN模型，并将它们集成到应用程序中。

大宇无限技术副总裁刘克东表示：“Amazon SageMaker极大地简化了机器学习系统的构建、训练和部署流程，使我们无需构建基础设施，我们的算法工程师只需为Amazon SageMaker准备数据，仅用了三个月的时间就从零完成了整个系统的建设并承受了实际用户访问的压力。”

AWS全方位支持机器学习

实际上，Amazon SageMaker只是AWS机器学习解决方案的一个层面。AWS提供的机器学习解决方案是一个包括三层的服务堆栈。Amazon SageMaker是其中间层。在这一层，主要通过Amazon SageMaker这一完全托管的服务，消除机器学习过程中的繁重工作，让开发高质量模型变得更加轻松。

三层服务堆栈的底层，为想要自己构建算法或开发新框架的客户提供灵活选择，客户可以选择使用TensorFlow、PyTorch、Apache MXNet、Chainer、Gluon、Horovod和Keras等机器学习框架。在这一层，AWS 专注于性能、灵活性，降低成本，以便任何用户都可以使用最新的基础设施，对多种框架进行试验。借助AWS，客户可以访问针对机器学习的、最强大的 GPU 实例，应对最苛刻的应用场景。

在三层服务堆栈的顶层，AWS提供了训练好的人工智能服务，这些服务主要解决与人类认知相关的典型问题。例如，计算机视觉方面的服务，可以识别图像或视频中的对象、人员、文本、场景、活动和不安全或不适宜的内容。个性化推荐服务可以从库存中向消费者推荐多种产品和服务。客户可以直接在其应用中调用AWS提供的这些人工智能服务，而无需关注服务背后的机器学习模型。

AWS也可根据不同类型客户的需求，提供了全面的机器学习解决方案。

据悉，Amazon SageMaker已由西云数据运营的AWS中国 (宁夏) 区域和光环新网运营的AWS中国(北京)区域正式上线运营。

关键字：Amazon