打造云上统一的数据基础底座让大数据与机器学习互相成就

责任编辑：shjiaz

作者：查士加

2022-05-10 17:49:49

来源：企业网D1Net

原创

亚马逊云科技推出“云、数、智三位一体”的大数据与机器学习融合服务组合，帮助企业推进大数据和机器学习的融合，打通两个领域的数据治理底层服务，将机器学习由实验转为规模化落地实践，为企业节本增效提供业务发展的新动力。

数据是企业的一项重要资产，这一点在业界已然达成共识，但是很多企业并没有将数据的价值充分利用。福布斯调研报告显示，如果企业转型成为一家数据驱动型公司，那么在其收入增加20%的同时，成本会减少30%。实际上，越来越多的企业看到了数据驱动型组织突出的竞争力，正在通过业务产生的数据反向驱动企业战略，通过融合大数据和机器学习能力提升业务产出，以充分发挥数据的价值。

IDC报告显示，到2023年，AI系统支出将达到979亿美元，与2019年相比增加2.5倍。据Gartner分析预测，到2024年，75%的企业将把机器学习技术真正用于生产，为业务赋能。

在近日的媒体沟通会上，亚马逊云科技大中华区产品部总经理陈晓建表示：“很多企业在业务创新中往往面临一个困境，有大量的数据和分析技术储备，也尝试了很多先进的机器学习模型，但就是很难有实际的业务产出，究其原因，往往缺乏云上统一的数据基础底座。”为此，亚马逊云科技推出“云、数、智三位一体”的大数据与机器学习融合服务组合，帮助企业推进大数据和机器学习的融合，打通两个领域的数据治理底层服务，将机器学习由实验转为规模化落地实践，为企业节本增效提供业务发展的新动力。

亚马逊云科技大中华区产品部总经理陈晓建

大数据和机器学习融合的趋势与价值

从用户逻辑来看，大数据和机器学习技术互相成就，大数据技术所提供的能力是机器学习建模的基础，而机器学习为大数据技术提供更高智能，为业务带来更多价值。但是从技术发展的趋势来看，这两项技术走的却是完全不同的路：大数据技术的侧重点在于如何实现海量数据的采集、清洗和查询等能力，但是机器学习更注重对算法本身的优化。

在机器学习领域，算法工程师们津津乐道的是神经网络结构、网络层数、超参数的优化等等，他们往往对数据采集、处理和优化不是非常看重。但是，一个算法最终能否产生好的效果，不光取决于算法结构的调参，对数据质量的优化同样重要。当然，在项目实施的过程中，仅依靠传统的大数据技术无法全方位提供充足的数据见解，仍需要机器学习模型的能力补充，因此越来越多的数据项目要融合大数据和机器学习两者的能力。

亚马逊云科技大中华区产品部技术专家团队总监王晓野在演讲中提到：“大数据与机器学习的融合代表着“智能湖仓”架构的深度智能能力再升级。绝大多数机器学习项目的数据源受制于大数据平台的数据提供能力，但是由于数据在企业中的发展阶段不同，大数据团队往往并不能向机器学习团队提供有效的数据。”

结合当前的发展趋势，亚马逊云科技认为：企业要重塑数据洞察，一定是将数据(大数据技术)和智能(机器学习技术)进行融合和统一。这种融合带来的价值显而易见：既能更加高效地围绕数据构建和实施项目，使得数据在两者之间无缝流转，又能让成员快速具备相关能力，推动企业的数字化转型迈向新的高度。

数据分析和机器学习融合的三大难题

陈晓建提到，数据分析和机器学习融合并非易事，必须解决三个问题：

第一：大数据和机器学习分而治之，数据及技术孤岛制约敏捷迭代。例如车企数据产生于生产制造和行车两个环节，通常是由制造部门和运营部门分别负责，被存储于不同的数据仓库里。机器学习要从不同的业务部门拿到数据，同时还要花费时间理解这些数据背后的定义、原因和算法，这往往是额外的负担。

第二：数据处理能力不足，优秀的算法要想发挥其真正价值，离不开大量业务数据的不断迭代。而现实情况是，很多机器学习团队不具备处理海量数据规模的能力，如果模型开发成功后，没有海量的运营数据支撑，往往无法达到预期的业务目标。

第三：数据分析人员的参与度低。现实情况经常是，模型在实验环节效果良好，但在实际使用中却不尽人意，因为实验环境只是对真实环境的简单模拟，而生产环境则要复杂得多。如果算法不给力，系统不给力，数据不健全，导致无法反复迭代，一定难以取得好的成效。

“云、数、智三位一体”的大数据和机器学习融合服务组合

为了帮助企业破解上述困境，亚马逊云科技在其“智能湖仓”架构的基础之上推出 “云、数、智三位一体”的大数据和机器学习融合服务组合，通过在云中构建统一的数据治理底座，提供数据分析服务保障机器学习的生产实践，实现机器学习反向赋能智能化数据分析，促进云、数、智三者的统一与融合，帮助客户推进机器学习项目的落地。

在云中打造统一的数据基础底座

陈晓建强调：“企业实现数智融合最有效的途径是在云中打造统一的数据基础底座，如数据质量、数据权限、数据开发、数据工作流、可视化。在此基础之上，大数据和机器学习应该是高效充分的双向循环，双剑合璧为企业发展提供创新引擎。”云中统一的数据治理底座不仅能提升大数据和机器学习的高效融合，还能减少重复构建的工作，并且显著降低成本。

亚马逊云科技能帮助客户构建统一的数据治理底座，构建三大核心能力：实现大数据和机器学习的数据共享，数据权限的统一管控，以及两者统一的开发和流程编排。

一是统一数据共享：建立统一的数据采集、数据存储、数据质量的标准，能够打破数据孤岛，让数据在不同系统间流动，实现数据的资产化;

二是统一权限管控：只有具备完善的细粒度的权限控制能力，才能放心的让数据在不同的业务系统之间流转;

三是统一开发及流程编排：融合端到端的大数据和机器学习任务，能够提升整体的开发效率，确保数据从开始采集到算法落地更好地为业务所用。

Amazon Lake Formation作为“智能湖仓”架构的核心功能，实现了数据网格跨部门的数据资产共享，以及基于单元格的最细粒度的权限控制机制，支持跨部门、跨地域，允许不同组织内的机构共享同一个元数据，可让智能营销项目或新项目轻松地了解自身以及其他部门拥有哪些数据可以为已所用。

通过Amazon SageMaker Studio统一的开发界面，数据科学家或数据工程师可一站式地完成数据开发、模型开发及相关的生产任务，该服务基于多种专门构建的服务，如交互式查询服务Amazon Athena、云上大数据平台Amazon Elastic MapReduce (Amazon EMR)、云数据仓库服务Amazon Redshift、Amazon SageMaker等，为大数据和机器学习提供统一的开发平台。

为机器学习提供生产级的数据处理能力

算法从实验走向实践，打磨成生产级业务可用的算法，最关键的一步是具备海量的数据处理能力。为此，亚马逊云科技提供多种灵活可扩展、专门构建的大数据服务，帮助客户进行复杂的数据加工及处理，应对数据规模的动态变化，优化数据质量。

陈晓建强调：企业要想具备生产级的数据处理能力，一是通过底层大数据平台的开放引擎解决数据的开放问题，能够对多元和异构的数据进行处理;二是灵活的平台，也就是具备云的弹性能力，能够根据业务负载对底层资源进行灵活的弹性伸缩;三是优化数据质量，通过采集、清洗、查询等大数据技术能力，为机器学习提供高质量的数据源。

据悉，Amazon Athena能够对支持多种开源框架的大数据平台(包括Amazon EMR、高性能关系数据库Amazon Aurora、NoSQL数据库服务Amazon DynamoDB、Amazon Redshift)等多种数据源进行联邦查询，快速完成机器学习建模的数据加工。而以Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和 Amazon EMR 为代表的无服务器分析能力，可以让客户无需配置、扩展或管理底层基础设施，即可轻松地处理任何规模的数据，为机器学习项目提供兼具性能和成本效益的特征数据准备。

让数据分析智能化，赋能业务人员探索创新

通过智能数据分析，能够进一步统一技术和业务的价值，让研发和业务之间进行充分合作。AI机器学习能够丰富智能分析场景，更好地发挥数据的价值。亚马逊云科技不断提供更加智能的数据分析服务，赋能业务人员通过BI可视化工具方便地调用算法，并进一步检验算法效果;甚至让业务人员根据自身需求通过数据自己训练算法。

例如，在日常分析工具中集成机器学习模型预测能力，其中深度集成机器学习Amazon SageMaker模型预测能力的Amazon QuickSight 、在分析结果中添加基于模型预测的Amazon Athena ML，可帮助用户使用熟悉的技术，甚至通过自然语言来使用机器学习。亚马逊云科技还提供如Amazon Redshift ML、可视数据准备工具Amazon Glue DataBrew、零代码化的机器学习模型工具 Amazon SageMaker Canvas等服务，让业务人员探索机器学习建模。

王晓野提到：在全球追求数据驱动企业创新路径的诸多企业中，宝马集团是其中之一，它基于大数据和机器学习融合的共同底座，通过无服务器的大数据分析和机器学习灵活的扩展能力，让业务人员实现自助式建模。宝马集团的第一个项目通过Cloud Data Hub构建门户网站的形式，将元数据在网站中共享;与此同时利用亚马逊云科技Amazon Alexa和Amazon Glue等无服务器的分析工具，为业务人员提供数据处理能力，探索业务创新。

在对成功的机器学习项目规模化复制的过程中，宝马集团采用基础架构即代码的方式，将一个成功的机器学习项目，从数据的预处理、加工清洗，到机器学习的模型训练再到上线，完全通过代码方式实现模板化，供之后的机器学习项目复用。值得一提的是，宝马也在创新性的使用Amazon SageMaker Canvas以及Amazon SageMaker提供的自动机器学习能力，让业务人员能够自助式的从Cloud Data Hub上取得数据，进行机器学习训练。

最后，王晓野强调：“机器学习和大数据的融合不是单纯依靠技术就能解决的问题，‘授人以鱼’不如‘授人以渔’，因此亚马逊云科技通过面向快速算法原型的数据实验室的应用科学家、面向生产精度可用的模型训练指导的机器学习解决方案实验室，以及提供端到端咨询及交付的专业服务团队，通过这些不同分工的专家，和客户肩并肩，帮助客户探索机器学习与大数据融合时的挑战，共同学习优秀企业在数据驱动转型成功路上宝贵的经验。”

云计算大数据机器学习数据基础底座