当前位置:大数据数据分析 → 正文

实时数据分析将面临哪些问题和挑战?

责任编辑:cres 作者:HERO编译 |来源:企业网D1Net  2018-08-29 11:00:54 原创文章 企业网D1Net

行业媒体Industry Outlook与Ajay Dholakia博士就组织如何实施和使用实时分析来开展业务进行了探讨与分析。Ajay是联想数据中心集团(DCG)的首席工程师,致力于开发大数据、分析、人工智能、医疗保健领域的客户解决方案,并利用物联网(IoT)和区块链等新兴技术推动解决方案开发的新项目。在其超过25年的职业生涯中,领导了各种研究、技术、产品和解决方案开发以及业务和技术战略项目。Ajay目前也是联想DCG大数据和人工智能解决方案的首席架构师。
 
Industry Outlook:如今,很多讨论都集中在大量的实时数据及其为企业提供的价值上。但是所有这些数据都需要处理才能产生有用的见解。 IT组织在应对大数据挑战时必须解决哪些最常见的硬件和软件挑战?
 
Ajay Dholakia:在硬件和软件层面,每个元素必须设计为以不同方式接收数据。随着实时和批处理模式分析的普及,提供服务级别协议(SLA)的需求推动了硬件设计和软件开发的新要求。但是,只是升级硬件和/或软件可能不足以实现企业可用的所有数据的全部价值。
 
Industry Outlook:为了应对数据的巨大增长,出现了哪些主要的架构模式?
 
Ajay Dholakia:在开发应用程序以匹配数据的种类、数量和速度,而不是将数据强制转换为快速变得难以处理的结构的意义上,可以将一类新的体系结构模式称为“以数据为中心”。以数据为中心的架构必须解决数据提取、聚合、清理、验证、集成、存储、分析,以及最终使用的挑战。这就是数据从源头流出的方式:从存储后的信息变为基于最新分析的洞察力,最终实现为企业中的目标操作驱动行动的决策。这个数据处理流程或管道的每个阶段都需要部署一些新模式。
 
Industry Outlook:以数据为中心的新视角如何重塑数据中心架构?
 
Ajay Dholakia:从以应用程序为中心转向以数据为中心的观点正在迫使对数据中心架构进行一些重塑。思维方式的主要转变是在任何可用的地方访问、收集、处理和使用数据。因此,数据中心架构必须灵活地连接可能在传统物理边界之外的数据源和存储库。它还意味着应用程序必须具有灵活性,以便它们可以在数据所在的位置运行,这反过来意味着应用程序元素需要API驱动的灵活设计。
 
Industry Outlook:所有的处理都必须在中央数据中心进行吗?还是以分布式、以边缘为中心的数据中心会变得更加普遍?
 
Ajay Dholakia:鉴于大多数传统数据中心都是数据处理的核心,它们是添加以数据为中心的新功能的自然起点。但这种方法存在严重的局限性。企业必须充分理解以数据为中心的方法,并掌握“数据引力”的概念。换句话说,数据倾向于保留其来源和/或收集的地方。它是新兴的以边缘为中心的数据中心背后的驱动力。涉及延迟、响应时间、安全性、数据主权,以及数据位置的服务等级协议(SLA)都将传统的中央数据中心扩展和传播到一系列连接的以边缘为中心的性能优化数据中心(POD)中,这些性能优化数据中心(POD)可以在本地处理数据,同时仍将其传递到中央存储库。
 
Industry Outlook:机器学习对数据分析的影响是什么?是否有必要保持竞争力?
 
Ajay Dholakia:我们将机器学习(ML)视为一种广泛的分析工具集合。虽然许多机器学习(ML)算法已存在多年,但机器学习(ML)工具箱仍在不断扩展新的算法。特别是,深度学习(DL)作为机器学习(ML)的一个子集,正在经历大量的研究活动以及获得各行业的兴趣。
 
Industry Outlook:是否有一个“简单按钮”,用于部署可以处理大量数据负载的存储和处理基础架构?企业在做出架构决策时应该考虑什么?
 
Ajay Dholakia:在这种情况下,“简单按钮”位于架构级别。确保为数据提取、存储和处理提供架构元素,以提供所需的性能、可靠性和可扩展性,这是一个可以开始的地方。根据数据量、种类和速度,数据提取管道必须能够容纳所有数据源,并为批量模式和实时分析提供数据存储。数据存储元素必须分阶段用于结构化、半结构化和非结构化数据,从而随时间的增长实现无缝容量增长。最后,必须提供基于训练模型的机器学习(ML)/深度学习(DL)模型训练和实时推断的数据处理计算能力。在这里,计算集群的硬件加速器和基于可扩展性的动态配置是重要的特性。以这种方式构建,基础设施可以采用与分析工作负载在给定时间所需的一样的大小和规模。
 
Industry Outlook:优化实时数据分析工作流程的基本规则是什么?IT组织可以采用一刀切的方法吗?
 
Ajay Dholakia:尽管一刀切的方法似乎在最初的几个例子中起作用,但固有的低效率和不灵活性将限制整体的潜在价值。一些基本规则包括模块化设计、API驱动元素、在硬件和软件级别加入加速,以及使用相关指标监控服务等级协议(SLA)的能力。
 
Industry Outlook:数据分析的主要机器学习应用程序是什么?它们在不同行业之间有何不同?
 
Ajay Dholakia:基于机器学习(ML)的数据分析应用程序差异很大。例如在金融领域,欺诈检测是一项采用最新机器学习(ML)技术的实时分析任务。这种应用程序的体系结构涉及数据摄取管道、数据存储、用于训练机器学习(ML)模型的批处理模式处理,以及用于在线上部署训练模型的流模式分析。例如,在欺诈检测的情况下,信用卡交易,数百万交易因此需要使用亚秒级窗口进行处理,以声明交易是否应被标记为欺诈。对于运输行业而言,车队管理是一个实时分析用例。对于医疗保健行业来说,各种临床和家庭患者护理可能涉及实时分析。
 
Industry Outlook:评估分析技术是否适合实时数据处理的主要指标是什么?
 
Ajay Dholakia:分析引擎必须提供目标应用程序所需的吞吐量和延迟。因此,他们必须达到响应时间,以便分析的见解具有影响力。此外,分析引擎需要灵活且模块化,并且最好是基于API的,因此它们可以作为微服务添加到目标应用程序中。
 
Industry Outlook:企业如何开始启用机器学习算法来处理实时数据?
 
Ajay Dholakia:企业必须制定一项战略,以实现实时分析的所有要素。设置将数据源连接到分析引擎的数据管道以及分析输出到目标应用程序中的可视化和使用是主要步骤。此外,访问数据存储库和数据科学沙箱将有助于完成体系结构,并允许可变性来解决特定的业务问题。

关键字:数据分析

原创文章 企业网D1Net

x 实时数据分析将面临哪些问题和挑战? 扫一扫
分享本文到朋友圈
当前位置:大数据数据分析 → 正文

实时数据分析将面临哪些问题和挑战?

责任编辑:cres 作者:HERO编译 |来源:企业网D1Net  2018-08-29 11:00:54 原创文章 企业网D1Net

行业媒体Industry Outlook与Ajay Dholakia博士就组织如何实施和使用实时分析来开展业务进行了探讨与分析。Ajay是联想数据中心集团(DCG)的首席工程师,致力于开发大数据、分析、人工智能、医疗保健领域的客户解决方案,并利用物联网(IoT)和区块链等新兴技术推动解决方案开发的新项目。在其超过25年的职业生涯中,领导了各种研究、技术、产品和解决方案开发以及业务和技术战略项目。Ajay目前也是联想DCG大数据和人工智能解决方案的首席架构师。
 
Industry Outlook:如今,很多讨论都集中在大量的实时数据及其为企业提供的价值上。但是所有这些数据都需要处理才能产生有用的见解。 IT组织在应对大数据挑战时必须解决哪些最常见的硬件和软件挑战?
 
Ajay Dholakia:在硬件和软件层面,每个元素必须设计为以不同方式接收数据。随着实时和批处理模式分析的普及,提供服务级别协议(SLA)的需求推动了硬件设计和软件开发的新要求。但是,只是升级硬件和/或软件可能不足以实现企业可用的所有数据的全部价值。
 
Industry Outlook:为了应对数据的巨大增长,出现了哪些主要的架构模式?
 
Ajay Dholakia:在开发应用程序以匹配数据的种类、数量和速度,而不是将数据强制转换为快速变得难以处理的结构的意义上,可以将一类新的体系结构模式称为“以数据为中心”。以数据为中心的架构必须解决数据提取、聚合、清理、验证、集成、存储、分析,以及最终使用的挑战。这就是数据从源头流出的方式:从存储后的信息变为基于最新分析的洞察力,最终实现为企业中的目标操作驱动行动的决策。这个数据处理流程或管道的每个阶段都需要部署一些新模式。
 
Industry Outlook:以数据为中心的新视角如何重塑数据中心架构?
 
Ajay Dholakia:从以应用程序为中心转向以数据为中心的观点正在迫使对数据中心架构进行一些重塑。思维方式的主要转变是在任何可用的地方访问、收集、处理和使用数据。因此,数据中心架构必须灵活地连接可能在传统物理边界之外的数据源和存储库。它还意味着应用程序必须具有灵活性,以便它们可以在数据所在的位置运行,这反过来意味着应用程序元素需要API驱动的灵活设计。
 
Industry Outlook:所有的处理都必须在中央数据中心进行吗?还是以分布式、以边缘为中心的数据中心会变得更加普遍?
 
Ajay Dholakia:鉴于大多数传统数据中心都是数据处理的核心,它们是添加以数据为中心的新功能的自然起点。但这种方法存在严重的局限性。企业必须充分理解以数据为中心的方法,并掌握“数据引力”的概念。换句话说,数据倾向于保留其来源和/或收集的地方。它是新兴的以边缘为中心的数据中心背后的驱动力。涉及延迟、响应时间、安全性、数据主权,以及数据位置的服务等级协议(SLA)都将传统的中央数据中心扩展和传播到一系列连接的以边缘为中心的性能优化数据中心(POD)中,这些性能优化数据中心(POD)可以在本地处理数据,同时仍将其传递到中央存储库。
 
Industry Outlook:机器学习对数据分析的影响是什么?是否有必要保持竞争力?
 
Ajay Dholakia:我们将机器学习(ML)视为一种广泛的分析工具集合。虽然许多机器学习(ML)算法已存在多年,但机器学习(ML)工具箱仍在不断扩展新的算法。特别是,深度学习(DL)作为机器学习(ML)的一个子集,正在经历大量的研究活动以及获得各行业的兴趣。
 
Industry Outlook:是否有一个“简单按钮”,用于部署可以处理大量数据负载的存储和处理基础架构?企业在做出架构决策时应该考虑什么?
 
Ajay Dholakia:在这种情况下,“简单按钮”位于架构级别。确保为数据提取、存储和处理提供架构元素,以提供所需的性能、可靠性和可扩展性,这是一个可以开始的地方。根据数据量、种类和速度,数据提取管道必须能够容纳所有数据源,并为批量模式和实时分析提供数据存储。数据存储元素必须分阶段用于结构化、半结构化和非结构化数据,从而随时间的增长实现无缝容量增长。最后,必须提供基于训练模型的机器学习(ML)/深度学习(DL)模型训练和实时推断的数据处理计算能力。在这里,计算集群的硬件加速器和基于可扩展性的动态配置是重要的特性。以这种方式构建,基础设施可以采用与分析工作负载在给定时间所需的一样的大小和规模。
 
Industry Outlook:优化实时数据分析工作流程的基本规则是什么?IT组织可以采用一刀切的方法吗?
 
Ajay Dholakia:尽管一刀切的方法似乎在最初的几个例子中起作用,但固有的低效率和不灵活性将限制整体的潜在价值。一些基本规则包括模块化设计、API驱动元素、在硬件和软件级别加入加速,以及使用相关指标监控服务等级协议(SLA)的能力。
 
Industry Outlook:数据分析的主要机器学习应用程序是什么?它们在不同行业之间有何不同?
 
Ajay Dholakia:基于机器学习(ML)的数据分析应用程序差异很大。例如在金融领域,欺诈检测是一项采用最新机器学习(ML)技术的实时分析任务。这种应用程序的体系结构涉及数据摄取管道、数据存储、用于训练机器学习(ML)模型的批处理模式处理,以及用于在线上部署训练模型的流模式分析。例如,在欺诈检测的情况下,信用卡交易,数百万交易因此需要使用亚秒级窗口进行处理,以声明交易是否应被标记为欺诈。对于运输行业而言,车队管理是一个实时分析用例。对于医疗保健行业来说,各种临床和家庭患者护理可能涉及实时分析。
 
Industry Outlook:评估分析技术是否适合实时数据处理的主要指标是什么?
 
Ajay Dholakia:分析引擎必须提供目标应用程序所需的吞吐量和延迟。因此,他们必须达到响应时间,以便分析的见解具有影响力。此外,分析引擎需要灵活且模块化,并且最好是基于API的,因此它们可以作为微服务添加到目标应用程序中。
 
Industry Outlook:企业如何开始启用机器学习算法来处理实时数据?
 
Ajay Dholakia:企业必须制定一项战略,以实现实时分析的所有要素。设置将数据源连接到分析引擎的数据管道以及分析输出到目标应用程序中的可视化和使用是主要步骤。此外,访问数据存储库和数据科学沙箱将有助于完成体系结构,并允许可变性来解决特定的业务问题。

关键字:数据分析

原创文章 企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^