当前位置:云计算企业动态 → 正文

AWS云端大数据分析体系正趋完善

责任编辑:jcao 作者:曹建菊 |来源:企业网D1Net  2020-03-29 11:33:00 本文摘自:企业网D1Net

在这个数字化时代,企业的信息和数据流,除了是企业最重要的战略资产之外,更成为企业的血液流淌始终。但数字本身的价值在于从各种不同种类、不同形式的数据里,提炼出真正有用的信息,然后把这些信息变成知识,指导企业的经营与决策。但企业的数字化资产如何才能使用好?

数据孤岛是大数据价值提升的重大障碍

这显然是个难题!呈指数级速度增长的数量存储量,不同的数据来源,数据的多元化,使用者的多元化,甚至各种各样不同的分析工具,都使得真正的大数据很难得到最大程度的利用并获得价值。

以常用的交易型数据库为例,交易型数据库作为底层数据基础,一般会放在ERP、CRM及企业客户的各种业务系统之下,从里面经过整理变成中间层数据仓库,然后再分析展示出商务智能,从而为企业提供一定程度的决策依据。但随着物联网时代到来,数据来源更加多样化,不仅仅只是ERP、CRM及业务系统,各种PC端数据、移动端数据、传感器数据等越来越多,以往从数据库到数据仓库再到商务智能BI的数据处理之路造成的数据孤岛,已成为提升大数据价值的极大障碍。

数据湖是大数据时代的必然

最近几年出现的数据湖方案,因为能有效解决传统数据仓库存在的数据孤岛问题,同时也能够兼容传统数据仓库的数据分析方法,而且特别适合与机器学习结合,做出更多预测性的分析。

数据湖和传统数据仓库有以下区别:数据仓库是在数据库的基础上把数据经过分类、提炼、整理好后放在数据仓库,小型的数据仓库最早以前也曾被称为数据集市,部门级的数据可以放在数据集市里。数据仓库一般是企业级别,但数据仓库的方法对数据有非常严格的要求,必须是能够被识别的固定好格式的数据,整理各种数据便需要极长的时间,无法适应现在数据时刻处于快速变化中的环境。而数据湖则顾名思义,就是把所有数据像湖水一样先蓄在这个湖里,也就是形成了一个中心数据存储的容器,这个容器可以存无论是格式化的还是非格式化的各种各样的数据,而且从数据量上也非常容易实现对数据量的快速缩放,并且对这些数据可以进行查询、分析。换言之,数据湖就是一个集中式的、安全的存储库,以云计算技术和基础设施为依托,允许企业或机构以任意规模,存储所有的结构化和非结构化数据。客户可以按原样存储数据,无需先对数据进行结构化处理;可以对这些数据运行不同类型的分析,从数据仪表板和可视化数据展现,到大数据处理、实时分析和机器学习,指导客户做出更好的决策。

因此数据湖有如下两大特点:

第一, 数据不限形态,可以存储原始的自然的数据,可以是结构化的,也可以是非结构化的。

第二, 可快速缩放存下海量的数据,并具备高可用,高持久、安全、合规等特性。

AWS推出两大数据分析服务AWS Glue和Amazon Athena

由于数据湖的天然优势,近年来围绕数据湖和大数据分析生态,业界发展出包括Hadoop、MapReduce、Spark等在内的一系列开源框架和组件,为组织搭建平台和创新应用带来了丰富的工具和方法。云服务商将数据湖技术引入拓展其服务范围,更是顺理成章。

近期,AWS宣布,在西云数据运营的AWS中国(宁夏)区域推出两个重磅的数据分析服务AWS Glue和Amazon Athena,以完善其中国区域的数据湖解决方案。前者可以简化数据提取、转换和加载过程;后者可以通过通用的结构化查询语言,直接在数据湖中进行交互式数据查询。

具体而言,AWS Glue是一种全托管的数据提取、转换和加载(ETL)服务及元数据目录,实现了数据分析准备工作的自动化,让客户从准备数据到开始分析的时间由几个月缩短到几分钟。由于AWS Glue是无服务器服务,客户在执行ETL任务时,只需要为他们所消耗的计算资源付费。Amazon Athena则是一种交互式查询服务,它让客户可以使用标准SQL语言、轻松分析Amazon S3中的数据,几秒钟内便可获得查询结果。

AWS云端大数据分析体系更趋完善

至此,AWS的云端大数据分析体系便趋于完善。既有面向大数据处理的Amazon EMR,用户可在AWS上轻松运行Spark、Hadoop、Presto、Hbase等大数据分析;也拥有对应实时数据分析这一分析框架的重要组成部分Amazon Kinesis,可支持用户轻松地实时收集、处理并分析视频和流数据;数据湖则可以与机器学习和人工智能结合,通过Amazon SageMaker开展更多自动化的预测性分析,充分释放大数据的潜能。

上述产品及解决方案给合涵盖了数据移动、数据存储、数据湖、分析和机器学习五大维度,可针对各类现代应用和大数据分析场景,让各行各业的用户都在AWS上快速构建,通过各种产品方案组合匹配需求。

茄子快传是一家全球化的互联网科技公司,累计有18亿用户。茄子快传搭建了一个数字内容连接入口,帮助全球200多个国家和地区的用户获取优质数字内容。茄子快传数据运营负责人何诚表示,“茄子快传的数据量大,分析维度多,业务也非常复杂,所以经常需要多维度多颗粒度的高并发分析,AWS的分析工具很好地满足了我们日常的数据提取和分析需求。使用Amazon Athena,我们可以轻松地运行交互式查询,分析数据,不必构建和部署额外的集群。同时,我们运行新数据分析所需的时间缩短了30%,大幅减少了成本与运维方面的风险。”

AWS首席云计算企业战略顾问张侠博士指出:“Amazon Athena和AWS Glue服务将由西云数据运营的AWS中国(宁夏)区域推出, Athena完全不需要管理基础设施,任何能够编写SQL查询的人都能以高性价比的方式快速分析他们在Amazon S3中的数据。而随着AWS Glue的正式上线,客户可以轻松地从任意多的数据源传输和处理数据,整合数据到数据湖,并且可以选用多种AWS分析服务,迅速开始分析所有数据。这极大的加快了AWS中国客户对数据的响应需求。”

关键字:数据分析云计算AWS

本文摘自:企业网D1Net

x AWS云端大数据分析体系正趋完善 扫一扫
分享本文到朋友圈
当前位置:云计算企业动态 → 正文

AWS云端大数据分析体系正趋完善

责任编辑:jcao 作者:曹建菊 |来源:企业网D1Net  2020-03-29 11:33:00 本文摘自:企业网D1Net

在这个数字化时代,企业的信息和数据流,除了是企业最重要的战略资产之外,更成为企业的血液流淌始终。但数字本身的价值在于从各种不同种类、不同形式的数据里,提炼出真正有用的信息,然后把这些信息变成知识,指导企业的经营与决策。但企业的数字化资产如何才能使用好?

数据孤岛是大数据价值提升的重大障碍

这显然是个难题!呈指数级速度增长的数量存储量,不同的数据来源,数据的多元化,使用者的多元化,甚至各种各样不同的分析工具,都使得真正的大数据很难得到最大程度的利用并获得价值。

以常用的交易型数据库为例,交易型数据库作为底层数据基础,一般会放在ERP、CRM及企业客户的各种业务系统之下,从里面经过整理变成中间层数据仓库,然后再分析展示出商务智能,从而为企业提供一定程度的决策依据。但随着物联网时代到来,数据来源更加多样化,不仅仅只是ERP、CRM及业务系统,各种PC端数据、移动端数据、传感器数据等越来越多,以往从数据库到数据仓库再到商务智能BI的数据处理之路造成的数据孤岛,已成为提升大数据价值的极大障碍。

数据湖是大数据时代的必然

最近几年出现的数据湖方案,因为能有效解决传统数据仓库存在的数据孤岛问题,同时也能够兼容传统数据仓库的数据分析方法,而且特别适合与机器学习结合,做出更多预测性的分析。

数据湖和传统数据仓库有以下区别:数据仓库是在数据库的基础上把数据经过分类、提炼、整理好后放在数据仓库,小型的数据仓库最早以前也曾被称为数据集市,部门级的数据可以放在数据集市里。数据仓库一般是企业级别,但数据仓库的方法对数据有非常严格的要求,必须是能够被识别的固定好格式的数据,整理各种数据便需要极长的时间,无法适应现在数据时刻处于快速变化中的环境。而数据湖则顾名思义,就是把所有数据像湖水一样先蓄在这个湖里,也就是形成了一个中心数据存储的容器,这个容器可以存无论是格式化的还是非格式化的各种各样的数据,而且从数据量上也非常容易实现对数据量的快速缩放,并且对这些数据可以进行查询、分析。换言之,数据湖就是一个集中式的、安全的存储库,以云计算技术和基础设施为依托,允许企业或机构以任意规模,存储所有的结构化和非结构化数据。客户可以按原样存储数据,无需先对数据进行结构化处理;可以对这些数据运行不同类型的分析,从数据仪表板和可视化数据展现,到大数据处理、实时分析和机器学习,指导客户做出更好的决策。

因此数据湖有如下两大特点:

第一, 数据不限形态,可以存储原始的自然的数据,可以是结构化的,也可以是非结构化的。

第二, 可快速缩放存下海量的数据,并具备高可用,高持久、安全、合规等特性。

AWS推出两大数据分析服务AWS Glue和Amazon Athena

由于数据湖的天然优势,近年来围绕数据湖和大数据分析生态,业界发展出包括Hadoop、MapReduce、Spark等在内的一系列开源框架和组件,为组织搭建平台和创新应用带来了丰富的工具和方法。云服务商将数据湖技术引入拓展其服务范围,更是顺理成章。

近期,AWS宣布,在西云数据运营的AWS中国(宁夏)区域推出两个重磅的数据分析服务AWS Glue和Amazon Athena,以完善其中国区域的数据湖解决方案。前者可以简化数据提取、转换和加载过程;后者可以通过通用的结构化查询语言,直接在数据湖中进行交互式数据查询。

具体而言,AWS Glue是一种全托管的数据提取、转换和加载(ETL)服务及元数据目录,实现了数据分析准备工作的自动化,让客户从准备数据到开始分析的时间由几个月缩短到几分钟。由于AWS Glue是无服务器服务,客户在执行ETL任务时,只需要为他们所消耗的计算资源付费。Amazon Athena则是一种交互式查询服务,它让客户可以使用标准SQL语言、轻松分析Amazon S3中的数据,几秒钟内便可获得查询结果。

AWS云端大数据分析体系更趋完善

至此,AWS的云端大数据分析体系便趋于完善。既有面向大数据处理的Amazon EMR,用户可在AWS上轻松运行Spark、Hadoop、Presto、Hbase等大数据分析;也拥有对应实时数据分析这一分析框架的重要组成部分Amazon Kinesis,可支持用户轻松地实时收集、处理并分析视频和流数据;数据湖则可以与机器学习和人工智能结合,通过Amazon SageMaker开展更多自动化的预测性分析,充分释放大数据的潜能。

上述产品及解决方案给合涵盖了数据移动、数据存储、数据湖、分析和机器学习五大维度,可针对各类现代应用和大数据分析场景,让各行各业的用户都在AWS上快速构建,通过各种产品方案组合匹配需求。

茄子快传是一家全球化的互联网科技公司,累计有18亿用户。茄子快传搭建了一个数字内容连接入口,帮助全球200多个国家和地区的用户获取优质数字内容。茄子快传数据运营负责人何诚表示,“茄子快传的数据量大,分析维度多,业务也非常复杂,所以经常需要多维度多颗粒度的高并发分析,AWS的分析工具很好地满足了我们日常的数据提取和分析需求。使用Amazon Athena,我们可以轻松地运行交互式查询,分析数据,不必构建和部署额外的集群。同时,我们运行新数据分析所需的时间缩短了30%,大幅减少了成本与运维方面的风险。”

AWS首席云计算企业战略顾问张侠博士指出:“Amazon Athena和AWS Glue服务将由西云数据运营的AWS中国(宁夏)区域推出, Athena完全不需要管理基础设施,任何能够编写SQL查询的人都能以高性价比的方式快速分析他们在Amazon S3中的数据。而随着AWS Glue的正式上线,客户可以轻松地从任意多的数据源传输和处理数据,整合数据到数据湖,并且可以选用多种AWS分析服务,迅速开始分析所有数据。这极大的加快了AWS中国客户对数据的响应需求。”

关键字:数据分析云计算AWS

本文摘自:企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^