当前位置:存储行业动态 → 正文

AWS上的计算和存储服务

责任编辑:zsheng |来源:企业网D1Net  2018-10-31 10:09:57 本文摘自:搜狐新闻

AWS是个很有意思的、经过体系化思考的生态系统,最近看了一下跟大数据相关的几个AWS服务:S3, Athena, Redshift, EMR, Glue等等。这里从数据存储和计算引擎的角度分析一下AWS的这几个服务。

拿马老板的话说这是个DT的时代,DT时代什么最重要? 当然是数据了。但是数据本身并不会带来价值,从数据里面得到的对业务的洞见才是。为了要能从数据中获得洞见,我们要把数据保存下来对数据进行各种加工、处理、分析、生成报表等等,这就涉及到了数据存储和计算。

在开源界大数据存储的事情标准是 HDFS, 计算引擎则比较丰富: MapReduce, Spark, Flink等等,随着服务器间带宽越来越大,特别是400Gbps网络的出现,存储和计算分离越来越成为趋势。 这样的好处很多,比如:

· 一份数据不用因为计算引擎的不同而需要复制、搬运到多个地方,节省存储和计算成本。

· 存储和计算分离之后,存储跟计算可以各自发展自己的极致,一个小的模块比大的模块更容易产生创新。

· 存储和计算分离之后,我们可以根据不同场景选择不同的引擎,而不需要绑定到一个特定的引擎。

而在AWS的世界里,S3(Simple Storage Service)某种程度上扮演了HDFS的角色,因为它能存储海量的数据,还足够便宜。而计算引擎的服务则有:Athena, Redshift, EMR等等。

存储

S3是AWS上的文件存储系统,它支持对海量的数据进行存储,从AWS官网对它的描述就可以看出它有多霸气:

Amazon Simple Storage Service (Amazon S3) is storage for the Internet. You can use Amazon S3 to store and retrieve any amount of data at any time, from anywhere on the web.

三个Any: Any Amount, Any Time, Any Where, 太霸气了。一般来说用户会把那些不常用的冷数据保存到S3上面。

计算引擎

先说说Athena。AWS对Athena的定位是一个”Query Service”, 它主要针对S3上存储的数据进行即席查询,它是一个Serverless的服务,你不需要去维护一个集群,你只需要基于你的S3的数据定义一个table,然后就可以利用ANSI SQL对这个“表”(其实就是S3)上的数据进行各种分析查询了。不过Amazon提供的Web界面真的是挺朴素的,跟我们公司内部做的数据查询工具相比太朴素了:

Athena的朴素页面

之前看过Google BigQuery的查询界面,也是类似这样的,非常的朴素。我想这里的原因可能在于Amazon、Google这些国外的技术大公司不想投入太多精力在偏页面端的用户体验优化上,用户如果想要更好看更好用的查询界面让用户自己基于Athena的SDK自己去开发。

Redshift是一个基于PostgreSQL 8.0.2的一个数据仓库的解决方案,跟Athena相比,它更像传统的数仓,因为你需要把数据从外部加载到Redshift里面来。它不是一个Serverless的服务,你需要维护一个集群。Redshift Spectrum是Redshift之上更高阶的功能,它支持查询S3上的数据,而且可以把S3上的数据与Redshift里面的数据进行JOIN -- 部分覆盖了Athena的功能。

关键字:服务存储计算AWS

本文摘自:搜狐新闻

x AWS上的计算和存储服务 扫一扫
分享本文到朋友圈
当前位置:存储行业动态 → 正文

AWS上的计算和存储服务

责任编辑:zsheng |来源:企业网D1Net  2018-10-31 10:09:57 本文摘自:搜狐新闻

AWS是个很有意思的、经过体系化思考的生态系统,最近看了一下跟大数据相关的几个AWS服务:S3, Athena, Redshift, EMR, Glue等等。这里从数据存储和计算引擎的角度分析一下AWS的这几个服务。

拿马老板的话说这是个DT的时代,DT时代什么最重要? 当然是数据了。但是数据本身并不会带来价值,从数据里面得到的对业务的洞见才是。为了要能从数据中获得洞见,我们要把数据保存下来对数据进行各种加工、处理、分析、生成报表等等,这就涉及到了数据存储和计算。

在开源界大数据存储的事情标准是 HDFS, 计算引擎则比较丰富: MapReduce, Spark, Flink等等,随着服务器间带宽越来越大,特别是400Gbps网络的出现,存储和计算分离越来越成为趋势。 这样的好处很多,比如:

· 一份数据不用因为计算引擎的不同而需要复制、搬运到多个地方,节省存储和计算成本。

· 存储和计算分离之后,存储跟计算可以各自发展自己的极致,一个小的模块比大的模块更容易产生创新。

· 存储和计算分离之后,我们可以根据不同场景选择不同的引擎,而不需要绑定到一个特定的引擎。

而在AWS的世界里,S3(Simple Storage Service)某种程度上扮演了HDFS的角色,因为它能存储海量的数据,还足够便宜。而计算引擎的服务则有:Athena, Redshift, EMR等等。

存储

S3是AWS上的文件存储系统,它支持对海量的数据进行存储,从AWS官网对它的描述就可以看出它有多霸气:

Amazon Simple Storage Service (Amazon S3) is storage for the Internet. You can use Amazon S3 to store and retrieve any amount of data at any time, from anywhere on the web.

三个Any: Any Amount, Any Time, Any Where, 太霸气了。一般来说用户会把那些不常用的冷数据保存到S3上面。

计算引擎

先说说Athena。AWS对Athena的定位是一个”Query Service”, 它主要针对S3上存储的数据进行即席查询,它是一个Serverless的服务,你不需要去维护一个集群,你只需要基于你的S3的数据定义一个table,然后就可以利用ANSI SQL对这个“表”(其实就是S3)上的数据进行各种分析查询了。不过Amazon提供的Web界面真的是挺朴素的,跟我们公司内部做的数据查询工具相比太朴素了:

Athena的朴素页面

之前看过Google BigQuery的查询界面,也是类似这样的,非常的朴素。我想这里的原因可能在于Amazon、Google这些国外的技术大公司不想投入太多精力在偏页面端的用户体验优化上,用户如果想要更好看更好用的查询界面让用户自己基于Athena的SDK自己去开发。

Redshift是一个基于PostgreSQL 8.0.2的一个数据仓库的解决方案,跟Athena相比,它更像传统的数仓,因为你需要把数据从外部加载到Redshift里面来。它不是一个Serverless的服务,你需要维护一个集群。Redshift Spectrum是Redshift之上更高阶的功能,它支持查询S3上的数据,而且可以把S3上的数据与Redshift里面的数据进行JOIN -- 部分覆盖了Athena的功能。

关键字:服务存储计算AWS

本文摘自:搜狐新闻

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^