当前位置:大数据业界动态 → 正文

DevOps精神:SQL-on-Hadoop的根基

责任编辑:editor005 作者:Jack Vaughan |来源:企业网D1Net  2015-08-31 14:14:56 本文摘自:TechTarget中国

在讨论大数据分析时,我们可能多次提到神话般的DevOps精神。我会引用一个虚构的人物,他在一家著名的互联网公司工作——我们暂且叫它为TwittleBookOhBoy.com。我们将带你进入该公司位于西海岸的实验室。

这个人有能力编写Java机器学习分类器,配置Hadoop集群——修了一下自己的自行车和喝了杯咖啡,然后再回去修改出错的Python查询,生成了一个关于拉脱维亚关键字趋势的报告。这就是他一天的活动。

但是,Hadoop的发展历史告诉我们,虽然与MapReduce编程相关的高级Java技能一定程度上能够帮助组织提高数据处理效率,但是仅仅这些还不足以帮助组织实现全部目标。开发者们一直在忙于开发能从更高抽象层次上解决这个问题的工具,甚至其中有一位开发者还来自于伯克利。

等待SQL

Michael Fabacher是美国亚特兰大Cardlytics公司负责数据架构与数据库开发的副总裁,他的公司通过深入分析销售点数据来生成针对于信用卡和借记卡用户的零售与餐馆推广活动。最近我与他探讨Hadoop之上的SQL话题时,我想到了要等待SQL。

Fabacher指责说:“我们在‘东海岸’,这里有很多精通SQL的人。”或许,他主要是针对于西海岸经常宣传的Hadoop和DevOps精神。他的团队在使用由MapR支持的Hadoop。另外,他们还使用MapR的Drill软件支持Hadoop上使用SQL的应用程序。Drill是一种新型SQL风格工具,它遵循由Facebook最先提出的Hive技术的方式。Fabacher并没有放弃这个讽刺,为了表示对西海岸顶尖开发者的不认同,Facebook的开发人员决定开发一个能够帮助他们和同事使用SQL操作Hadoop数据的软件。

他说:“Facebook的工程师非常优秀,他们的时间不应该浪费在编写MapReduce作业上。”他是对的。或许,DevOps和Hadoop的快速发展需要调整一下。

Dremel、Impala、Drill和Presto

很大程度上看,Hadoop之上的SQL始于Hive。它最早是由Facebook在2007年提出的;当时它成为了一个Apache开源项目。Hive能够将一些SQL命令转换为MapReduce作业,从而去掉了一层复杂的编程。这个软件扩大了Hadoop在Facebook及其他公司的使用,而且现在它已经成为所有Hadoop主流发行版的一部分。与MapReduce类似,它的血统源于Hadoop分布式文件系统(HDFS)的批处理作业。

451 Research分析师Matthew Aslett说:“如果了解Hive的起源就知道,它的目标是让一些有能力编写SQL查询的人能够操作HDFS。它就是将SQL技术集带到Hadoop中。”从那时开始,Hive发展迅速。但是,同时也出现了许多新型工具。

这其中包括Impala、Drill和Presto,它们每一个都有一个企业赞助商(分别是Cloudera、MarR和Teradata),但是也提供了Apache软件基金会开源授权版本。Aslett指出,这些工具在MapReduce发起者谷歌的Dremel计划中占据重要位置,后者是一种在MapReduce上使用的SQL风格语言,关于它的介绍可以参见2010年发布的一篇谷歌技术论文。

要使用正确的工具

这些工具每一个都尽量不去执行完长时间的批处理任务,而是提供高性能大数据分析交互性。有意思的地,Hive发明者Facebook也是Presto的发起者,这家公司于2012年首次在内部使用这个工具,然后它投资了Teradata将它开发成一个产品。

谷歌开发了Dremel,它的目标作为MapReduce的补充而非替代,以实现已抓取网页文档的规模化交互式分析、跟踪Android商店网站应用的安装数据、谷歌产品的崩溃报表、广告邮件分析等。

现在行业正在推进用SQL-on-Hadoop产品来替代原始MapReduce分析,这个举措有一定的争议性。有一些观察人员可能会质疑,是否真有必要开发这些优化工具,或者它们是否有一定的夸大因素。但是,这些工具的出现仍然引起了很大的关注——它们有许多都来自于一些重量级程序员,他们认同一个格言:要用正确的工具去做正确的事情。这些工具来自于真实需求。而且,即使是在TwittleBookOhBoy.com,DevOps也不是唯一的热点;现在已经有一个大团队,其中还有搭配合理的优秀成员。

关键字:谷歌DevOpsAndroid

本文摘自:TechTarget中国

x DevOps精神:SQL-on-Hadoop的根基 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

DevOps精神:SQL-on-Hadoop的根基

责任编辑:editor005 作者:Jack Vaughan |来源:企业网D1Net  2015-08-31 14:14:56 本文摘自:TechTarget中国

在讨论大数据分析时,我们可能多次提到神话般的DevOps精神。我会引用一个虚构的人物,他在一家著名的互联网公司工作——我们暂且叫它为TwittleBookOhBoy.com。我们将带你进入该公司位于西海岸的实验室。

这个人有能力编写Java机器学习分类器,配置Hadoop集群——修了一下自己的自行车和喝了杯咖啡,然后再回去修改出错的Python查询,生成了一个关于拉脱维亚关键字趋势的报告。这就是他一天的活动。

但是,Hadoop的发展历史告诉我们,虽然与MapReduce编程相关的高级Java技能一定程度上能够帮助组织提高数据处理效率,但是仅仅这些还不足以帮助组织实现全部目标。开发者们一直在忙于开发能从更高抽象层次上解决这个问题的工具,甚至其中有一位开发者还来自于伯克利。

等待SQL

Michael Fabacher是美国亚特兰大Cardlytics公司负责数据架构与数据库开发的副总裁,他的公司通过深入分析销售点数据来生成针对于信用卡和借记卡用户的零售与餐馆推广活动。最近我与他探讨Hadoop之上的SQL话题时,我想到了要等待SQL。

Fabacher指责说:“我们在‘东海岸’,这里有很多精通SQL的人。”或许,他主要是针对于西海岸经常宣传的Hadoop和DevOps精神。他的团队在使用由MapR支持的Hadoop。另外,他们还使用MapR的Drill软件支持Hadoop上使用SQL的应用程序。Drill是一种新型SQL风格工具,它遵循由Facebook最先提出的Hive技术的方式。Fabacher并没有放弃这个讽刺,为了表示对西海岸顶尖开发者的不认同,Facebook的开发人员决定开发一个能够帮助他们和同事使用SQL操作Hadoop数据的软件。

他说:“Facebook的工程师非常优秀,他们的时间不应该浪费在编写MapReduce作业上。”他是对的。或许,DevOps和Hadoop的快速发展需要调整一下。

Dremel、Impala、Drill和Presto

很大程度上看,Hadoop之上的SQL始于Hive。它最早是由Facebook在2007年提出的;当时它成为了一个Apache开源项目。Hive能够将一些SQL命令转换为MapReduce作业,从而去掉了一层复杂的编程。这个软件扩大了Hadoop在Facebook及其他公司的使用,而且现在它已经成为所有Hadoop主流发行版的一部分。与MapReduce类似,它的血统源于Hadoop分布式文件系统(HDFS)的批处理作业。

451 Research分析师Matthew Aslett说:“如果了解Hive的起源就知道,它的目标是让一些有能力编写SQL查询的人能够操作HDFS。它就是将SQL技术集带到Hadoop中。”从那时开始,Hive发展迅速。但是,同时也出现了许多新型工具。

这其中包括Impala、Drill和Presto,它们每一个都有一个企业赞助商(分别是Cloudera、MarR和Teradata),但是也提供了Apache软件基金会开源授权版本。Aslett指出,这些工具在MapReduce发起者谷歌的Dremel计划中占据重要位置,后者是一种在MapReduce上使用的SQL风格语言,关于它的介绍可以参见2010年发布的一篇谷歌技术论文。

要使用正确的工具

这些工具每一个都尽量不去执行完长时间的批处理任务,而是提供高性能大数据分析交互性。有意思的地,Hive发明者Facebook也是Presto的发起者,这家公司于2012年首次在内部使用这个工具,然后它投资了Teradata将它开发成一个产品。

谷歌开发了Dremel,它的目标作为MapReduce的补充而非替代,以实现已抓取网页文档的规模化交互式分析、跟踪Android商店网站应用的安装数据、谷歌产品的崩溃报表、广告邮件分析等。

现在行业正在推进用SQL-on-Hadoop产品来替代原始MapReduce分析,这个举措有一定的争议性。有一些观察人员可能会质疑,是否真有必要开发这些优化工具,或者它们是否有一定的夸大因素。但是,这些工具的出现仍然引起了很大的关注——它们有许多都来自于一些重量级程序员,他们认同一个格言:要用正确的工具去做正确的事情。这些工具来自于真实需求。而且,即使是在TwittleBookOhBoy.com,DevOps也不是唯一的热点;现在已经有一个大团队,其中还有搭配合理的优秀成员。

关键字:谷歌DevOpsAndroid

本文摘自:TechTarget中国

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^