为什么Google的BigQuery在大数据并发处理中脱颖而出?

责任编辑：cres 作者：D1net |来源：企业网D1Net 2017-04-14 10:35:16 原创文章企业网D1Net

D1net观察：现在是数据时代，企业都想通过数据获取价值，工欲善其事，必先利其器，企业应该选择什么工具呢？接下来看看帮助机构在大数据中实现商业智能的初创公司AtSacle的一些实践。

您应该使用Hadoop来满足您的商业智能需求吗?抑或是BigQuery?自建Hadoop，云端Hadoop与Google的无服务器模型BigQuery之间有什么区别呢?来自Atscale的基准有助于您应付这些问题。

在大数据中实现商业智能并且处理大量并发查询的能力对您来说如果是很重要的，根据专门帮助机构在大数据中实现商业智能的初创公司AtSacle公布的一项商业智能基准，Google的BigQuery是不二之选。

“并发处理一直是个硬伤，给SQL-on-Hadoop带来巨大的挑战”，AtScale产品管理部的副总裁Josh Klahr如是说。

然而AtScale的基准发现并发处理一直是BigQuery的强项。因为它的无服务器模型意味着小数据集的并发查询性能不会表现出任何查询性能的下降，甚至在查询量超过25个商业智能用户时。

Klahr说：“并发处理是至关重要的”。“但是BigQuery的用户体验也是不错的，也许这并不奇怪，因为Google多年来一直关注消费产品：关于产品使用一直都是不错的，最耗费时间的是把我们的本地网络加载到云端，一旦在云端有了数据，创建表格将变得非常容易。“

关于基准，AtScale使用了和去年部署的测试商业智能工作量的SQL-on-Hadoop引擎基准测试同样的模型，测试的理念在于帮助技术评估者为他们的商业智能用例选择最好的SQL-on-Hadoop技术。Google的BigQuery基准的目的也如出一辙。

Constellation Research的副总裁兼首席分析师Doug Henschen在周四的声明里说：“Atscale基准提供了企业领袖所需的使商业智能运行在大数据里提供了有价值的对比”。“当数据变得越来越复杂，越来越多样时，这些基准统计能帮助企业理解领先的大数据查询选择，并做出对商业数据基础设施至关重要的决定。”

AtScale的测试团队使用Star Schema Benchmark (SSB)数据集，该数据集基于广泛使用的TPCH数据，做了一定修改以便更准确地表示以一个典型的商业智能为导向的数据布局。该数据集允许测试团队测试一系列大表格中的查询：Lineorder表格包含了将近60亿行，并且大客户表格可包含超过10亿行。

对于Google的BigQuery基准，AtScale查看了3个和去年一样的用来评估SQL-on-Hadoop引擎及其是否满足商业智能工作量的三个关键要求。

能在大数据上工作。SQL-on-Hadoop引擎必须能够持续分析几十亿或上万亿的数据行而不出错，并且响应时间大约在10秒或100秒。

处理小数据也很快。该引擎需要在已知的查询模式中实现交互性能，很重要的一点是SQL-on-Hadoop引擎能在几秒内返回小数据集的查询结果(大约几千或几百万行)。

多用户状态下依然稳定。企业商业智能用户基础由数百甚至几千的数据工人组成。底层的SQL-on-Hadoop引擎必须在高度并发的分析工作量下可靠运行。

去年，AtScale发现Apache Impala，2.3, Apache Spark 1.6 和Apache Hive 1.2，它做了基准测试的3大SQL-on-Hadoop引擎，都有独一无二的优缺点，而这些优缺点使得它们更适合一些使用情况而不太适合另一些用例。例如Hive是诸引擎中最慢的，致使其不适合交互查询，然而它却是3个引擎中最稳定的，在多种查询类型中都具有最好的一致性。Impala和Spark则更适合较小的数据集。

正如Klahr指出，BigQuery提供了最佳的并发处理支持。并且使用它不需要过多的调整或系统配置。

Klahr说：“BigQuery不需要您做过多的调整，也不允许您做过多的加工。”“我们使用Hive和Impala的体验就是各个引擎可能都要花费几天到数周的时间调整参数。”

AtScale发现BigQuery管理控制台，查询工具和文档编制使其简单易用并支持快速适职。另外，把数据移动到Google云和加载到BigQuery的过程很简单并且有丰富的参考文献，尽管Klahr指出这个过程在云原生数据中比在自建数据中更快。

高效性能，BigQuery的速度没有像Impala和Spark SQL那样吹的天花乱坠，但也不相伯仲了。Klahr说。

“值得考虑的是：获得性能所要付出的努力以及获得合意的性能所要付出的代价的较量。”Klahr如是说。

如果说BigQuery有什么地方严重落后其它选择的话，那就是在转(join)语句上了。

“它对于大量的转语句处理的不是很好”，Klahr说。“您的数据全部都在一个表格里，而Google致力于推广嵌套的数据结构”。

AtScale的技术总监兼共同创始人Matt Baird认为最近的基准测试表明了大数据市场的成熟程度，像Google这样的平台供应商为企业结构提供了切实可行的方案。

“该基准的测试结果表明大数据市场的快速演变”，Matt Baird在周四的声明中说：“这样的步伐是令人望而生畏的，因为企业已经要处理相当程度的复杂性了，您应该使用Hadoop还是BigQuery呢?自建Hadoop，云端Hadoop和Google这样的无服务器模型有什么区别?这就是我们创办AtScale的原因”。

关键字：大数据