Databricks发布生产数据通道新方案

责任编辑：cres 作者：Thor Olavsrud 译者：小塞 |来源：企业网D1Net 2017-04-20 09:35:08 原创文章企业网D1Net

Databricks最新发布Apache Spark云平台架构数据工程版本，其进行了优化，使SQL、结构化流、ETL和机器学习在Spark上均可运行。

为给数据工程师提供更佳工具来开创生产数据通道，Databricks发布了Databrick数据工程新版本(Databricks for Data Engineering)，其基于Apache Spark云平台架构，特别为数据工程工作负载进行了优化。

Databricks为Apache Spark原班人马所创建，其早先已提供过一个云版本来支持数据科学工作负载。但是Databricks的CEO及联合创始人Ali Ghodsi认为公司近500企业级客户和50,000社区版用户正在寻求SQL、结构化流、ETL和机器学习等均可以在Spark上运行，并部署数据通道获得产出。

模糊数据清洗

“他们所获取的可能是模糊不准的数据，或者是错误数据，所以他们正利用Spark去创造一个通道来清洗数据，并将其结构化。”Ghodsi表示，“这是我们最常见的真实案例，他们利用互动API来探索挖掘数据集，并将这些数据集即刻转入生产数据通道且无人工干预。”

Ghodsi表示利用最新版本来构建这些通道比以往的版本更具成本效率优势，可以节约50%至75%的成本。

Databrick数据工程最新版本包括以下特点：

· 性能优化Databricks I/O (DBIO) 技术提供涵盖范围更广的优化Spark 版本，亦可接入优化AWS S3访问层。Databricks认为DBIO十倍级加速了数据探索。

· 成本管理集群管理功能，例如自主缩放和AWS Spot instances服务降低了运营成本，避免了创建、配置和维护复合Spark架构的耗时任务。“其自动决定了计算工作负载所需的最佳机器数量，”Ghodsi说道：“我们看到很多人无论何时都使用过多机器，他们很难算出他们的工作负载需要多少机器合适。”

· 优化整合平台提供全套REST API 以编程方式来启动集群和其他工作，以及整合从Amazon Redshift 和Amazon Kinesis到机器学习架构例如谷歌的TensorFlow这些工具或者服务。一个集成的数据源目录可以让Databricks用户直接获得数据源，而不需重复工作。

· 企业级安全 Databrick数据工程内置的安全标准涵括并符合SOC 2 Type 1认证、HIPPA合规、端到端数据加密、AWS S3可调试详细日志接入和IT管理功能，例如SAML2.0 单点登录支持，集群、工作以及笔记本等不同接入控制权限设置。

· 数据科学整合该平台整合了Databricks的数据科学作业领域，使其将数据工程和互动数据科学工作负载之间无缝交互。

Ghodsi认为最后一项特点尤其重要。“事实上在互动计算和生产通道之间的互相过渡非常难。我认为拥有这种智力模型的人可以做两件不同的事：你可以做互动分析，或者你也可以创建数据通道。这并不是常规开发者的工作，当他们开发一个数据通道时，他们不得不探索数据并且做调试和测试，来确保这个数据通道的确在正常工作。在这个过程中，他们需要互动分析。”

在不同模式中穿行

当你希望你的数据通道可以正常运行而无需人工干预时，如果你遭遇问题，你需要能够无缝进入一个互动模式，然后再进一步开发。

Ghodsi认为：“我们想确信你可以非常容易地、无缝地在两种模式中交互。”

“Databricks的数据工程最新版本使其更易开始于Spark——其提供了可适用于整合开发环境和部署通道的平台，”Dollar Shave Club数据工程部工程经理Brett Bevers说道。“我们从用Databricks的第一天起，就已经整装待发，做好面对各种数据挑战的准备了。”

新套件已经面世，定价基于数据工程工作负载的具体情况，例如ETL和自动工作(除AWS成本外，0.20美金/Databricks Unit)