当前位置:云计算企业动态 → 正文

Databricks发布生产数据通道新方案

责任编辑:cres 作者:Thor Olavsrud 译者:小塞 |来源:企业网D1Net  2017-04-20 09:35:08 原创文章 企业网D1Net

Databricks最新发布Apache Spark云平台架构数据工程版本,其进行了优化,使SQL、结构化流、ETL和机器学习在Spark上均可运行。
 
为给数据工程师提供更佳工具来开创生产数据通道,Databricks发布了Databrick数据工程新版本(Databricks for Data Engineering),其基于Apache Spark云平台架构,特别为数据工程工作负载进行了优化。
 
Databricks为Apache Spark原班人马所创建,其早先已提供过一个云版本来支持数据科学工作负载。但是Databricks的CEO及联合创始人Ali Ghodsi认为公司近500企业级客户和50,000社区版用户正在寻求SQL、结构化流、ETL和机器学习等均可以在Spark上运行,并部署数据通道获得产出。
 
模糊数据清洗
 
“他们所获取的可能是模糊不准的数据,或者是错误数据,所以他们正利用Spark去创造一个通道来清洗数据,并将其结构化。”Ghodsi表示,“这是我们最常见的真实案例,他们利用互动API来探索挖掘数据集,并将这些数据集即刻转入生产数据通道且无人工干预。”
 
Ghodsi表示利用最新版本来构建这些通道比以往的版本更具成本效率优势,可以节约50%至75%的成本。
 
Databrick数据工程最新版本包括以下特点:
 
· 性能优化Databricks I/O (DBIO) 技术提供涵盖范围更广的优化Spark 版本,亦可接入优化AWS S3访问层。Databricks认为DBIO十倍级加速了数据探索。
 
· 成本管理 集群管理功能,例如自主缩放和AWS Spot instances服务降低了运营成本,避免了创建、配置和维护复合Spark架构的耗时任务。“其自动决定了计算工作负载所需的最佳机器数量,”Ghodsi说道:“我们看到很多人无论何时都使用过多机器,他们很难算出他们的工作负载需要多少机器合适。”
 
· 优化整合 平台提供全套REST API 以编程方式来启动集群和其他工作,以及整合从Amazon Redshift 和Amazon Kinesis到机器学习架构例如谷歌的TensorFlow这些工具或者服务。一个集成的数据源目录可以让Databricks用户直接获得数据源,而不需重复工作。
 
· 企业级安全 Databrick数据工程内置的安全标准涵括并符合SOC 2 Type 1认证、HIPPA合规、端到端数据加密、AWS S3可调试详细日志接入和IT管理功能,例如SAML2.0 单点登录支持,集群、工作以及笔记本等不同接入控制权限设置。
 
· 数据科学整合 该平台整合了Databricks的数据科学作业领域,使其将数据工程和互动数据科学工作负载之间无缝交互。
 
Ghodsi认为最后一项特点尤其重要。“事实上在互动计算和生产通道之间的互相过渡非常难。我认为拥有这种智力模型的人可以做两件不同的事:你可以做互动分析,或者你也可以创建数据通道。这并不是常规开发者的工作,当他们开发一个数据通道时,他们不得不探索数据并且做调试和测试,来确保这个数据通道的确在正常工作。在这个过程中,他们需要互动分析。”
 
在不同模式中穿行
 
当你希望你的数据通道可以正常运行而无需人工干预时,如果你遭遇问题,你需要能够无缝进入一个互动模式,然后再进一步开发。
 
Ghodsi认为:“我们想确信你可以非常容易地、无缝地在两种模式中交互。”
 
“Databricks的数据工程最新版本使其更易开始于Spark——其提供了可适用于整合开发环境和部署通道的平台,”Dollar Shave Club数据工程部工程经理Brett Bevers说道。“我们从用Databricks的第一天起,就已经整装待发,做好面对各种数据挑战的准备了。”
 
新套件已经面世,定价基于数据工程工作负载的具体情况,例如ETL和自动工作(除AWS成本外,0.20美金/Databricks Unit)

关键字:云平台

原创文章 企业网D1Net

x Databricks发布生产数据通道新方案 扫一扫
分享本文到朋友圈
当前位置:云计算企业动态 → 正文

Databricks发布生产数据通道新方案

责任编辑:cres 作者:Thor Olavsrud 译者:小塞 |来源:企业网D1Net  2017-04-20 09:35:08 原创文章 企业网D1Net

Databricks最新发布Apache Spark云平台架构数据工程版本,其进行了优化,使SQL、结构化流、ETL和机器学习在Spark上均可运行。
 
为给数据工程师提供更佳工具来开创生产数据通道,Databricks发布了Databrick数据工程新版本(Databricks for Data Engineering),其基于Apache Spark云平台架构,特别为数据工程工作负载进行了优化。
 
Databricks为Apache Spark原班人马所创建,其早先已提供过一个云版本来支持数据科学工作负载。但是Databricks的CEO及联合创始人Ali Ghodsi认为公司近500企业级客户和50,000社区版用户正在寻求SQL、结构化流、ETL和机器学习等均可以在Spark上运行,并部署数据通道获得产出。
 
模糊数据清洗
 
“他们所获取的可能是模糊不准的数据,或者是错误数据,所以他们正利用Spark去创造一个通道来清洗数据,并将其结构化。”Ghodsi表示,“这是我们最常见的真实案例,他们利用互动API来探索挖掘数据集,并将这些数据集即刻转入生产数据通道且无人工干预。”
 
Ghodsi表示利用最新版本来构建这些通道比以往的版本更具成本效率优势,可以节约50%至75%的成本。
 
Databrick数据工程最新版本包括以下特点:
 
· 性能优化Databricks I/O (DBIO) 技术提供涵盖范围更广的优化Spark 版本,亦可接入优化AWS S3访问层。Databricks认为DBIO十倍级加速了数据探索。
 
· 成本管理 集群管理功能,例如自主缩放和AWS Spot instances服务降低了运营成本,避免了创建、配置和维护复合Spark架构的耗时任务。“其自动决定了计算工作负载所需的最佳机器数量,”Ghodsi说道:“我们看到很多人无论何时都使用过多机器,他们很难算出他们的工作负载需要多少机器合适。”
 
· 优化整合 平台提供全套REST API 以编程方式来启动集群和其他工作,以及整合从Amazon Redshift 和Amazon Kinesis到机器学习架构例如谷歌的TensorFlow这些工具或者服务。一个集成的数据源目录可以让Databricks用户直接获得数据源,而不需重复工作。
 
· 企业级安全 Databrick数据工程内置的安全标准涵括并符合SOC 2 Type 1认证、HIPPA合规、端到端数据加密、AWS S3可调试详细日志接入和IT管理功能,例如SAML2.0 单点登录支持,集群、工作以及笔记本等不同接入控制权限设置。
 
· 数据科学整合 该平台整合了Databricks的数据科学作业领域,使其将数据工程和互动数据科学工作负载之间无缝交互。
 
Ghodsi认为最后一项特点尤其重要。“事实上在互动计算和生产通道之间的互相过渡非常难。我认为拥有这种智力模型的人可以做两件不同的事:你可以做互动分析,或者你也可以创建数据通道。这并不是常规开发者的工作,当他们开发一个数据通道时,他们不得不探索数据并且做调试和测试,来确保这个数据通道的确在正常工作。在这个过程中,他们需要互动分析。”
 
在不同模式中穿行
 
当你希望你的数据通道可以正常运行而无需人工干预时,如果你遭遇问题,你需要能够无缝进入一个互动模式,然后再进一步开发。
 
Ghodsi认为:“我们想确信你可以非常容易地、无缝地在两种模式中交互。”
 
“Databricks的数据工程最新版本使其更易开始于Spark——其提供了可适用于整合开发环境和部署通道的平台,”Dollar Shave Club数据工程部工程经理Brett Bevers说道。“我们从用Databricks的第一天起,就已经整装待发,做好面对各种数据挑战的准备了。”
 
新套件已经面世,定价基于数据工程工作负载的具体情况,例如ETL和自动工作(除AWS成本外,0.20美金/Databricks Unit)

关键字:云平台

原创文章 企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^