当前位置:大数据业界动态 → 正文

数据湖治理:大数据团队的必修课

责任编辑:editor005 作者:Craig Stedman |来源:企业网D1Net  2017-07-04 14:34:28 本文摘自:TechTarget中国

数据湖中大量的原始数据可用于不受约束的探索和分析。但一切并非那么容易:为了避免信息混乱,所有数据需要编目和管理,而这项工作通常需要大数据团队手动完成。

在很多企业中,数据湖管理和治理框架正处于形成阶段,IT和数据管理团队都在加强治理工具和机制的组合,确保大数据环境的有序性。

在2006年4月部署了Hadoop数据湖的芝加哥保健服务公司HCSC就是这样,它向数据科学家和其他分析师提供自助服务功能,用于分析整个芝加哥公司运营的源系统数据。但Hadoop集群中的自助服务并不意味着可以自由使用,HCSC的数据建模和架构高级经理Susan Swanson解释说,“我们需要加强管理和控制,这样用户最终可以使用具有一致性的数据。”

标准化工作包括一定程度的数据集成、清理和准备工作,以及数据质量规则、可用数据的目录和用于跟踪数据沿袭和填充公共数据字典的元数据存储库。Swanson表示:“数据管理很有必要,特别是在大数据和数据湖的运用中。但有效的治理技术在数据湖环境中依然匮乏”

这意味着,与公司现有的数据仓库相比,HCSC的数据架构和管理团队必须花更多的时间完善与数据湖治理相关的技术,这样可以更多地关注解决数据质量问题和其他治理任务。“我们做了很多概念验证项目”,Swanson说,“这是一种试点方法,我们需要弄清楚如何解决问题,然后引入工具实现自动化。”她举例说,HCSC最初“拼凑”了一个元数据存储库,将HCatalog(一种开源元数据管理工具)与HBase数据库和Hive查询引擎相结合。

现在,保险公司正在安装Apache Atlas,这是一款针对Hadoop的更广泛的数据治理和元数据框架,该框架于2015年首次发布,仍被Apache软件基金会指定为“孵化”技术。“这项技术并没有完全搞定,你仍然需要做很多的变通方案,但我很喜欢其中涉及的很多概念。”

深入数据湖

最近的调查显示,数据湖采用率达到了相当可观的水平。去年底由IT研究和教育机构TDWI进行的一次调查,252个受访者中有23%的人表示,他们的企业正在数据湖平台上运行生产应用,而24%的受访者表示预计在未来12个月内将开始使用数据湖。Forrester在2016年的调查中也发现了更高的部署率,543个受访者中有48%表示已实施或正在实施基于Hadoop的数据湖,而31%的受访者表示计划在一年内建立。

然而,在TDWI调查中,缺乏数据治理被认为是数据湖部署的最大障碍,41%的受访者将其列为可能的障碍。TDWI分析师Philip Russom在调查结果的网络研讨会上发表了一篇关于这项调查结果的报告,他指出其中一部分原因是,如果你以前没有这样做,这只是一个未知的领域。

提供信贷服务的CoreLogic公司的首席数据官Robin Gordon表示,她希望为在加利福尼亚州的公司采用“工厂装配线模型”,用于数据湖管理和治理流程自动化。该模型将自动跟踪数据沿袭和使用权,因此,CoreLogic可以确保数据不会太混乱。“但是现在,在公司基于Hadoop的大数据环境中管理和治理数据,更加需要手动完成。” Gordon补充说。

更多的数据,更大的挑战

位于伦敦的通信和电视服务提供商BT也有类似的情况。BT在2013年部署了一个Hadoop集群,现在将其扩展到企业数据湖,处理来自2500个应用程序的数据源,并支持数千个数据分析人员和业务用户的自助分析。Jason Perkins是BT的业务洞察和分析架构主管,他表示,无论是在帮助用户查找数据湖中的相关数据和监控系统中的数据,数据治理都将面临更大的挑战。

为了应对这些挑战,BT采取了一些措施。该公司通过设立一个分析审查委员会来扩充其现有的数据治理计划。该委员会将审查在数据湖中创建数据沙箱或单个数据视图的请求。Perkins是该委员会成员,也是数据管理和IT代表,他和他的团队创建了一个文件,详细介绍了向数据湖中添加数据的过程。除此之外,他还组建了一个内部Hadoop用户组,以便讨论数据湖的相关计划,分享关于分析和数据管理最佳实践的想法。

此外,数据湖团队正在建立一个名为Midas的本地化元数据存储库,该存储库包含诸如Oracle Data Integrator和Cloudera Navigator的商业软件,这是一款与Atlas形成竞争的Hadoop数据治理工具。Perkins说,BT正在外部寻找可能在Midas之上提供额外功能的新兴的数据湖管理和治理平台。

“我不认为BT是元数据软件公司,”Perkins说,“我们只想填补如今面临的行业差距。”他说,本土系统至少让BT完成一些数据治理,确保没人能够用BT不想要的数据来污染数据。

关键字:数据湖HbaseHive

本文摘自:TechTarget中国

x 数据湖治理:大数据团队的必修课 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

数据湖治理:大数据团队的必修课

责任编辑:editor005 作者:Craig Stedman |来源:企业网D1Net  2017-07-04 14:34:28 本文摘自:TechTarget中国

数据湖中大量的原始数据可用于不受约束的探索和分析。但一切并非那么容易:为了避免信息混乱,所有数据需要编目和管理,而这项工作通常需要大数据团队手动完成。

在很多企业中,数据湖管理和治理框架正处于形成阶段,IT和数据管理团队都在加强治理工具和机制的组合,确保大数据环境的有序性。

在2006年4月部署了Hadoop数据湖的芝加哥保健服务公司HCSC就是这样,它向数据科学家和其他分析师提供自助服务功能,用于分析整个芝加哥公司运营的源系统数据。但Hadoop集群中的自助服务并不意味着可以自由使用,HCSC的数据建模和架构高级经理Susan Swanson解释说,“我们需要加强管理和控制,这样用户最终可以使用具有一致性的数据。”

标准化工作包括一定程度的数据集成、清理和准备工作,以及数据质量规则、可用数据的目录和用于跟踪数据沿袭和填充公共数据字典的元数据存储库。Swanson表示:“数据管理很有必要,特别是在大数据和数据湖的运用中。但有效的治理技术在数据湖环境中依然匮乏”

这意味着,与公司现有的数据仓库相比,HCSC的数据架构和管理团队必须花更多的时间完善与数据湖治理相关的技术,这样可以更多地关注解决数据质量问题和其他治理任务。“我们做了很多概念验证项目”,Swanson说,“这是一种试点方法,我们需要弄清楚如何解决问题,然后引入工具实现自动化。”她举例说,HCSC最初“拼凑”了一个元数据存储库,将HCatalog(一种开源元数据管理工具)与HBase数据库和Hive查询引擎相结合。

现在,保险公司正在安装Apache Atlas,这是一款针对Hadoop的更广泛的数据治理和元数据框架,该框架于2015年首次发布,仍被Apache软件基金会指定为“孵化”技术。“这项技术并没有完全搞定,你仍然需要做很多的变通方案,但我很喜欢其中涉及的很多概念。”

深入数据湖

最近的调查显示,数据湖采用率达到了相当可观的水平。去年底由IT研究和教育机构TDWI进行的一次调查,252个受访者中有23%的人表示,他们的企业正在数据湖平台上运行生产应用,而24%的受访者表示预计在未来12个月内将开始使用数据湖。Forrester在2016年的调查中也发现了更高的部署率,543个受访者中有48%表示已实施或正在实施基于Hadoop的数据湖,而31%的受访者表示计划在一年内建立。

然而,在TDWI调查中,缺乏数据治理被认为是数据湖部署的最大障碍,41%的受访者将其列为可能的障碍。TDWI分析师Philip Russom在调查结果的网络研讨会上发表了一篇关于这项调查结果的报告,他指出其中一部分原因是,如果你以前没有这样做,这只是一个未知的领域。

提供信贷服务的CoreLogic公司的首席数据官Robin Gordon表示,她希望为在加利福尼亚州的公司采用“工厂装配线模型”,用于数据湖管理和治理流程自动化。该模型将自动跟踪数据沿袭和使用权,因此,CoreLogic可以确保数据不会太混乱。“但是现在,在公司基于Hadoop的大数据环境中管理和治理数据,更加需要手动完成。” Gordon补充说。

更多的数据,更大的挑战

位于伦敦的通信和电视服务提供商BT也有类似的情况。BT在2013年部署了一个Hadoop集群,现在将其扩展到企业数据湖,处理来自2500个应用程序的数据源,并支持数千个数据分析人员和业务用户的自助分析。Jason Perkins是BT的业务洞察和分析架构主管,他表示,无论是在帮助用户查找数据湖中的相关数据和监控系统中的数据,数据治理都将面临更大的挑战。

为了应对这些挑战,BT采取了一些措施。该公司通过设立一个分析审查委员会来扩充其现有的数据治理计划。该委员会将审查在数据湖中创建数据沙箱或单个数据视图的请求。Perkins是该委员会成员,也是数据管理和IT代表,他和他的团队创建了一个文件,详细介绍了向数据湖中添加数据的过程。除此之外,他还组建了一个内部Hadoop用户组,以便讨论数据湖的相关计划,分享关于分析和数据管理最佳实践的想法。

此外,数据湖团队正在建立一个名为Midas的本地化元数据存储库,该存储库包含诸如Oracle Data Integrator和Cloudera Navigator的商业软件,这是一款与Atlas形成竞争的Hadoop数据治理工具。Perkins说,BT正在外部寻找可能在Midas之上提供额外功能的新兴的数据湖管理和治理平台。

“我不认为BT是元数据软件公司,”Perkins说,“我们只想填补如今面临的行业差距。”他说,本土系统至少让BT完成一些数据治理,确保没人能够用BT不想要的数据来污染数据。

关键字:数据湖HbaseHive

本文摘自:TechTarget中国

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^