当前位置:大数据业界动态 → 正文

如何保持大数据湖清晰并可导航

责任编辑:editor005 作者:Harris编译 |来源:企业网D1Net  2017-07-17 15:02:20 本文摘自:机房360

如果没有良好的清理和归档实践,数据湖泊可能变得得密而阴暗。下面是一些防止出现这种情况的建议。

大数据的四个V是数据的体积,多样性,速度,准确性。所有这些都是数据架构师在制定大数据管理策略时所认识到的重要因素。

但随着大数据量的不断增长,企业数量呈指数级增长,他们开始陷入停滞甚至拥有有毒的数据湖和存储库,因为这些数据被丢弃并混合到这些数据保留池中。在极端的情况下,每个新的大数据位都被简单地投入到数据保留区域中,这些数据的可视性和从中获取价值的能力几乎是不可能的。数据就是这些云数据湖泊的“水”,数据架构师和开发人员发现,以敏捷方式处理数据变得越来越难。

总的来说,这些受污染的数据湖产生了第五个V,专家认为是添加大数据的时了候:粘度。常用的粘度用于描述液体的厚度。例如,蜂蜜的粘度高于水。

人们可以看到数据湖的联系开始变得越来越多,因为数据清理和存档的实践不佳造成的污染。这些数据开始变得泥泞,并且“凝结”到无法再导航的地步。

数据架构师可以采取以下措施清理这些数据,以便可以再次使用这些数据,以及首席信息官将如何帮助他们。

(1)必须建立一个商业案例

清理数据或找到重新分类和恢复资料的方法是一个后续任务,不能立即与营业费用减少或收入增加挂钩。因此,像这样一个可以花费很多时间和精力的项目不会受到IT团队高管的理解或欣赏。

不过,首席信息官必须将其出售。

其商业收益是:

·如果数据干净且敏捷,企业的业务分析时间将会改善。

·良好的数据可以提高监管合规性和治理水平。

·数据安全和保管将会得到改善,因为通过整理数据,企业还可以查看访问权限和数据存储安全性指南。

·如果企业定义数据保留规则并丢弃有助于内部或云存储成本的无用数据,则可能会降低成本。

(2)数据架构师应该考虑建立一系列的的湖泊

单独的数据湖在按主题区域组织时是有帮助的。例如,可能有一个用于销售和营销的数据湖。第二个数据湖可能被制造和工程使用。第三个可能是财务,等等。

当需要从这些不同的数据源聚合数据时,可以通过从这些原始数据湖聚合来创建单独的“构建”数据池,但需保持原始数据湖的完整性。

分布式数据架构可以通过设置多个数据库和/或系统分区在单个服务器上完成;或者可以在多台服务器上完成。无论哪种方式,在原始数据主题湖中保留数据分离可能会有更多的处理开销,但是这个值由用户获得的数据敏捷性和组织所返回。

(3)这些数据湖共享的数据必须规范化

如果存在数据重叠,数据架构师必须具有解决问题的方法,比如两个不同的系统,它们描述同一块数据,或者包含不同值的数据元素。

最后,目标是拥有组织良好和管理的干净数据。数据的组织,管理和轻松地汇总来自其他干净的数据湖的数据,用于跨越多个主题领域的分析查询,使用此数据的应用程序变得更加敏捷,因为用户不再为其提供泥泞的数据。

最重要的是,用户已经在分析中取得进展,因为其数据质量不再成为阻碍。

关键字:数据湖 系统分区

本文摘自:机房360

如何保持大数据湖清晰并可导航 扫一扫
分享本文到朋友圈

关于我们联系我们版权声明友情链接广告服务会员服务投稿中心招贤纳士

企业网版权所有©2010-2017 京ICP备09108050号-6

^