当前位置:大数据业界动态 → 正文

数据湖:不治理便破产

责任编辑:editor005 作者:Nicole Laskowski |来源:企业网D1Net  2016-06-06 14:28:53 本文摘自:TechTarget中国

在当今的数据架构中,治理已成为一个关键的组成部分。没有它,公司可能会失去有意义的商业智能。

当STEVE CRETNEY仔细查看存储数量时,他从中发现了颠覆Colony BrandsIT战略的细节。

“我们观察到,在我们的SAN(存储区域网络)中,有几百TB的存储,”Colony Brands公司的CIO Cretney说,该直销零售商位于威斯康星州门罗。

其中的大部分,来源于操作系统,一部分会用于分析,但大多数则打包,成了闲置数据。相比之下,Colony Brand的数据仓库内只包含10到15 TB的数据,用于特定的业务分析和报告。 两者之间的差异让Cretney和他的团队思考:如果数据科学团队能够获取SAN里的数据,会有什么发现呢?

Cretney,3年前加入Colony Brands,就一直深信云计算。为了能够利用闲置数据,并推动公司向云方向发展,他选择了Amazon S3云存储服务,以及Amazon Redshift数据仓库。他的计划中,第一阶段将在4月完成,不仅是将公司的数据仓库功能迁移到云,还要使用数据湖开发公司数据。

数据湖,或数据中心,是一种在不牺牲数据结构的情况下, 摄取数据的存储仓库和处理系统,已经成为现代数据架构和大数据管理的同义词。数据湖的优势,是它对于数据的摄取没有严格的模式或处理要求,使企业更容易收集所有类型和大小的数据。而对于CIO和高级IT领导者,比较困难的部分是维持数据规则。专家认为,因为没有预先设置的数据架构,数据湖治理,包括元数据管理,对于保持数据湖的原始状态至关重要。

适合大数据的中央数据存储库

一直以来,分析和商业智能的工作都是使用数据仓库完成的,IT部门都尝试过这一技术,但在很多情况下,都失败了,无法完成中央数据存储库。“数据仓库和数据库,本质上都太贵了,而且过多受制于存储和性能,因为要将所有的数据都存储在一个地方,”Phil Shelley说,他是位于印度,提供Hadoop服务的DataMetica Solutions Private公司的顾问和总监。

IT部门开始使用提取、转换和加载(ETL)工,具“将数据分解成可管理的块,然后将数据归档,”Shelley说。但是这样做,会给分析师带来耗时的任务,不得不拼凑和追踪可能藏在数据集市、数据库和数据档案内的数据集。尽管如此,分析师可能只能获得可用存储中被认为有价值的数据集。“如果他们想要更久远的数据,或更多细节,通常由于性能和成本原因,这些数据都不在他们的数据仓库内,”Shelley说。

随着企业比以往更迫切的需要利用更多的,更复杂的数据,建立在廉价商用硬件,比如Hadoop上的文件系统,提供了不同的方法。 “不需要使用传统的ETL工具,我们可以几乎实时的把所有的历史数据和新数据,都汇总到同一个地方,” Shelley说。

作为结果,建立的数据还提供了另一个优势: 不要求数据结构,使数据科学家不需要预先设计模式, 就可以分析数据。 二十年前,数据仓库被视为一个可行的中央存储库,因为公司 “控制”用于分析的数据。

“我指的是你企业内的数据,比如SAP ERP系统的数据,”纽约公司Caserta Concepts的创始人和总裁Joe Caserta说、, “但是现在我们会从未知的,而且不受我们控制的第三方获取数据。”在摄取前, 要结构化第三方的数据很困难,因为诸如数据是如何生成的,数据的内容这些基本要素,是无法马上获知的。使用数据湖,公司可以摆脱死板的结构-摄取-分析流程,转而使用更灵活的摄取-分析-理解流程。“一旦我们理解了(数据),那么我们就可以结构化,”Caserta说。

治理:不成功即失败

数据湖提供的相对灵活性也是要付出代价的:没有数据湖治理,企业可能失去有意义的商业智能,甚至破产。

最近,在德克萨斯州举行的Gartner Business Intelligence and Analytics Summit上,分析师Nick Heudecker说,一位消费服务行业的客户,在它的关系数据库表现不佳后,决定实施数据湖。但该公司的项目范围太有限,主要集中在数据摄入。

“所有数据的上下文、数据来源、创建的原因、创建的人,都丢失了,”Heudecker说,“等到公司解决这个问题,再回到原来的平台时,他们已经失去了三分之二的顾客,几乎破产。”

这是一个极端的事例,但是可以肯定的是,数据湖治理的重要性,包括数据目录、索引和元数据管理,CIO都不应该忽视。“这是一个巨大的挑战,”Colony Brands的Cretney说。“除非你有元数据,要不你就丢失了上下文。”而这只是数据湖管理难题的一部分。Cretney还建议CIO考虑全面的数据湖治理,包括是谁引入的数据、谁负责数据,以及数据的定义,以确保数据的妥善标记和使用。

波士顿公司State Street的副总裁兼首席科学家David Saul表示完全同意。“如果最初你没有健全的元数据集,用于描述数据、说明它代表了什么,然后就将它引入数据湖,这个情况比建立数据仓库还要糟糕,”他说,“这样可能更快,但你不知道数据湖里有什么。”

语义数据库:“元数据的升级版”

与传统数据仓库和其预定义的模式不同,Heudecker认为,数据湖既需要CIO们足够的管理以提供必要的上下文,又不能过多的管理,压制了数据湖提供的灵活性。

“这需要大量的工作,也可能变得很糟糕,”他说,“所以要慢慢来,找出你完成这一工作所需要的,然后开始。”

在State Street,数据湖是一个语义数据库,利用了与创建网络超链接相同的标准和技术的概念模型。数据湖的优势,就是不强调任何数据结构,也是它的弱点,至少在Saul看来。“它不需要任何关于数据的语义、结构或关系,”他说,“Hadoop是一个并行文件系统,它运行的很好;它执行得很快。但是你需要知道更多的数据含义,而不仅仅是文件系统和位置。”

语义数据库,Saul称之为“元数据的升级版”,为数据增加了一层上下文、定义数据的含义,以及和其他数据之间的相互关系。State Street的语义数据库依赖万维网联盟的标准来定义数据描述:语义数据表示模型被称为资源描述框架(RDF),和一个Web本体语言,称为OWL数据。使用这些标准,State Street生成数据的语义信息,可以使用SQL查询语言,SPARQL进行搜索。

Saul说,把语义数据库看作为一个拥有成千上万书籍的图书馆的卡片目录。没有它,找出一个特定的名称是不可能的。“Hadoop就是如此,”他说,这种受欢迎的文件系统技术几乎成为数据湖的代名词。“否则你就必须一本书一本书,一页一页,逐字逐句地去寻找。”

多亏有了这一系统和元数据,拥有一个健全的卡片目录,就没有艰苦的任务了。“只有语义模型能够做到,文件系统是无法完成的,”他说。

对于State Street这样的金融机构,监管机构要求数据历史,数据从何而来,如何获得,强大的数据治理是必须的。然而,传统技术将数据保存在数据孤岛中,可能导致视野狭窄,或者不良分析。数据湖,State Street使用的这一概念,提供了灵活性,以消除数据孤岛。语义数据库增加了一定程度的治理和元数据管理,保持数据湖良好的工作秩序。

“我认为数据湖被过分夸大,让CIO们和(首席数据官)认为是一种高招,”Saul说,“如同数据管理中的一切,如果你不详细管理,你就不会获得你所期待的结果。”

关键字:数据湖本体语言语义模型

本文摘自:TechTarget中国

x 数据湖:不治理便破产 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

数据湖:不治理便破产

责任编辑:editor005 作者:Nicole Laskowski |来源:企业网D1Net  2016-06-06 14:28:53 本文摘自:TechTarget中国

在当今的数据架构中,治理已成为一个关键的组成部分。没有它,公司可能会失去有意义的商业智能。

当STEVE CRETNEY仔细查看存储数量时,他从中发现了颠覆Colony BrandsIT战略的细节。

“我们观察到,在我们的SAN(存储区域网络)中,有几百TB的存储,”Colony Brands公司的CIO Cretney说,该直销零售商位于威斯康星州门罗。

其中的大部分,来源于操作系统,一部分会用于分析,但大多数则打包,成了闲置数据。相比之下,Colony Brand的数据仓库内只包含10到15 TB的数据,用于特定的业务分析和报告。 两者之间的差异让Cretney和他的团队思考:如果数据科学团队能够获取SAN里的数据,会有什么发现呢?

Cretney,3年前加入Colony Brands,就一直深信云计算。为了能够利用闲置数据,并推动公司向云方向发展,他选择了Amazon S3云存储服务,以及Amazon Redshift数据仓库。他的计划中,第一阶段将在4月完成,不仅是将公司的数据仓库功能迁移到云,还要使用数据湖开发公司数据。

数据湖,或数据中心,是一种在不牺牲数据结构的情况下, 摄取数据的存储仓库和处理系统,已经成为现代数据架构和大数据管理的同义词。数据湖的优势,是它对于数据的摄取没有严格的模式或处理要求,使企业更容易收集所有类型和大小的数据。而对于CIO和高级IT领导者,比较困难的部分是维持数据规则。专家认为,因为没有预先设置的数据架构,数据湖治理,包括元数据管理,对于保持数据湖的原始状态至关重要。

适合大数据的中央数据存储库

一直以来,分析和商业智能的工作都是使用数据仓库完成的,IT部门都尝试过这一技术,但在很多情况下,都失败了,无法完成中央数据存储库。“数据仓库和数据库,本质上都太贵了,而且过多受制于存储和性能,因为要将所有的数据都存储在一个地方,”Phil Shelley说,他是位于印度,提供Hadoop服务的DataMetica Solutions Private公司的顾问和总监。

IT部门开始使用提取、转换和加载(ETL)工,具“将数据分解成可管理的块,然后将数据归档,”Shelley说。但是这样做,会给分析师带来耗时的任务,不得不拼凑和追踪可能藏在数据集市、数据库和数据档案内的数据集。尽管如此,分析师可能只能获得可用存储中被认为有价值的数据集。“如果他们想要更久远的数据,或更多细节,通常由于性能和成本原因,这些数据都不在他们的数据仓库内,”Shelley说。

随着企业比以往更迫切的需要利用更多的,更复杂的数据,建立在廉价商用硬件,比如Hadoop上的文件系统,提供了不同的方法。 “不需要使用传统的ETL工具,我们可以几乎实时的把所有的历史数据和新数据,都汇总到同一个地方,” Shelley说。

作为结果,建立的数据还提供了另一个优势: 不要求数据结构,使数据科学家不需要预先设计模式, 就可以分析数据。 二十年前,数据仓库被视为一个可行的中央存储库,因为公司 “控制”用于分析的数据。

“我指的是你企业内的数据,比如SAP ERP系统的数据,”纽约公司Caserta Concepts的创始人和总裁Joe Caserta说、, “但是现在我们会从未知的,而且不受我们控制的第三方获取数据。”在摄取前, 要结构化第三方的数据很困难,因为诸如数据是如何生成的,数据的内容这些基本要素,是无法马上获知的。使用数据湖,公司可以摆脱死板的结构-摄取-分析流程,转而使用更灵活的摄取-分析-理解流程。“一旦我们理解了(数据),那么我们就可以结构化,”Caserta说。

治理:不成功即失败

数据湖提供的相对灵活性也是要付出代价的:没有数据湖治理,企业可能失去有意义的商业智能,甚至破产。

最近,在德克萨斯州举行的Gartner Business Intelligence and Analytics Summit上,分析师Nick Heudecker说,一位消费服务行业的客户,在它的关系数据库表现不佳后,决定实施数据湖。但该公司的项目范围太有限,主要集中在数据摄入。

“所有数据的上下文、数据来源、创建的原因、创建的人,都丢失了,”Heudecker说,“等到公司解决这个问题,再回到原来的平台时,他们已经失去了三分之二的顾客,几乎破产。”

这是一个极端的事例,但是可以肯定的是,数据湖治理的重要性,包括数据目录、索引和元数据管理,CIO都不应该忽视。“这是一个巨大的挑战,”Colony Brands的Cretney说。“除非你有元数据,要不你就丢失了上下文。”而这只是数据湖管理难题的一部分。Cretney还建议CIO考虑全面的数据湖治理,包括是谁引入的数据、谁负责数据,以及数据的定义,以确保数据的妥善标记和使用。

波士顿公司State Street的副总裁兼首席科学家David Saul表示完全同意。“如果最初你没有健全的元数据集,用于描述数据、说明它代表了什么,然后就将它引入数据湖,这个情况比建立数据仓库还要糟糕,”他说,“这样可能更快,但你不知道数据湖里有什么。”

语义数据库:“元数据的升级版”

与传统数据仓库和其预定义的模式不同,Heudecker认为,数据湖既需要CIO们足够的管理以提供必要的上下文,又不能过多的管理,压制了数据湖提供的灵活性。

“这需要大量的工作,也可能变得很糟糕,”他说,“所以要慢慢来,找出你完成这一工作所需要的,然后开始。”

在State Street,数据湖是一个语义数据库,利用了与创建网络超链接相同的标准和技术的概念模型。数据湖的优势,就是不强调任何数据结构,也是它的弱点,至少在Saul看来。“它不需要任何关于数据的语义、结构或关系,”他说,“Hadoop是一个并行文件系统,它运行的很好;它执行得很快。但是你需要知道更多的数据含义,而不仅仅是文件系统和位置。”

语义数据库,Saul称之为“元数据的升级版”,为数据增加了一层上下文、定义数据的含义,以及和其他数据之间的相互关系。State Street的语义数据库依赖万维网联盟的标准来定义数据描述:语义数据表示模型被称为资源描述框架(RDF),和一个Web本体语言,称为OWL数据。使用这些标准,State Street生成数据的语义信息,可以使用SQL查询语言,SPARQL进行搜索。

Saul说,把语义数据库看作为一个拥有成千上万书籍的图书馆的卡片目录。没有它,找出一个特定的名称是不可能的。“Hadoop就是如此,”他说,这种受欢迎的文件系统技术几乎成为数据湖的代名词。“否则你就必须一本书一本书,一页一页,逐字逐句地去寻找。”

多亏有了这一系统和元数据,拥有一个健全的卡片目录,就没有艰苦的任务了。“只有语义模型能够做到,文件系统是无法完成的,”他说。

对于State Street这样的金融机构,监管机构要求数据历史,数据从何而来,如何获得,强大的数据治理是必须的。然而,传统技术将数据保存在数据孤岛中,可能导致视野狭窄,或者不良分析。数据湖,State Street使用的这一概念,提供了灵活性,以消除数据孤岛。语义数据库增加了一定程度的治理和元数据管理,保持数据湖良好的工作秩序。

“我认为数据湖被过分夸大,让CIO们和(首席数据官)认为是一种高招,”Saul说,“如同数据管理中的一切,如果你不详细管理,你就不会获得你所期待的结果。”

关键字:数据湖本体语言语义模型

本文摘自:TechTarget中国

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^