当前位置:大数据业界动态 → 正文

防止数据湖成为数据沼泽的三大关键

责任编辑:cres 作者:Thor Olavsrud |来源:企业网D1Net  2017-06-26 10:40:42 原创文章 企业网D1Net

数据湖可以轻松存储所有的业务数据,但是需要注意的是:大量的存储量(容器库)可能引起陷入瘫痪,让用户动弹不得。我们今天就来谈如何能防止数据湖变成数据沼泽。
 
很多年来,在诸如Apache Hadoop这样的技术支持下,企业纷纷寻求建立数据湖,即企业范围内的数据管理平台来存储原始数据。数据湖能提供各类单一分类信息库来满足企业内所有人都可以进行数据分析到数据挖掘。原始、未治理的数据湖被认为可以捕获所有大数据信息以及整理出所有所需信息。
 
商业智能软件金字塔分析(Pyramid Analytics)的CTO Avi Perez认为已经有很多客户和方方面面在显示数据湖正恶化成为数据沼泽,大量的数据存储(容器)根本不能触达到最终用户。
 
“数据库都非常昂贵,这些数据湖从根本上解决了这个问题。数据湖以及所有的这些大数据项目之所以建立首先都因为面临自市场的压力,其次,真实世界所产生的大量数据需要有一个方式去存储。”Perez说道。
 
目前世界上最成功的那些公司都围绕他们的数据湖创建了业务(例如谷歌就是个很好的案例),但其他公司则没有任何清晰的路径去从其所收集数据中获得价值。
 
Perez认为“他们仅仅收集了一堆尘土,一堆垃圾,一堆废弃物,最后不得不砍掉这些既不能获得任何价值,且又昂贵无比的项目预算。”
 
这也并不是说数据湖是个坏主意。Perez认为每家公司最终也都需要一个数据湖,但是必须深思熟虑地创建一个最终用户可以从中受益的数据湖。
 
为了避免误入歧途,Perez提出如下三项建议。
 
1.在初始尽可能少地收集数据
 
Perez认为企业最容易犯的大错是仅仅因为他们能收集数据,而收集了过多数据。想想如果你有一台智能手机,可能会存数百张甚至更多照片。
 
“也许最后手机里你有十亿张照片,然而其中99%都可能是你一点儿都不想保留的垃圾。因为拍照不花钱,所以你轻而易举地拍了很多照片。你也许在想,有一天我会好好清理一下,但是如果那天一直都没到来呢?你就收集了大量的信息,且并不能有效利用。”
 
当你某天突然想给某个人看一张特别的照片时,不得不滑动无数垃圾照片去费劲地寻找。
 
数据湖也是同样的。在Hadoop里面存储数据貌似没什么成本,因为是免费的。但是太多的数据将使你更难真实地从中提炼有价值的洞察。
 
“我认为更好的方式是改变水龙头的方向,在看似低廉地收集数据的基础上去使用这些数据其实并不便宜,反而更昂贵。因此不要随时随地到处收集信息。聚焦在那些你有特定计划的数据集上,并且思考你将如何挖掘它们。”
 
2.接受机器学习战略
 
哪怕是一个集中性的数据集,也尽量利用自动化来从大量数据中探索洞察。
 
Perez认为:“你需要一个自动化系统来清洗数据,人工智能、机器学习、深度学习,无论你用哪种术语来称呼它,其都将成为处理数据的魔法解决方案。我总希望以一种最轻松的方式来释放巨量5PB数据湖的价值,所以从学习一门技术开始吧。”
 
Perez认为在最开始可以挑选一个熟悉的数据集,并且选择一种机器学习的方式来训练自己拥有这门手艺,最后无论是培训其他人还是雇人来以此技术有效地进行工作,即可达成目的。
 
“机器学习是一种黑色艺术,其并不容易,但这是你必备的一项技艺。”
 
3. 决定你想着手的业务问题
 
到处都存在这样的闭环:先搞清楚你正在尝试解决何种业务问题。目标清楚后,就可以很轻松地利用机器学习技术从零开始收集你所需要的数据,并从中找出洞察。
 
举例而言,假设你是一个大盒子的零售商,想了解什么样的顾客会到店。你可以捕捉入店顾客的图像信息,并且用复杂神经网络技术(CNN,一种深度学习神经网络技术,用于解析计算机视觉问题)来处理图片。CNN能够辨识任何个人到底是男性还是女性,儿童还是成年人,一个儿童和成年人,一个年轻人和一个老年人,等等。
 
“一旦你将业务项目以及目标和这些设定绑定在一起,就可以赋能于业务用户,其可以帮你做出决策:‘我需要做更多针对男性的市场推广,因为现在男性太少’。你并不需要提前获得一个精确的战略。如果你没有绑定在一起,那么就这些收集而来的信息也将变成一个很难处理的负面资产了。”
 
一旦你将业务驱动视为能动之一,那么其很可能将这种能力迭代,从而提供给业务更多既定的解决方案。举例而言,一旦你能识别出谁进入了店面,那么你可以应用同样的功能来发现谁路过了化妆品柜台。

关键字:数据湖

原创文章 企业网D1Net

x 防止数据湖成为数据沼泽的三大关键 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

防止数据湖成为数据沼泽的三大关键

责任编辑:cres 作者:Thor Olavsrud |来源:企业网D1Net  2017-06-26 10:40:42 原创文章 企业网D1Net

数据湖可以轻松存储所有的业务数据,但是需要注意的是:大量的存储量(容器库)可能引起陷入瘫痪,让用户动弹不得。我们今天就来谈如何能防止数据湖变成数据沼泽。
 
很多年来,在诸如Apache Hadoop这样的技术支持下,企业纷纷寻求建立数据湖,即企业范围内的数据管理平台来存储原始数据。数据湖能提供各类单一分类信息库来满足企业内所有人都可以进行数据分析到数据挖掘。原始、未治理的数据湖被认为可以捕获所有大数据信息以及整理出所有所需信息。
 
商业智能软件金字塔分析(Pyramid Analytics)的CTO Avi Perez认为已经有很多客户和方方面面在显示数据湖正恶化成为数据沼泽,大量的数据存储(容器)根本不能触达到最终用户。
 
“数据库都非常昂贵,这些数据湖从根本上解决了这个问题。数据湖以及所有的这些大数据项目之所以建立首先都因为面临自市场的压力,其次,真实世界所产生的大量数据需要有一个方式去存储。”Perez说道。
 
目前世界上最成功的那些公司都围绕他们的数据湖创建了业务(例如谷歌就是个很好的案例),但其他公司则没有任何清晰的路径去从其所收集数据中获得价值。
 
Perez认为“他们仅仅收集了一堆尘土,一堆垃圾,一堆废弃物,最后不得不砍掉这些既不能获得任何价值,且又昂贵无比的项目预算。”
 
这也并不是说数据湖是个坏主意。Perez认为每家公司最终也都需要一个数据湖,但是必须深思熟虑地创建一个最终用户可以从中受益的数据湖。
 
为了避免误入歧途,Perez提出如下三项建议。
 
1.在初始尽可能少地收集数据
 
Perez认为企业最容易犯的大错是仅仅因为他们能收集数据,而收集了过多数据。想想如果你有一台智能手机,可能会存数百张甚至更多照片。
 
“也许最后手机里你有十亿张照片,然而其中99%都可能是你一点儿都不想保留的垃圾。因为拍照不花钱,所以你轻而易举地拍了很多照片。你也许在想,有一天我会好好清理一下,但是如果那天一直都没到来呢?你就收集了大量的信息,且并不能有效利用。”
 
当你某天突然想给某个人看一张特别的照片时,不得不滑动无数垃圾照片去费劲地寻找。
 
数据湖也是同样的。在Hadoop里面存储数据貌似没什么成本,因为是免费的。但是太多的数据将使你更难真实地从中提炼有价值的洞察。
 
“我认为更好的方式是改变水龙头的方向,在看似低廉地收集数据的基础上去使用这些数据其实并不便宜,反而更昂贵。因此不要随时随地到处收集信息。聚焦在那些你有特定计划的数据集上,并且思考你将如何挖掘它们。”
 
2.接受机器学习战略
 
哪怕是一个集中性的数据集,也尽量利用自动化来从大量数据中探索洞察。
 
Perez认为:“你需要一个自动化系统来清洗数据,人工智能、机器学习、深度学习,无论你用哪种术语来称呼它,其都将成为处理数据的魔法解决方案。我总希望以一种最轻松的方式来释放巨量5PB数据湖的价值,所以从学习一门技术开始吧。”
 
Perez认为在最开始可以挑选一个熟悉的数据集,并且选择一种机器学习的方式来训练自己拥有这门手艺,最后无论是培训其他人还是雇人来以此技术有效地进行工作,即可达成目的。
 
“机器学习是一种黑色艺术,其并不容易,但这是你必备的一项技艺。”
 
3. 决定你想着手的业务问题
 
到处都存在这样的闭环:先搞清楚你正在尝试解决何种业务问题。目标清楚后,就可以很轻松地利用机器学习技术从零开始收集你所需要的数据,并从中找出洞察。
 
举例而言,假设你是一个大盒子的零售商,想了解什么样的顾客会到店。你可以捕捉入店顾客的图像信息,并且用复杂神经网络技术(CNN,一种深度学习神经网络技术,用于解析计算机视觉问题)来处理图片。CNN能够辨识任何个人到底是男性还是女性,儿童还是成年人,一个儿童和成年人,一个年轻人和一个老年人,等等。
 
“一旦你将业务项目以及目标和这些设定绑定在一起,就可以赋能于业务用户,其可以帮你做出决策:‘我需要做更多针对男性的市场推广,因为现在男性太少’。你并不需要提前获得一个精确的战略。如果你没有绑定在一起,那么就这些收集而来的信息也将变成一个很难处理的负面资产了。”
 
一旦你将业务驱动视为能动之一,那么其很可能将这种能力迭代,从而提供给业务更多既定的解决方案。举例而言,一旦你能识别出谁进入了店面,那么你可以应用同样的功能来发现谁路过了化妆品柜台。

关键字:数据湖

原创文章 企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^