当前位置:大数据业界动态 → 正文

人们将面临大数据无法进行预测分析的挑战

责任编辑:editor007 |来源:企业网D1Net  2017-01-13 22:26:45 本文摘自:网络大数据

如今,大多数人认为在大数据时代,人们总是有足够多的信息来建立强大的分析,然而事实并非如此。在某些情况下,即便是大量的数据也仍然不支持基本预测的正常进行。很多时候,我们并没有太多可以做到的事情,除了承认事实和坚持基本知识。这是大数据不能被用来预测的挑战,似乎也是一个不可能的悖论,但是却引来人们探讨为什么会是这样。

情景1:大数据,小宇宙

举一个例子,当事物很少却有大量的数据时,很难找到有意义的模式。以一家航空公司的制造商为例,如今,每架飞机每小时运行产生上千兆字节的数据。诸如发动机在不同条件下操作,分析这些操作数据有很多好处。然而这对于一些分析行为来说可能很困难,如预测性维护。这是为什么?

人们意识到,即使是最大的飞机制造商,每年也只能生产出几百架飞机。在考虑不同模型的时候,一年中可能只有几十个模型被生产出来。纵使飞机全部装满传感器,也很难开发有意义的预测部件故障模型。为什么?因为只有几十或几百架飞机,样品的数量太小。

特别是对于新飞机来说,这种情况还会加剧一些问题的出现(例如发动机或发动机部件之类的故障率较低)。因此,尽管可以在几年的操作中收集PB的数据,但是可能没有足够的飞机来创建足够大的事件池,从而构建真正有效的预测模型。当然,人们可以监测数据,寻找支持调查或干预的异常模式,但是这不是一个预测模型。

情景2:大数据,大宇宙,令人难以置信的罕见事件

还有其它情况,那就是有大量的人或事物需要分析大量的数据。然而,当事件非常罕见时,仍然可能遇到一种情况,即没有足够的样本来构建真正有效的预测模型。这并不是说,人们在分析数据和理解行为的各个方面没有很多价值。它只是说,有可能不能建立有效的预测模型。

让我们考虑一下计算机芯片的生产情况。全球每年产生数亿甚至数十亿片芯片,并且其速度在不断加快。几十年前,一千个或一万个的数量级缺陷可能是可以接受的。对于当今的芯片产品,其缺陷可能需要更接近百万级。曾经有客户提出,汽车行业面临着压力,需要将芯片缺陷率降低到十亿分之一或更低。这是为什么?主要是因为如果实现这种低错误率,并且人们可以假设导致有缺陷芯片存在的原因,则对于任何特定的一组原因,其发生任何缺陷的实例会变少,人们可能没有足够的样本来分析,但能够产生良好的模型以预测这些失败可能发生的时间和地点。人们考虑到芯片技术将随着时间的推移而过时,在短短几年内被更新的产品所替代,因此,这可能是一个持续时间比较久的问题。

不要绝望,做好准备

请记住,在这里提出的问题并不是什么规则,而只是样本。然而,随着人们收集数据的来源越来越多,企业开始考虑用越来越多的因素来分析业务,这些异常样本肯定会出现在组织内部。重要的是,人们只需要关注一个非常小的宇宙来分析,或者通过一个令人难以置信的稀有事件来分析。更糟糕的是,这种罕见事件是小宇宙中的。假设只考虑数据与业务问题相关的情况,而那些不相关的数据将永远不会增加价值,无论其数量多么大或多么小。

当人们不确定自己的数据是否是有效预测时,请确保在用于开发数据的复杂分析之前投入更多精力,其评估可能是可行的。在某些情况下,人们可能需要解决基本分析问题。然而,重要的是要记住,这种情况应该比没有任何数据来分析更好。

关键字:异常模式预测模型

本文摘自:网络大数据

x 人们将面临大数据无法进行预测分析的挑战 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

人们将面临大数据无法进行预测分析的挑战

责任编辑:editor007 |来源:企业网D1Net  2017-01-13 22:26:45 本文摘自:网络大数据

如今,大多数人认为在大数据时代,人们总是有足够多的信息来建立强大的分析,然而事实并非如此。在某些情况下,即便是大量的数据也仍然不支持基本预测的正常进行。很多时候,我们并没有太多可以做到的事情,除了承认事实和坚持基本知识。这是大数据不能被用来预测的挑战,似乎也是一个不可能的悖论,但是却引来人们探讨为什么会是这样。

情景1:大数据,小宇宙

举一个例子,当事物很少却有大量的数据时,很难找到有意义的模式。以一家航空公司的制造商为例,如今,每架飞机每小时运行产生上千兆字节的数据。诸如发动机在不同条件下操作,分析这些操作数据有很多好处。然而这对于一些分析行为来说可能很困难,如预测性维护。这是为什么?

人们意识到,即使是最大的飞机制造商,每年也只能生产出几百架飞机。在考虑不同模型的时候,一年中可能只有几十个模型被生产出来。纵使飞机全部装满传感器,也很难开发有意义的预测部件故障模型。为什么?因为只有几十或几百架飞机,样品的数量太小。

特别是对于新飞机来说,这种情况还会加剧一些问题的出现(例如发动机或发动机部件之类的故障率较低)。因此,尽管可以在几年的操作中收集PB的数据,但是可能没有足够的飞机来创建足够大的事件池,从而构建真正有效的预测模型。当然,人们可以监测数据,寻找支持调查或干预的异常模式,但是这不是一个预测模型。

情景2:大数据,大宇宙,令人难以置信的罕见事件

还有其它情况,那就是有大量的人或事物需要分析大量的数据。然而,当事件非常罕见时,仍然可能遇到一种情况,即没有足够的样本来构建真正有效的预测模型。这并不是说,人们在分析数据和理解行为的各个方面没有很多价值。它只是说,有可能不能建立有效的预测模型。

让我们考虑一下计算机芯片的生产情况。全球每年产生数亿甚至数十亿片芯片,并且其速度在不断加快。几十年前,一千个或一万个的数量级缺陷可能是可以接受的。对于当今的芯片产品,其缺陷可能需要更接近百万级。曾经有客户提出,汽车行业面临着压力,需要将芯片缺陷率降低到十亿分之一或更低。这是为什么?主要是因为如果实现这种低错误率,并且人们可以假设导致有缺陷芯片存在的原因,则对于任何特定的一组原因,其发生任何缺陷的实例会变少,人们可能没有足够的样本来分析,但能够产生良好的模型以预测这些失败可能发生的时间和地点。人们考虑到芯片技术将随着时间的推移而过时,在短短几年内被更新的产品所替代,因此,这可能是一个持续时间比较久的问题。

不要绝望,做好准备

请记住,在这里提出的问题并不是什么规则,而只是样本。然而,随着人们收集数据的来源越来越多,企业开始考虑用越来越多的因素来分析业务,这些异常样本肯定会出现在组织内部。重要的是,人们只需要关注一个非常小的宇宙来分析,或者通过一个令人难以置信的稀有事件来分析。更糟糕的是,这种罕见事件是小宇宙中的。假设只考虑数据与业务问题相关的情况,而那些不相关的数据将永远不会增加价值,无论其数量多么大或多么小。

当人们不确定自己的数据是否是有效预测时,请确保在用于开发数据的复杂分析之前投入更多精力,其评估可能是可行的。在某些情况下,人们可能需要解决基本分析问题。然而,重要的是要记住,这种情况应该比没有任何数据来分析更好。

关键字:异常模式预测模型

本文摘自:网络大数据

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^