当前位置:大数据业界动态 → 正文

大数据,多大算大?

责任编辑:editor006 |来源:企业网D1Net  2017-06-06 17:17:59 本文摘自:www.yidianzixun.com

大数据,多大算大?”——这是一个经常被问到的问题。

这不是一个经济学问题,也不是一个数学问题,而是需要具体情况具体分析的一个实验问题。然而,实验需要工具。

首先,这取决于目标。如果没有明确的目标,数据常常被笼统地认为有用。然而,实际并非如此。互联网每天都产生大量数据,但其中大部分数据是噪音,不仅没有用,还需要被化疗掉。当我们设定好一个可以量化的目标变量,算法才可以用科学的方式量化评估数据价值。

其次,我们需要工具,可以自动化跑通建模全流程,从而评估效果。这在机器学习技术——有监督学习中有详细介绍。在分类问题中,量化效果的指标包括:AUC, KS, Accuracy, Precision, Recall, F1 measure;在回归问题中,量化效果的指标包括:RMSE, RMSLE, MAE, Gini。也就是说,当我们明确目标后,把数据丢给工具,工具告诉我们:用这份数据建模,效果是多少。

当我们有了目标和工具,我们便可以评估样本大小和数据价值的关系了。我们可以把数据进行分割,一份用于训练模型(训练数据),一份用于测试效果。对于训练数据,我们可以再随机均分为N份,基于部分训练数据进行预测并计算效果。然后,我们便可以评估训练样本大小和模型效果之间的关系。不仅如此,我们还可以由此推断,什么类型的样本最有价值。

不是所有特征(变量)都有用,有用的特征往往并不多。建模工具同时还可以提供——哪些特征有用,权重分别是多少,详见机器学习技术——有监督学习。基于机器学习算法选择的变量和对应权重,我们可以进一步进行关联,找到和有用变量相关的其他潜在变量。

“大数据,多大算大?”这是一个简单的问题,如果你有工具。你丢给工具一份数据,工具告诉你:

1.这份数据的效果有多好?

2.样本大小与数据效果的关系?

3.什么样本最有用?

4.什么特征最有用?

如此,你便可以继续收集和重要样本类似的样本,继续提取和重要变量相关的变量。

如果我们可以轻而易举地知道什么数据有用,那么,大数据,多大都不算大。

关键字:训练模型数据建模

本文摘自:www.yidianzixun.com

x 大数据,多大算大? 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

大数据,多大算大?

责任编辑:editor006 |来源:企业网D1Net  2017-06-06 17:17:59 本文摘自:www.yidianzixun.com

大数据,多大算大?”——这是一个经常被问到的问题。

这不是一个经济学问题,也不是一个数学问题,而是需要具体情况具体分析的一个实验问题。然而,实验需要工具。

首先,这取决于目标。如果没有明确的目标,数据常常被笼统地认为有用。然而,实际并非如此。互联网每天都产生大量数据,但其中大部分数据是噪音,不仅没有用,还需要被化疗掉。当我们设定好一个可以量化的目标变量,算法才可以用科学的方式量化评估数据价值。

其次,我们需要工具,可以自动化跑通建模全流程,从而评估效果。这在机器学习技术——有监督学习中有详细介绍。在分类问题中,量化效果的指标包括:AUC, KS, Accuracy, Precision, Recall, F1 measure;在回归问题中,量化效果的指标包括:RMSE, RMSLE, MAE, Gini。也就是说,当我们明确目标后,把数据丢给工具,工具告诉我们:用这份数据建模,效果是多少。

当我们有了目标和工具,我们便可以评估样本大小和数据价值的关系了。我们可以把数据进行分割,一份用于训练模型(训练数据),一份用于测试效果。对于训练数据,我们可以再随机均分为N份,基于部分训练数据进行预测并计算效果。然后,我们便可以评估训练样本大小和模型效果之间的关系。不仅如此,我们还可以由此推断,什么类型的样本最有价值。

不是所有特征(变量)都有用,有用的特征往往并不多。建模工具同时还可以提供——哪些特征有用,权重分别是多少,详见机器学习技术——有监督学习。基于机器学习算法选择的变量和对应权重,我们可以进一步进行关联,找到和有用变量相关的其他潜在变量。

“大数据,多大算大?”这是一个简单的问题,如果你有工具。你丢给工具一份数据,工具告诉你:

1.这份数据的效果有多好?

2.样本大小与数据效果的关系?

3.什么样本最有用?

4.什么特征最有用?

如此,你便可以继续收集和重要样本类似的样本,继续提取和重要变量相关的变量。

如果我们可以轻而易举地知道什么数据有用,那么,大数据,多大都不算大。

关键字:训练模型数据建模

本文摘自:www.yidianzixun.com

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^