当前位置:大数据业界动态 → 正文

分享:10道测试数据科学家的题目

责任编辑:editor007 |来源:企业网D1Net  2017-01-03 20:34:03 本文摘自:网络大数据

摘要:Q1.下面哪个步骤/假设,影响回归建模中欠拟合(under-fitting)和过度拟合(over-fitting)之间的平衡。

Q1.下面哪个步骤/假设,影响回归建模中欠拟合(under-fitting)和过度拟合(over-fitting)之间的平衡。

A.多项式的次数

B.计算权重的方式是矩阵求逆还是梯度下降法

C.常数项的使用

答案:A

选择合适的多项式次数在回归的拟合中起关键作用。如果我们选择更高次数的多项式,会显著增加过度拟合的可能。

Q2.假设你有以下数据,一组输入变量和一组输出变量。请问如果使用线性方程,留一法交叉验证的均方误差是?

A.10/27

B.20/27

C.50/27

D.49/27

答案:D

我们需要计算每个交叉验证点的残差。使用两个点计算拟合线,留一个点来做交叉验证。

数据科学家

  留一法交叉验证的均方误差= (2^2 +(2/3)^2 +1^2) /3 = 49/27

Q3.关于最大似然估计(Maximum Likelihood estimate ,MLE)下面说法正确的有?

1.不一定存在最大似然估计值

2.一定存在最大似然估计值

3.如果存在最大似然估计值 ,可能不是唯一解

4.如果存在最大似然估计值 ,一定是唯一解

A.1 和 4

B.2 和 3

C.1 和3

D.2和 4

答案:C

最大似然值可能不是一个转折点,如函数(或对数似然函数)的一阶导数消失了

数据科学家

  最大似然值可能不唯一

数据科学家

Q4.假设,一个“线性回归”模型能完美的符合训练数据(train error)(训练误差是0)。则下列哪个陈述是正确的?

A.你的测试误差(test error)总是0

B.你不会再有测试误差为0

C.以上都不对

答:C

如果测试数据里没有噪声,测试误差可能是零。换句话说,如果测试数据完美的代表了训练数据,测试误差可能是0,但并非总是如此。

Q5.在一个线性回归问题中,我们使用”R^2″来衡量拟合优度。如果我们在线性回归模型中增加了一个特征后再训练同一个模型,以下说法正确的是?

A.如果R^2 增加,则这个变量显著影响

B.如果R^2 减少,则这个变量不显著

C.只有R^2 不能说明变量的重要性,还不能做出判断

D.以上都不对

答:C

只有R^2 不能说明一个变量是否显著,因为每次我们增加一个特征时,可决系数可能增加或者保持不变。但是,如果是调整R^2则不一样(如果特征是显著的,调整R^2增加)

Q6. 有关回归分析里的残差,以下哪个陈述是正确的?

A.残差的均值总是0

B.残差的均值总是小于0

C.残差的均值总是大于0

D.残差没有这样的规则

答:A

回归里残差和总是0。残差的总和是0,那均值也肯定是0.

Q7.下面关于异方差性(Heteroskedasticity)正确的是?

A.不同误差的线性回归

B.恒定误差的线性回归

C.0误差的线性回归

D.以上都不对

答:A

误差的不恒定产生了异方差性。一般来说,因为异常值或者极具影响的值,产生了不恒定的方差。

你可以参考这篇文章了解更多有关回归分析的更多细节。

Q8.下面哪一项说明X和Y存在非常强的关系?

A.相关系数( Correlation coefficient)=0.9

B.零假设(β=0)的p值为0.0001

C.零假设(β=0)的t统计量为30

D.以上都不对

答:A

变量间的相关系数=0.9,说明变量间的关系是非常强的。而另一方面,p值和t统计量仅仅衡量了存在关系的显著性。如果有足够的数据,即使弱关系也会有显著性。

Q9.推导线性回归参数时,我们基于以下哪些假设。

1.因变量y和自变量x的之间的关系是线性的

2.模型误差是独立的

3.误差分布的均值为0,标准差为一个常数

4.自变量x是非随机的,测量是无误差的

A.1,2,3

B.1,3,4

C.1,3

D.以上所有

答案:D

推导线性回归参数时,我们基于以上所有假设。如果违背了任意一条假设,模型都会推导错误。

Q10. 要测量因连续变量y(因变量)和x(自变量 )之间的线性关系,最适合下面哪种图?

A.散点图

B.柱状图

C.直方图

D.以上都不是

答:A

使用散点图去测量连续变量之间的线性关系是一个很好的选择。我们可以发现一个变量怎么随着另一个变量改变。散点图显示了两个定量变量之间的关系。

关键字:最大似然估计

本文摘自:网络大数据

x 分享:10道测试数据科学家的题目 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

分享:10道测试数据科学家的题目

责任编辑:editor007 |来源:企业网D1Net  2017-01-03 20:34:03 本文摘自:网络大数据

摘要:Q1.下面哪个步骤/假设,影响回归建模中欠拟合(under-fitting)和过度拟合(over-fitting)之间的平衡。

Q1.下面哪个步骤/假设,影响回归建模中欠拟合(under-fitting)和过度拟合(over-fitting)之间的平衡。

A.多项式的次数

B.计算权重的方式是矩阵求逆还是梯度下降法

C.常数项的使用

答案:A

选择合适的多项式次数在回归的拟合中起关键作用。如果我们选择更高次数的多项式,会显著增加过度拟合的可能。

Q2.假设你有以下数据,一组输入变量和一组输出变量。请问如果使用线性方程,留一法交叉验证的均方误差是?

A.10/27

B.20/27

C.50/27

D.49/27

答案:D

我们需要计算每个交叉验证点的残差。使用两个点计算拟合线,留一个点来做交叉验证。

数据科学家

  留一法交叉验证的均方误差= (2^2 +(2/3)^2 +1^2) /3 = 49/27

Q3.关于最大似然估计(Maximum Likelihood estimate ,MLE)下面说法正确的有?

1.不一定存在最大似然估计值

2.一定存在最大似然估计值

3.如果存在最大似然估计值 ,可能不是唯一解

4.如果存在最大似然估计值 ,一定是唯一解

A.1 和 4

B.2 和 3

C.1 和3

D.2和 4

答案:C

最大似然值可能不是一个转折点,如函数(或对数似然函数)的一阶导数消失了

数据科学家

  最大似然值可能不唯一

数据科学家

Q4.假设,一个“线性回归”模型能完美的符合训练数据(train error)(训练误差是0)。则下列哪个陈述是正确的?

A.你的测试误差(test error)总是0

B.你不会再有测试误差为0

C.以上都不对

答:C

如果测试数据里没有噪声,测试误差可能是零。换句话说,如果测试数据完美的代表了训练数据,测试误差可能是0,但并非总是如此。

Q5.在一个线性回归问题中,我们使用”R^2″来衡量拟合优度。如果我们在线性回归模型中增加了一个特征后再训练同一个模型,以下说法正确的是?

A.如果R^2 增加,则这个变量显著影响

B.如果R^2 减少,则这个变量不显著

C.只有R^2 不能说明变量的重要性,还不能做出判断

D.以上都不对

答:C

只有R^2 不能说明一个变量是否显著,因为每次我们增加一个特征时,可决系数可能增加或者保持不变。但是,如果是调整R^2则不一样(如果特征是显著的,调整R^2增加)

Q6. 有关回归分析里的残差,以下哪个陈述是正确的?

A.残差的均值总是0

B.残差的均值总是小于0

C.残差的均值总是大于0

D.残差没有这样的规则

答:A

回归里残差和总是0。残差的总和是0,那均值也肯定是0.

Q7.下面关于异方差性(Heteroskedasticity)正确的是?

A.不同误差的线性回归

B.恒定误差的线性回归

C.0误差的线性回归

D.以上都不对

答:A

误差的不恒定产生了异方差性。一般来说,因为异常值或者极具影响的值,产生了不恒定的方差。

你可以参考这篇文章了解更多有关回归分析的更多细节。

Q8.下面哪一项说明X和Y存在非常强的关系?

A.相关系数( Correlation coefficient)=0.9

B.零假设(β=0)的p值为0.0001

C.零假设(β=0)的t统计量为30

D.以上都不对

答:A

变量间的相关系数=0.9,说明变量间的关系是非常强的。而另一方面,p值和t统计量仅仅衡量了存在关系的显著性。如果有足够的数据,即使弱关系也会有显著性。

Q9.推导线性回归参数时,我们基于以下哪些假设。

1.因变量y和自变量x的之间的关系是线性的

2.模型误差是独立的

3.误差分布的均值为0,标准差为一个常数

4.自变量x是非随机的,测量是无误差的

A.1,2,3

B.1,3,4

C.1,3

D.以上所有

答案:D

推导线性回归参数时,我们基于以上所有假设。如果违背了任意一条假设,模型都会推导错误。

Q10. 要测量因连续变量y(因变量)和x(自变量 )之间的线性关系,最适合下面哪种图?

A.散点图

B.柱状图

C.直方图

D.以上都不是

答:A

使用散点图去测量连续变量之间的线性关系是一个很好的选择。我们可以发现一个变量怎么随着另一个变量改变。散点图显示了两个定量变量之间的关系。

关键字:最大似然估计

本文摘自:网络大数据

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^