当前位置:大数据业界动态 → 正文

感受大数据的魅力

责任编辑:editor006 |来源:企业网D1Net  2014-09-04 17:50:28 本文摘自:中国信息报

秋天是收获的季节。8月27日,国家统计局科研所10楼会议室里充溢着浓厚的学术气息,“用统计模型感受大数据的魅力”为主题的第十期青年学术沙龙活动如期举办。即将代表局机关参加全国统计建模大赛的科研所代表队的李伟、董倩和孙娜娜,向大家展示了她们的参赛论文——《基于网络搜索数据的房地产价格预测》。科研所所长潘璠,副所长石方川,副司长级干部孙学光、余根钱以及科研所青年同志近20人参加了本次活动。

创新思路 勇于实践

三位青年同志的论文前不久刚刚代表科研所在国家统计局机关第五届“青联杯”统计建模比赛中获得二等奖,为了拿出更好的作品参加今年9月份的全国统计建模大赛,三位同志对论文进行了修改与补充,使论文更加严谨,论据更加完善。

李伟博士首先从研究背景和研究思路、理论分析框、变量和数据描述以及房地产价格预测模型等四方面对参赛论文作了详细的介绍。她认为网络搜索数据通常代表经济主体的预期、预示着经济主体的下一步经济行为,对其研究分析能够得出经济主体行为的趋势与规律。利用网络搜索数据对房地产价格走势进行预测,将是一种非常有效的工具和方法。为了解决房地产价格的时效性问题,她们尝试利用百度搜索数据预测新建住宅销售价格指数和二手住宅销售价格指数。由于网络搜索数据可以实时获取,可以把影响价格变化的即时因素带入预测模型,这样在每月月初就可以得到上月的新房和二手房价格指数,弥补了传统统计数据信息发布滞后的问题,同时该预测数据也可以作为传统房地产价格统计数据的有益补充和参考。

董倩博士以北京市二手房和新房价格预测为例,向大家详细介绍了预测模型的构建过程。本次建模比赛中,她们创新性地将百度关键词搜索指数数据与官方公布的城市月度二手房住宅和新建商品房住宅价格指数相结合,利用交叉验证技术和线性回归、回归树、随机森林、Bagging、m-Boosting、支持向量机、神经网络和混合线性回归等8种模型,分别对北京、上海、广州、南京、沈阳、西安6个大中城市的二手房和新房价格指数进行了拟合和预测,拟合结果与官方统计数据非常相近。结果表明网络搜索指数能够反映出各大中城市二手房和新房价格指数的变动情况,以及城市间的差异。

孙娜娜从创新与展望两个方面阐述了该论文的研究亮点:采用网络搜索数据进行预测不但具有较好的预测效果,而且每个被预测的城市采用交叉验证技术分别建立模型进行预测,并能够通过比较选取自己预测效果最优的模型。为了弥补月度网络搜索数据过少的不足,论文采用3折交叉验证技术,保证了预测结果的精确性与可靠性。由于百度搜索指数每日实时更新,因此基于她们的预测模型在每月1日即可得到上月的二手住宅和新建住宅销售价格指数的预测数,比官方统计数据提前了两周。随着网络搜索指数数据量的积累,模型预测精度将会越来越高。这一研究思路和方法可以进一步拓展到月度公布数据的其他官方统计领域。

互动热烈 学术气浓

围绕建模论文,与会者展开了热烈的讨论。

潘璠所长对三位同志的报告给予了充分肯定,在科研所不生产也不掌握大数据的情况下,三位同志能够发挥各自所长、团结协作、克服困难,将网络搜索数据与我国房地产价格指数联系起来,具有很强的创新性,在8月7日的局机关报告会上得到了马建堂局长的高度评价,称其“应用性强,达到相当高的水平”、应该评“局长奖”。

副司长级干部余根钱认为,三位青年同志的建模论文具有创新的学术价值,从应用角度考虑需要通过实践来检验模型的预测效果,在数据变动比较大的情况下如果能表现出很好的预测能力,以此来说明模型对宏观经济的适用性。

经济统计研究室副主任姜澍认为,搜索关键词的选取是一个难点,需要考虑如何将人的搜索行为细化为具体的关键词。

如何建立起搜索数据与房价变动的逻辑关系?何强博士提出了自己的疑问,并以当前流行的“冰桶挑战”为例说明它使参与者体会“渐冻”的感受,所以能够提升社会对“渐冻人”的关注。

冯蕾博士建议,有必要在建模前对搜索数据与房价变动的逻辑关系作出说明,并准确表述模型与政府统计数据的验证关系。

原鹏飞博士提出,搜索关键词与房价的变动可能表现出正向或反向的关系,如何确立这种关系是需要突出的重点。

施凤丹博士认为,需要寻求房价与搜索量的真实关系,使文章可以从理论上站得住脚,结论和展望部分的论述需要谨慎一些,实事求是。

陶然博士则认为,文中采用数据挖掘模型在大数据背景下更多的是从人们搜索行为与房价的相关性去考虑挖掘信息,而不是从讨论搜索行为与房价涨跌的因果关系去实现传统的统计建模。

谷彬博士建议,从提高模型实践应用的角度可以考虑将模型的预测功能模块化与规范化,能够提高理论方法的实践应用性。

针对大家的疑问和建议,三位同志一一作了解答和讨论,并表示此次沙龙活动对她们进一步完善模型、提高论文质量很有帮助。

潘璠所长最后总结说,“此次活动,是青年学术沙龙活动开展以来,讨论、沟通、互动最充分、最热烈的一次。我们要的就是这样一种学术气氛。”他表示,今后科研所青年同志应当积极参加统计建模和其他各种活动,充分展现青年统计科研人员将统计理论与实践结合的新风貌。

在这收获的季节,通过第十期青年学术沙龙活动,相信在场的每个人都收获了很多。

关键字:统计建模回归树数据挖掘

本文摘自:中国信息报

x 感受大数据的魅力 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

感受大数据的魅力

责任编辑:editor006 |来源:企业网D1Net  2014-09-04 17:50:28 本文摘自:中国信息报

秋天是收获的季节。8月27日,国家统计局科研所10楼会议室里充溢着浓厚的学术气息,“用统计模型感受大数据的魅力”为主题的第十期青年学术沙龙活动如期举办。即将代表局机关参加全国统计建模大赛的科研所代表队的李伟、董倩和孙娜娜,向大家展示了她们的参赛论文——《基于网络搜索数据的房地产价格预测》。科研所所长潘璠,副所长石方川,副司长级干部孙学光、余根钱以及科研所青年同志近20人参加了本次活动。

创新思路 勇于实践

三位青年同志的论文前不久刚刚代表科研所在国家统计局机关第五届“青联杯”统计建模比赛中获得二等奖,为了拿出更好的作品参加今年9月份的全国统计建模大赛,三位同志对论文进行了修改与补充,使论文更加严谨,论据更加完善。

李伟博士首先从研究背景和研究思路、理论分析框、变量和数据描述以及房地产价格预测模型等四方面对参赛论文作了详细的介绍。她认为网络搜索数据通常代表经济主体的预期、预示着经济主体的下一步经济行为,对其研究分析能够得出经济主体行为的趋势与规律。利用网络搜索数据对房地产价格走势进行预测,将是一种非常有效的工具和方法。为了解决房地产价格的时效性问题,她们尝试利用百度搜索数据预测新建住宅销售价格指数和二手住宅销售价格指数。由于网络搜索数据可以实时获取,可以把影响价格变化的即时因素带入预测模型,这样在每月月初就可以得到上月的新房和二手房价格指数,弥补了传统统计数据信息发布滞后的问题,同时该预测数据也可以作为传统房地产价格统计数据的有益补充和参考。

董倩博士以北京市二手房和新房价格预测为例,向大家详细介绍了预测模型的构建过程。本次建模比赛中,她们创新性地将百度关键词搜索指数数据与官方公布的城市月度二手房住宅和新建商品房住宅价格指数相结合,利用交叉验证技术和线性回归、回归树、随机森林、Bagging、m-Boosting、支持向量机、神经网络和混合线性回归等8种模型,分别对北京、上海、广州、南京、沈阳、西安6个大中城市的二手房和新房价格指数进行了拟合和预测,拟合结果与官方统计数据非常相近。结果表明网络搜索指数能够反映出各大中城市二手房和新房价格指数的变动情况,以及城市间的差异。

孙娜娜从创新与展望两个方面阐述了该论文的研究亮点:采用网络搜索数据进行预测不但具有较好的预测效果,而且每个被预测的城市采用交叉验证技术分别建立模型进行预测,并能够通过比较选取自己预测效果最优的模型。为了弥补月度网络搜索数据过少的不足,论文采用3折交叉验证技术,保证了预测结果的精确性与可靠性。由于百度搜索指数每日实时更新,因此基于她们的预测模型在每月1日即可得到上月的二手住宅和新建住宅销售价格指数的预测数,比官方统计数据提前了两周。随着网络搜索指数数据量的积累,模型预测精度将会越来越高。这一研究思路和方法可以进一步拓展到月度公布数据的其他官方统计领域。

互动热烈 学术气浓

围绕建模论文,与会者展开了热烈的讨论。

潘璠所长对三位同志的报告给予了充分肯定,在科研所不生产也不掌握大数据的情况下,三位同志能够发挥各自所长、团结协作、克服困难,将网络搜索数据与我国房地产价格指数联系起来,具有很强的创新性,在8月7日的局机关报告会上得到了马建堂局长的高度评价,称其“应用性强,达到相当高的水平”、应该评“局长奖”。

副司长级干部余根钱认为,三位青年同志的建模论文具有创新的学术价值,从应用角度考虑需要通过实践来检验模型的预测效果,在数据变动比较大的情况下如果能表现出很好的预测能力,以此来说明模型对宏观经济的适用性。

经济统计研究室副主任姜澍认为,搜索关键词的选取是一个难点,需要考虑如何将人的搜索行为细化为具体的关键词。

如何建立起搜索数据与房价变动的逻辑关系?何强博士提出了自己的疑问,并以当前流行的“冰桶挑战”为例说明它使参与者体会“渐冻”的感受,所以能够提升社会对“渐冻人”的关注。

冯蕾博士建议,有必要在建模前对搜索数据与房价变动的逻辑关系作出说明,并准确表述模型与政府统计数据的验证关系。

原鹏飞博士提出,搜索关键词与房价的变动可能表现出正向或反向的关系,如何确立这种关系是需要突出的重点。

施凤丹博士认为,需要寻求房价与搜索量的真实关系,使文章可以从理论上站得住脚,结论和展望部分的论述需要谨慎一些,实事求是。

陶然博士则认为,文中采用数据挖掘模型在大数据背景下更多的是从人们搜索行为与房价的相关性去考虑挖掘信息,而不是从讨论搜索行为与房价涨跌的因果关系去实现传统的统计建模。

谷彬博士建议,从提高模型实践应用的角度可以考虑将模型的预测功能模块化与规范化,能够提高理论方法的实践应用性。

针对大家的疑问和建议,三位同志一一作了解答和讨论,并表示此次沙龙活动对她们进一步完善模型、提高论文质量很有帮助。

潘璠所长最后总结说,“此次活动,是青年学术沙龙活动开展以来,讨论、沟通、互动最充分、最热烈的一次。我们要的就是这样一种学术气氛。”他表示,今后科研所青年同志应当积极参加统计建模和其他各种活动,充分展现青年统计科研人员将统计理论与实践结合的新风貌。

在这收获的季节,通过第十期青年学术沙龙活动,相信在场的每个人都收获了很多。

关键字:统计建模回归树数据挖掘

本文摘自:中国信息报

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^