当前位置:大数据业界动态 → 正文

预测世界杯之外 大数据还能做什么

责任编辑:jacky |来源:企业网D1Net  2014-07-20 08:19:13 本文摘自:南方日报

2014巴西世界杯落下帷幕,德国战车最终捧走了大力神杯。赛场之外,最受瞩目的莫过于互联网巨头利用大数据预测赛事结果。本届世界杯共有4家科技公司参与了赛事预测。其中,百度大数据以全场67%、淘汰赛94%的准确率完胜对手。

大数据是如何预测世界杯赛事结果的?几家公司之间数据预测模型有何异同?除了预测世界杯,大数据还能做什么?目前的大数据应用又离精准预测还有多远?

Q1

大数据

如何玩转世界杯

足球运动是世界上最早应用数据辅助决策的领域之一,也是运用大数据最成功的领域之一。

本届世界杯,体育数据分析师兼作家本杰明·莫里斯从OPTA提供的2010年世界杯以来22904场正式比赛的数据中,研究了梅西和其他16574名足球运动员与足球相关的所有数据,得出了为什么梅西是最佳球员的结论。

他对比了梅西和其他16574名运动员在进球数、助攻数、传球数、射门成功率、过人成功率、点球成功率等几个方面的数据,得出了上述结论。以射门成功率为例,通过计算GAA(goals above acerage)即表示实际进球数和可能要进球的场景之间的差距。GAA数值越大表明被浪费的射门机会越少,梅西的GAA独占鳌头,可看出他浪费的射门机会非常之少。

此次世界杯上,共4家科技公司参与了比赛结果预测,分别是百度、微软、谷歌、高盛。

华南理工大学大数据研究中心副主任田翔接受南方日报采访时表示,大数据预测的逻辑基础是每一种非常规的变化事前一定有征兆,如果找到了征兆与变化之间的规律,就可以进行预测。“大数据预测有4个核心步骤,数据收集、建立模型、统计分析、数据挖掘。”

记者从百度大数据团队获悉,为了预测更精准,大数据研究院特别派遣了资深数据科学家团队,利用百度大数据全面搜索过去5年内全世界987支球队的3.7万场比赛数据,并与国内著名彩票网站乐彩网、欧洲必发指数独家数据供应商Spdex等公司建立数据战略合作伙伴关系,将博彩市场数据融入到预测模型中,构建了本次“世界杯预测”产品的足球赛事预测模型。

预测模型共涉及到19972名球员和1.12亿条相关数据,所参考的数据来自百度搜索数据、球队基础数据、球员基础数据、赔率市场数据等。分析的球队不仅包括207支国家队,还囊括了欧洲、南美、亚洲等联赛俱乐部及低级别球队信息。

百度大数据方面表示,预测模型依据5个指标进行构建:球队实力、近期状态、主场效应、博彩数据、大赛能力。

世界杯期间,还有其他众多公司都进行了世界杯预测。微软预测通过分析Betfair博彩交易市场数据来构建预测模型;擅长投资分析的高盛,通过对自1960年以来的正式国际足球比赛数据的回归分析,通过泊松模型分析了每场小组赛的比分情况;谷歌预测数据则主要来自Opta Sports的海量赛事数据,通过球队实力的排序模型,以及基于各个国家球迷到巴西的数量和热情度的主场优势模型,来构建其最终的预测模型。

Q2

大数据预测还能做什么

撇开预测是否准确,互联网公司的大数据打破了由传统博彩业垄断的信息规则。大数据预测的普及,让原本的信息不对称性减弱了。对此,田翔认为,大数据预测的出现,让博彩业的赔率算法变得不那么神秘。互联网企业和博彩公司未来合作应该是趋势,“博彩公司提供数据分析,互联网公司提供技术支持”。

不仅仅是博彩业,大数据在其他领域的应用也已经开始,最近的一个合作对象是文化影视企业。

记者了解到,大数据向影视方面的跨界早有先例。娱乐美国视频网站Netflix基于大数据投资拍摄的电视剧《纸牌屋》一夜爆红,让业界意识到数据分析对影视创作的价值。而谷歌曾公布的电影票房预测模型号称可以提前一个月预测电影上映首周的票房收入,且准确度高达94%。

业内人士分析,未来影院的电影排片、引进电影的选择,甚至是电影开拍前的选角、题材等都可以根据大数据所提供的预测来进行,令产业的运行更高效、经济效益最大化。

此外,大数据还在城市预测、景点预测、高考预测、人口流动、医疗保健、疾病预防等诸多领域开始应用。对于大数据分析在其他各方面的应用,田翔认为总体而言是一个大的趋势。比如,通过百度人口迁徙图可以了解某个城市的人员流入流出情况,从而判断城市发展潜力,对于房地产和相关产业决策影响较大。同时,还可以通过搜集用户的偏好和消费习惯做针对性的营销活动。

Q3

大数据离精准预测有多远

《大数据时代》一书中指出,“大数据本身探寻的是一种趋势,而非精准性,若要无限接近统计结果,必须让大数据与精细的传统统计方法互补,而非两者相互替代。”

田翔认为,数据共享度和覆盖率的不一致,导致不同产业之间大数据的预测精确度也不一样。他进一步解释,大数据分析在金融和医疗方面开展比较困难,因为各金融机构、医院之间很难做到数据共享,单一机构所做的数据搜集都只能得到一个较为片面的数据。“这也是中国大数据水平和国际水平存在差距的根本原因。”田翔表示,当前国内并不缺资金和技术,主要是数据门槛较高,而数据的跨行业和行业自身的打通对于大数据的发展来说非常重要。

此外,中国大数据研究起步较晚也是造成差距的一个原因。田翔告诉记者,国内大数据分析仍处于数据采集尝试阶段。

对于目前大数据预测所存在的问题,中投顾问研究总监郭凡礼则认为,主要是缺乏数据共享平台和完善的预测标准。一方面,大数据基础尚不够牢固,企业之间、政府部门之间、行业协会之间尚未形成良好的沟通交流平台,预测之时难免出现以偏概全的问题。另一方面,当下大数据尚未形成完善的预测标准,对于产业发展趋势、企业未来走向、民众消费方式选择等预测还缺乏足够的前瞻性。

此外,隐私保护与数据精准之间的平衡也是大数据预测无法避开的话题。数据共融共通就要开放市场,这个市场不仅仅是企业之间开放,个人也要开放。而个人数据的开放则可能存在安全保密和伦理隐私双重问题。郭凡礼认为,如何保护用户的隐私,又保证大数据预测的精准度,是当前阶段大数据应用的一大难题。

关键字:谷歌巴西世界杯

本文摘自:南方日报

x 预测世界杯之外 大数据还能做什么 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

预测世界杯之外 大数据还能做什么

责任编辑:jacky |来源:企业网D1Net  2014-07-20 08:19:13 本文摘自:南方日报

2014巴西世界杯落下帷幕,德国战车最终捧走了大力神杯。赛场之外,最受瞩目的莫过于互联网巨头利用大数据预测赛事结果。本届世界杯共有4家科技公司参与了赛事预测。其中,百度大数据以全场67%、淘汰赛94%的准确率完胜对手。

大数据是如何预测世界杯赛事结果的?几家公司之间数据预测模型有何异同?除了预测世界杯,大数据还能做什么?目前的大数据应用又离精准预测还有多远?

Q1

大数据

如何玩转世界杯

足球运动是世界上最早应用数据辅助决策的领域之一,也是运用大数据最成功的领域之一。

本届世界杯,体育数据分析师兼作家本杰明·莫里斯从OPTA提供的2010年世界杯以来22904场正式比赛的数据中,研究了梅西和其他16574名足球运动员与足球相关的所有数据,得出了为什么梅西是最佳球员的结论。

他对比了梅西和其他16574名运动员在进球数、助攻数、传球数、射门成功率、过人成功率、点球成功率等几个方面的数据,得出了上述结论。以射门成功率为例,通过计算GAA(goals above acerage)即表示实际进球数和可能要进球的场景之间的差距。GAA数值越大表明被浪费的射门机会越少,梅西的GAA独占鳌头,可看出他浪费的射门机会非常之少。

此次世界杯上,共4家科技公司参与了比赛结果预测,分别是百度、微软、谷歌、高盛。

华南理工大学大数据研究中心副主任田翔接受南方日报采访时表示,大数据预测的逻辑基础是每一种非常规的变化事前一定有征兆,如果找到了征兆与变化之间的规律,就可以进行预测。“大数据预测有4个核心步骤,数据收集、建立模型、统计分析、数据挖掘。”

记者从百度大数据团队获悉,为了预测更精准,大数据研究院特别派遣了资深数据科学家团队,利用百度大数据全面搜索过去5年内全世界987支球队的3.7万场比赛数据,并与国内著名彩票网站乐彩网、欧洲必发指数独家数据供应商Spdex等公司建立数据战略合作伙伴关系,将博彩市场数据融入到预测模型中,构建了本次“世界杯预测”产品的足球赛事预测模型。

预测模型共涉及到19972名球员和1.12亿条相关数据,所参考的数据来自百度搜索数据、球队基础数据、球员基础数据、赔率市场数据等。分析的球队不仅包括207支国家队,还囊括了欧洲、南美、亚洲等联赛俱乐部及低级别球队信息。

百度大数据方面表示,预测模型依据5个指标进行构建:球队实力、近期状态、主场效应、博彩数据、大赛能力。

世界杯期间,还有其他众多公司都进行了世界杯预测。微软预测通过分析Betfair博彩交易市场数据来构建预测模型;擅长投资分析的高盛,通过对自1960年以来的正式国际足球比赛数据的回归分析,通过泊松模型分析了每场小组赛的比分情况;谷歌预测数据则主要来自Opta Sports的海量赛事数据,通过球队实力的排序模型,以及基于各个国家球迷到巴西的数量和热情度的主场优势模型,来构建其最终的预测模型。

Q2

大数据预测还能做什么

撇开预测是否准确,互联网公司的大数据打破了由传统博彩业垄断的信息规则。大数据预测的普及,让原本的信息不对称性减弱了。对此,田翔认为,大数据预测的出现,让博彩业的赔率算法变得不那么神秘。互联网企业和博彩公司未来合作应该是趋势,“博彩公司提供数据分析,互联网公司提供技术支持”。

不仅仅是博彩业,大数据在其他领域的应用也已经开始,最近的一个合作对象是文化影视企业。

记者了解到,大数据向影视方面的跨界早有先例。娱乐美国视频网站Netflix基于大数据投资拍摄的电视剧《纸牌屋》一夜爆红,让业界意识到数据分析对影视创作的价值。而谷歌曾公布的电影票房预测模型号称可以提前一个月预测电影上映首周的票房收入,且准确度高达94%。

业内人士分析,未来影院的电影排片、引进电影的选择,甚至是电影开拍前的选角、题材等都可以根据大数据所提供的预测来进行,令产业的运行更高效、经济效益最大化。

此外,大数据还在城市预测、景点预测、高考预测、人口流动、医疗保健、疾病预防等诸多领域开始应用。对于大数据分析在其他各方面的应用,田翔认为总体而言是一个大的趋势。比如,通过百度人口迁徙图可以了解某个城市的人员流入流出情况,从而判断城市发展潜力,对于房地产和相关产业决策影响较大。同时,还可以通过搜集用户的偏好和消费习惯做针对性的营销活动。

Q3

大数据离精准预测有多远

《大数据时代》一书中指出,“大数据本身探寻的是一种趋势,而非精准性,若要无限接近统计结果,必须让大数据与精细的传统统计方法互补,而非两者相互替代。”

田翔认为,数据共享度和覆盖率的不一致,导致不同产业之间大数据的预测精确度也不一样。他进一步解释,大数据分析在金融和医疗方面开展比较困难,因为各金融机构、医院之间很难做到数据共享,单一机构所做的数据搜集都只能得到一个较为片面的数据。“这也是中国大数据水平和国际水平存在差距的根本原因。”田翔表示,当前国内并不缺资金和技术,主要是数据门槛较高,而数据的跨行业和行业自身的打通对于大数据的发展来说非常重要。

此外,中国大数据研究起步较晚也是造成差距的一个原因。田翔告诉记者,国内大数据分析仍处于数据采集尝试阶段。

对于目前大数据预测所存在的问题,中投顾问研究总监郭凡礼则认为,主要是缺乏数据共享平台和完善的预测标准。一方面,大数据基础尚不够牢固,企业之间、政府部门之间、行业协会之间尚未形成良好的沟通交流平台,预测之时难免出现以偏概全的问题。另一方面,当下大数据尚未形成完善的预测标准,对于产业发展趋势、企业未来走向、民众消费方式选择等预测还缺乏足够的前瞻性。

此外,隐私保护与数据精准之间的平衡也是大数据预测无法避开的话题。数据共融共通就要开放市场,这个市场不仅仅是企业之间开放,个人也要开放。而个人数据的开放则可能存在安全保密和伦理隐私双重问题。郭凡礼认为,如何保护用户的隐私,又保证大数据预测的精准度,是当前阶段大数据应用的一大难题。

关键字:谷歌巴西世界杯

本文摘自:南方日报

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^