当前位置:大数据业界动态 → 正文

今天的大数据就是明天的小数据

责任编辑:王李通 |来源:企业网D1Net  2014-04-20 09:15:16 本文摘自:和讯网

北大国家发展研究院20周年暨BiMBA15周年庆典于2014年4月16-21日北京举办。和讯网全程报道。阿里巴巴集团副总裁、数据委员会会长车品觉在19日的“大数据与互联网金融”分论坛上表示,今天的大数据就是明天的小数据,这个是我们在做大数据的人里面都知道的。所以今天我们也许看见我们手上拿着非常大的数据,其实我们也是跑进去数据里面跑马圈地的时代,当你还以为数据是很大的时候应该想想,其实你现在手上用的数据,只不过是冰山一角而已。在未来我们会看到非常多的手动收集以及被动收集的数据都会出现。

以下为文字实录:

车品觉:我当时跟我的分析师说,我要知道我5分钟进来的人到底是谁,到底他们是怎样的情况。其实我不是一个在台上会讲的人。其实互联网的数据,在1997年的时候,互联网刚起来时候,大家都会觉得说(英语),到了2014年你会看见哪有一个网站没有说(英语)。所以大数据本身它还是有一个另一个(英语)。

其实数据挖掘在很早之前我们就已经有用了,95年的时候,当W95发布的时候,是MV级的量。我们的大数据起码是一年跟一年比较每年增长2点多倍的数据量,已经到几百PB机的数量。所以大数据的成本很低,其实一点都不低,当你要设置无限数据的时候,其实它成本并不低。

今天的大数据就是明天的小数据,这个是我们在做大数据的人里面都知道的。所以今天我们也许看见我们手上拿着非常大的数据,其实我们也是跑进去数据里面刨跑马圈地的时代,当你还以为数据是很大的时候应该想想,其实你现在手上用的数据,只不过是冰山一角而已。在未来我们会看到非常多的手动收集以及被动收集的数据都会出现。

当数据多到覆盖整个样本空间的时候,基于样本的inference的时候这就是大数据。在这个时候,有互联网,穿戴服务催生很大的量的数据,非结构化的数据的保障,用户型的数据会显得更丰富,以及网络广告从群发到精准,RTB会出现,这就是大数据的一个比较准确的。你发现今天我们所讲的大数据,其实是范例的大数据,当我们有很大量数据的时候我们少是大数据,当然从科学的角度来看,它更多的是用样本空间的观点。

4个V,在企业来讲我们说可解释,今天的人越来越聪明了,你必须要解释,要落地的时候我们要知道,这个数据是可实施的,这个数据是精确稳定的,而且是可以解释给我们的。这是4个V,就是大数据落地的时候,我们基本上应该要知道的。

过去从新样本中可以找到特征,实验了之后得到结果。但是在大数据的时代,我们拿到新样本的时候,因为我们有一个海量数据的样本,所以我们今天在大数据里面,我们通常用大量的数据但是简单的模型,不像过去小数据的时候我们用一个复杂的模型。现实里面企业其实是很少用大数据的,一般会用大数据来先找到方向,找到方向之后还是用传统的方法来提炼自己的数据,是交叉使用。数据的图形里面也有不同的数据模型来阐述结果。但是海量的数据加复杂的模型,我们今天还不知道它会面会怎么样。

我们从农耕时代,到工业技术革命,到半导体电子,到信息技术,到数据技术,我们阿里经过几年大数据之后,我们发现过去的几年,我们做大数据行业的人,我们有很多的工具其实都没有健全。我们阿里用了很多时间去健全这些工具。我们已经开始建立了一个数据地图,会用大数据的原数据告诉我这个地图是从哪里来的。过去我们只是用数据,但是今天我们要知道数据是从哪里来的。

有很多人今天用数据的时候,他并不知道数据是有一个基础的楼层,你不关注的话出来的结果是不稳定的。包括我们自己,三个月里面很准的,三个月以后就不准了,就是说它是不稳定的。这个应该有几个月了,数据已经不是你当时所想的数据模型的出现。

过去来讲没有大数据的时候,我们是有问题找数据,今天有大数据的时候,我们是用数据掌找问题。所以我们决策支持部开始变化了,连我的老板都问我,你不能用低端的看一下公司里面的KTI有什么问题吗?今天我们更多的是以数据找问题的办法。

当然我们会发现,大数据里面好像又很完美,但是我想跟大家说一个例子,比如说今天早上我看见一间衣服,我在电脑里搜这个衣服,我搜索的时候看见了一个手表,我买了一百块的手表。在数据库里面,我们只关注这个人买了一百块的手表,不会关注他之前早上的时候看见了他个衣服,也没有人知道其实这个人之所以没有点搜索的结果,是因为他要开会,也没有人知道这个人拿着手机来上网的个人,和用电脑上网的他个人是同一个人。当然你也不能识别在PC里面的人是老公还是老婆,有时候他们是用同一个ID的。

其实当我们用方法看大数据的时候,我们会发现大数据里面其实有非常多的洞在里面,这个洞不是没有收取数据。

现实中还有一点我们要放弃一些数据,我们收集数据,从来没有想过要放弃数据的,我们有多少数据就收集多少数据,因为这个数据可能未来会有用。但是当数据大到一定程度的时候,我们要放弃一些数据。真正的大数据你不可能无极限的收下去。如果两年前的淘宝我们买东西的行为,数据的时候,其实到现在为止这个网站已经变了,数据的场景也变了,你的生命周期也变了

忘掉大数据,企业要的是实效数据。你要理解业务的场景,你要有应用数据的能力,你要回答有没有解决这个问题,以及下次怎么改进。我们讲的是数据的生态圈,首先我们使用数据,当我们数据来帮企业做判断,解决问题的话,我们叫这个数据是数据欢迎你。但是我们都知道业务的人很多是不知道如何来找数据的。

反过来说,我们发现另外一个圈,从无限数据中寻找数据,假设什么数据都可以获取,就是运营数据,我们企业里面其实做数据的人很多都不知道别人怎么用数据的,所以用的人不知道有什么数据可用,但是做数据的人也不知道别人怎么用他的数据,所以企业里面最困难的是用数据的文化,以及用数据里面的管理,虽然这个闭环的存在,实际上这个闭环转起来是很困难的。我们公司问我怎么开始用起数据,我一般都说这个圈越小越好,不要搞得很大。

前几天我跟很资深的一个老手交流,他说企业千万不要用大数据走歪了,走歪的话是很麻烦的。这是很常见的一个情况。

面对未来,我上个礼拜在公司里面做了一个决定,我把BI部门取消了,数据技术部。原因很简单,早期的时候我们公司有一堆的数据,有一堆BI的人。一年后我发现,他们很喜欢我,所以他们说我要更多数据,结果我找到BI的人过来。结果大数据的出现,我们现在的图是这样的,应付今天的大数据,数据量很大。到底我们是不是要再请一些BI的人,这不可能的。

今天我们的决定,我们要每个业务部门他们要有做数据分析的能力,而不是一个BI部门帮助他们,所以我们要做更多的工具,让更多的人很容易的找到他所要的数据。

我们数据里面一个非常大的瓶颈叫ETR,从生产数据库里面把数据给到我们分施类的数据(音)。为什么我们有这么大量的BI的人,是因为当我们做分析的时候,只有商业的人才知道他是怎么看东西的,只要商业的人稍微改了,他会在底层数据再上一来,对我们的工作量来说就很大了。

我记得我刚进公司的时候,KTI改口径很大,我们有三个月不能用数据,底下的数据全弄一遍,这是从3月到6月中间是没有精准数据的。还好我电商的行业,3到6月还不是旺季,如果其他公司这样的做法那就完了。我们所谓的派生维度,你可以从业务的场景来抓,就可以产生一种新的东西。

最后我想跟大家说我在思考,最近我搞两件事情,大数据的前面有两个,就是数据的管理层必须要去选择,一个是存还是不存,这个数据我用,会不会未来有用,未来有用我也要收起来,所以到底是要把它存还是不存。另外一个话题就是开放还是不开放,数据的安全很重要,但是你怎么选择这个数据是开放的。同时你要很小心,这个数据会不会影响到别人,会不会有侵犯别人的隐私,开放和不开放,存或不存。

数据十诫,这里第7条很重要,大数据安全不安全,你根本不知道这个数据是安全还是不安全。你在控制安全的时候,你怎么知道这两个数据加起来是非常不安全的,所以你用监管是没办法的。当然现在有一些人开始分布式的系统里面,可以去把数据加密,就是在加密的环境下,分布式的系统可以刨除去,这是一个解决办法。

第十点讲让人做人擅长做事,机器做机器擅长的事。

最后我想跟大家说,其实数据都是实效,在企业来讲并没有什么说大数据的神话在企业,这是我最后想跟大家讲的,谢谢大家!

关键字:inference数据安全数据��掘数据加密

本文摘自:和讯网

x 今天的大数据就是明天的小数据 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

今天的大数据就是明天的小数据

责任编辑:王李通 |来源:企业网D1Net  2014-04-20 09:15:16 本文摘自:和讯网

北大国家发展研究院20周年暨BiMBA15周年庆典于2014年4月16-21日北京举办。和讯网全程报道。阿里巴巴集团副总裁、数据委员会会长车品觉在19日的“大数据与互联网金融”分论坛上表示,今天的大数据就是明天的小数据,这个是我们在做大数据的人里面都知道的。所以今天我们也许看见我们手上拿着非常大的数据,其实我们也是跑进去数据里面跑马圈地的时代,当你还以为数据是很大的时候应该想想,其实你现在手上用的数据,只不过是冰山一角而已。在未来我们会看到非常多的手动收集以及被动收集的数据都会出现。

以下为文字实录:

车品觉:我当时跟我的分析师说,我要知道我5分钟进来的人到底是谁,到底他们是怎样的情况。其实我不是一个在台上会讲的人。其实互联网的数据,在1997年的时候,互联网刚起来时候,大家都会觉得说(英语),到了2014年你会看见哪有一个网站没有说(英语)。所以大数据本身它还是有一个另一个(英语)。

其实数据挖掘在很早之前我们就已经有用了,95年的时候,当W95发布的时候,是MV级的量。我们的大数据起码是一年跟一年比较每年增长2点多倍的数据量,已经到几百PB机的数量。所以大数据的成本很低,其实一点都不低,当你要设置无限数据的时候,其实它成本并不低。

今天的大数据就是明天的小数据,这个是我们在做大数据的人里面都知道的。所以今天我们也许看见我们手上拿着非常大的数据,其实我们也是跑进去数据里面刨跑马圈地的时代,当你还以为数据是很大的时候应该想想,其实你现在手上用的数据,只不过是冰山一角而已。在未来我们会看到非常多的手动收集以及被动收集的数据都会出现。

当数据多到覆盖整个样本空间的时候,基于样本的inference的时候这就是大数据。在这个时候,有互联网,穿戴服务催生很大的量的数据,非结构化的数据的保障,用户型的数据会显得更丰富,以及网络广告从群发到精准,RTB会出现,这就是大数据的一个比较准确的。你发现今天我们所讲的大数据,其实是范例的大数据,当我们有很大量数据的时候我们少是大数据,当然从科学的角度来看,它更多的是用样本空间的观点。

4个V,在企业来讲我们说可解释,今天的人越来越聪明了,你必须要解释,要落地的时候我们要知道,这个数据是可实施的,这个数据是精确稳定的,而且是可以解释给我们的。这是4个V,就是大数据落地的时候,我们基本上应该要知道的。

过去从新样本中可以找到特征,实验了之后得到结果。但是在大数据的时代,我们拿到新样本的时候,因为我们有一个海量数据的样本,所以我们今天在大数据里面,我们通常用大量的数据但是简单的模型,不像过去小数据的时候我们用一个复杂的模型。现实里面企业其实是很少用大数据的,一般会用大数据来先找到方向,找到方向之后还是用传统的方法来提炼自己的数据,是交叉使用。数据的图形里面也有不同的数据模型来阐述结果。但是海量的数据加复杂的模型,我们今天还不知道它会面会怎么样。

我们从农耕时代,到工业技术革命,到半导体电子,到信息技术,到数据技术,我们阿里经过几年大数据之后,我们发现过去的几年,我们做大数据行业的人,我们有很多的工具其实都没有健全。我们阿里用了很多时间去健全这些工具。我们已经开始建立了一个数据地图,会用大数据的原数据告诉我这个地图是从哪里来的。过去我们只是用数据,但是今天我们要知道数据是从哪里来的。

有很多人今天用数据的时候,他并不知道数据是有一个基础的楼层,你不关注的话出来的结果是不稳定的。包括我们自己,三个月里面很准的,三个月以后就不准了,就是说它是不稳定的。这个应该有几个月了,数据已经不是你当时所想的数据模型的出现。

过去来讲没有大数据的时候,我们是有问题找数据,今天有大数据的时候,我们是用数据掌找问题。所以我们决策支持部开始变化了,连我的老板都问我,你不能用低端的看一下公司里面的KTI有什么问题吗?今天我们更多的是以数据找问题的办法。

当然我们会发现,大数据里面好像又很完美,但是我想跟大家说一个例子,比如说今天早上我看见一间衣服,我在电脑里搜这个衣服,我搜索的时候看见了一个手表,我买了一百块的手表。在数据库里面,我们只关注这个人买了一百块的手表,不会关注他之前早上的时候看见了他个衣服,也没有人知道其实这个人之所以没有点搜索的结果,是因为他要开会,也没有人知道这个人拿着手机来上网的个人,和用电脑上网的他个人是同一个人。当然你也不能识别在PC里面的人是老公还是老婆,有时候他们是用同一个ID的。

其实当我们用方法看大数据的时候,我们会发现大数据里面其实有非常多的洞在里面,这个洞不是没有收取数据。

现实中还有一点我们要放弃一些数据,我们收集数据,从来没有想过要放弃数据的,我们有多少数据就收集多少数据,因为这个数据可能未来会有用。但是当数据大到一定程度的时候,我们要放弃一些数据。真正的大数据你不可能无极限的收下去。如果两年前的淘宝我们买东西的行为,数据的时候,其实到现在为止这个网站已经变了,数据的场景也变了,你的生命周期也变了

忘掉大数据,企业要的是实效数据。你要理解业务的场景,你要有应用数据的能力,你要回答有没有解决这个问题,以及下次怎么改进。我们讲的是数据的生态圈,首先我们使用数据,当我们数据来帮企业做判断,解决问题的话,我们叫这个数据是数据欢迎你。但是我们都知道业务的人很多是不知道如何来找数据的。

反过来说,我们发现另外一个圈,从无限数据中寻找数据,假设什么数据都可以获取,就是运营数据,我们企业里面其实做数据的人很多都不知道别人怎么用数据的,所以用的人不知道有什么数据可用,但是做数据的人也不知道别人怎么用他的数据,所以企业里面最困难的是用数据的文化,以及用数据里面的管理,虽然这个闭环的存在,实际上这个闭环转起来是很困难的。我们公司问我怎么开始用起数据,我一般都说这个圈越小越好,不要搞得很大。

前几天我跟很资深的一个老手交流,他说企业千万不要用大数据走歪了,走歪的话是很麻烦的。这是很常见的一个情况。

面对未来,我上个礼拜在公司里面做了一个决定,我把BI部门取消了,数据技术部。原因很简单,早期的时候我们公司有一堆的数据,有一堆BI的人。一年后我发现,他们很喜欢我,所以他们说我要更多数据,结果我找到BI的人过来。结果大数据的出现,我们现在的图是这样的,应付今天的大数据,数据量很大。到底我们是不是要再请一些BI的人,这不可能的。

今天我们的决定,我们要每个业务部门他们要有做数据分析的能力,而不是一个BI部门帮助他们,所以我们要做更多的工具,让更多的人很容易的找到他所要的数据。

我们数据里面一个非常大的瓶颈叫ETR,从生产数据库里面把数据给到我们分施类的数据(音)。为什么我们有这么大量的BI的人,是因为当我们做分析的时候,只有商业的人才知道他是怎么看东西的,只要商业的人稍微改了,他会在底层数据再上一来,对我们的工作量来说就很大了。

我记得我刚进公司的时候,KTI改口径很大,我们有三个月不能用数据,底下的数据全弄一遍,这是从3月到6月中间是没有精准数据的。还好我电商的行业,3到6月还不是旺季,如果其他公司这样的做法那就完了。我们所谓的派生维度,你可以从业务的场景来抓,就可以产生一种新的东西。

最后我想跟大家说我在思考,最近我搞两件事情,大数据的前面有两个,就是数据的管理层必须要去选择,一个是存还是不存,这个数据我用,会不会未来有用,未来有用我也要收起来,所以到底是要把它存还是不存。另外一个话题就是开放还是不开放,数据的安全很重要,但是你怎么选择这个数据是开放的。同时你要很小心,这个数据会不会影响到别人,会不会有侵犯别人的隐私,开放和不开放,存或不存。

数据十诫,这里第7条很重要,大数据安全不安全,你根本不知道这个数据是安全还是不安全。你在控制安全的时候,你怎么知道这两个数据加起来是非常不安全的,所以你用监管是没办法的。当然现在有一些人开始分布式的系统里面,可以去把数据加密,就是在加密的环境下,分布式的系统可以刨除去,这是一个解决办法。

第十点讲让人做人擅长做事,机器做机器擅长的事。

最后我想跟大家说,其实数据都是实效,在企业来讲并没有什么说大数据的神话在企业,这是我最后想跟大家讲的,谢谢大家!

关键字:inference数据安全数据��掘数据加密

本文摘自:和讯网

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^