当前位置:大数据业界动态 → 正文

清华大学朱文武:大数据的机遇与挑战

责任编辑:editor007 |来源:企业网D1Net  2015-04-08 17:18:29 本文摘自:和讯网

2015年4月8日上午,青岛大数据工程研究中心揭牌仪式暨青岛大数据高峰论坛召开,清华大学数据科学研究院首席科学家,国家973首席科学家,清华大学计算机系副主任朱文武做了题为《大数据的机遇与挑战》的演讲,

以下为演讲实录。

今天这个时代非常特别,现在处于人机物的时代,我在因特尔,微软工作过,无所不在的计算成为了可能,芯片的尺寸和价格在18个月左右降低一倍,这使得设备的小型化,带来了设备的无所不在。同时把这个设备和这种连起来这种网络,网络的增长速度每六个月增长一倍,这样把网络的各种设备和人联系起来,所以这种设备的无所不在和网络的无所不在和计算的无所不在,导致了数据产生的速度发生了爆炸性的增长。

从大数据的产生来看,他记录了我们从一部分数据会来自于互联网世界,一部分是网络世界,一部分是物理世界,一部分来自于人,通过社交网络记录人的行为。大家知道这个互联网的话,能把我们所有的人和设备联系起来,使得我们能够记录我们在虚拟世界很多数据。比如说每天百度会产生300PB的数据要处理,脸书有10亿用户。大量的互联网信息产生了非常大的数据需要进行处理,同时的话,物联网就是各种各样的传感器,湿度、温度可以记录物理世界人的发展一条主线是物理世界,大自然,一是人的活动。

现在应用最多是GPS数据全世界有40亿的GPS在采集数据,我们人类的足迹也开始记录了,原来人类活动不太容易被网络给记录,记录什么呢?记录我们的行为,我们对这个信息的这个喜欢程度、偏爱程度、对在情绪的体现,而且它这个社交网络的特点,他有个传播功能,这你的情感也会影响你周围的人,所有的行为互相也感染。社交媒体让所有的事情传播的非常快。

现在随着互联网、物联网和社交网络的发展,预计2020年我们可以有40ZB可以记录的数据。2012年的世界经济论坛,有一份《大数据、大影响》的报告,数据已经成为经济资产,2012年美国政府六个部门,启动了大数据的项目,他是强调学术界、工业界、产业界联合发展的模式,目标是在数据里面找到他的价值。

随着大数据刚刚开始,美国开始做一个报告,美国一直在争夺中东的石油,他用石油来描述他对大数据的喜欢程度,开始的时候数据是在金融、医疗、制造管理。比如公共管理取得2500亿的利润,医疗是3000亿,来宣传大数据的价值。

大数据它所具有的影响力,他的模式也不一样,它也影响我们国家的安全,带动了新的经济增长点,比如说数据相关的产业的发展,同时为各行各业带来了一些渗透。

个大数据是继互联网以后,能渗透劳动各行各业的一个技术,在美国的时候,任何传统企业,只要沾上互联网几个字,股票都飞涨,今天大数据有这个能力和渗透力,它除了传统的行业,这里面提到了金融、智慧城市、材料、医疗等等数据之外,还产生了新的新型的产业,比如说数据材料,比如说数据制药、数据医疗,怎么从数据中发现新的规律。除了传统行业之外还会产生新的新兴行业和新的增长点。

大数据给我们带来变革的同时,使我们的思想方式产生了变化,企业原来关注生产规模和能力,除了原来传统的信息化的过程,互联网信息化的过程,现在更强调这个企业对于这个数据资源的分析能力和掌控能力等等,这样的话给我们带来了一些企业的,新的挑战。

这是美国CEO要读的东西,我是在2012年参加大数据论坛的时候看到的书,这里面主要一个点就是,原来可能整个会整个行业需求的是计算机编程人员,数据科学家数据工程师,这样能让他从中分析数据,从数据中寻找价值。我去年到脸书,到谷歌访问,他们公司里面就有这种职业了,这样的话大家对于数据分析师,数据科学家的需求,将来的增长会非常快。

整个学术界讨论最多的是,大数据是不是科学?

我们从科学的发展范式来考虑这个问题,整个一个人在观察大自己的现象,他从自然里面去体现规律,这里面有很多现象,比如说牛顿发现万有引力,这里面大家是通过做实验,是跟自然打交道,这就产生了当时的实验科学,这是第一个科学范式。

后来人们通过归纳,能够用数据建立模型,出现了理论科学,至少能够把它描述成一些方程等等,这样的话,理论科学产生能让我们对自然描述往前走了一步。

大概就是随着几十年前,随着三极管的发明,开拓了整个信息行业。这样的话给我们带来了一个,由于这个芯片的发明,计算机的发明,对数据模型技术计算,出现了计算科学。因为原来的话做不到的事情,比如说要探索宇宙等等没法做到,通过计算机的仿真可以做到,原来很复杂的公式可以用计算机来计算。可以通过建模去仿真科学计算。

数据出现这么多以后,人们开始想,数据到底是不是科学,人要从数据中寻找规律,原来是从自然中寻找规律,在寻找规律的时候要交叉,我们需要懂得这个行业的人,和搞计算科学的人交叉融合一起来分析,呈现了交叉的特点。这里我举了一个例子,是社会科学和计算科学的交叉,原来我们搞计算科学的人是拿了社会科学的模型假设,进行一些模型分析,现在我们从数据型的方法来进行分析,找这种里面的规律,找到规律之后的话,再用社会化作为一个验证,是社会科学和数据科学的交叉。从数据中找到我们的规律,也能找到我们的价值所在。

根本的变化是从计算科学,计算是以模型为驱动,决策是根据经验,到了数据科学都是以数据驱动来做,也是数据驱动来决策。

大数据的特点是五个V,第一是数据量非常大,第二是数据的种类非常多,多模易构,这个数据里面有语音、文本、图片、视频等等,这样的话给处理带来了很多挑战。数据的变化很快,传播特性造成了数据的变化,时时性时效性,金融数据瞬间的变化导致了多少资金的流失。数据又非常大,这样一个矛盾非常难以解决。第四个挑战是数据真实性和可靠性,最难的东西是现在拿到很多数据,是不是越多越好,怎么从数据中提炼出来也是一个挑战。另外一个挑战是传统的互联网的共识,在互联网里面没有人知道你的真实的身份,数据如果不真实,如果有噪声,有欺骗行为的数据,导致你的分析走向错误的方面。所以这个给我们的分析带来很多挑战。

第一个挑战就是非结构性的挑战,原来我们搞数据库的时候是链表,从一千个,到10万个,是一个复制的命令,都能做了,非结构化数据是有文本、有照片、有语音、还有视频等等,这种当你量大的时候,简单的做不到,需要对文本数据进行分析,这些摄象头数据基本都是非结构化数据,做不到人工的读,人工的标识,数据多了用不了怎么样把它作为结构化数据放起来才可以用。

第二个挑战就是数据不是越多越好,它本身有复杂性,微观上它是一个混沌的现象,宏观上又要找规律,怎么样发现有限的现象,每一个都不一样,但是你要找到宏观的规律,这样对我们的挑战很大,我们分析是为了理解,理解是为了认知,也是一种挑战,人工智能是一种方法,中国计算等等,很多技术在探讨之中,怎么从数据中挖掘到知识。结构化之后很重要的是对数据的理解和认知。

第三个是对数据量大之后,对实时性和时效性有很大的挑战性,北京市各大公司引进的顶尖人才都在系统之内,比如像美国谷歌可以达到全球的规模,这样导致我们搞算法的人,需要考虑数据的这种计算算法的这种迭代式计算。像我们炒菜不知道什么时候尝一尝是一样的道理。

还有一个挑战是系统方面的挑战,原来数据的话,数据产生是分布局部的,我们今天先建立了云,迫使我们的运算不是在局部产生,网络的开销非常大,它的设计它也不是为了真正的支持大数据的计算。这样的话怎么样联合优化存储,还有计算,还有网络通讯,产生新的大数据的系统,这也是一个学术界大家讨论的一个问题。

大数据的特点,它需要两方面人才,一个方面是需要行业懂你行业的人,也需要懂你计算算法的人,这样的话整个的特点是应用为导向,像我们大数据研究院也是在我们清华的时候,明显是需求,这个算法是要实时,但是并没有革命性的变化,但是对应用需求的变化非常大,原来是小样板的,现在是大数据整个思维方式都变了。这种交叉的特点,应用需求,从计算领域需要我们存储计算来支持我们的交叉和需求。

到底大数据方法和传统什么不同,大数据告诉我们,现在数据非常大,而且是多元异构的特点,第一点我们说有没有数据?这是第一步给你数据,给你数据之后,它有噪声,你怎么进行处理?从理念上来看,大数据和原来的传统不一样,传统都是因果推断,因为A导致B大数据关联的思维,比如说吸烟和肺癌,从抽烟到得肺癌,不是因果关系但是是相关关系,这种相关关系,比如说互联网和金融交叉出现互联网金融,这种关联的关系给我们产生的这种分析分析,从科学上有挑战。因为因果关系已经被科学论证了,今天是关联,关联发现之后还要进一步分析,到底对不对?到底有没有因果?因果关系和关联关系还在探讨当中。

从计算方法来看的话,原来数据都是一次算完了,封闭式的,现在是流式计算,迭代计算等等,我们可以用一种近似的方法,把一个数据分成子数据再合起来。

我们对大数据的发展趋势做一个预测,第一个比较大的变化是把人工智能放在第一位,大数据和人工智能结合是非常重要的,大数据的认知理解非常难,怎么样能够把人工智能,传统的人工智能也不能支持工作,我们从数据当中提炼出来的支持是一种客观的支持,人类有其他的支持,数据和人类的支持结合是一个广义的人工智能,现在这个脑计划我们国家也提出来了。

后面的话就是说,学科的交叉,大数据的隐私等等,这都是一个很大的挑战。

第四点经典的是在计算科学里面,今年有一篇在《自然》发布了,把深度学习和人工智能的理念,有了反馈和结合,取得了非常好的效果。这样的话大家看到大数据能带来一些原来做不了的事情。

我们都在朝着这个目标努力,让数据变成智慧和智能。

关键字:谷歌迭代计算

本文摘自:和讯网

x 清华大学朱文武:大数据的机遇与挑战 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

清华大学朱文武:大数据的机遇与挑战

责任编辑:editor007 |来源:企业网D1Net  2015-04-08 17:18:29 本文摘自:和讯网

2015年4月8日上午,青岛大数据工程研究中心揭牌仪式暨青岛大数据高峰论坛召开,清华大学数据科学研究院首席科学家,国家973首席科学家,清华大学计算机系副主任朱文武做了题为《大数据的机遇与挑战》的演讲,

以下为演讲实录。

今天这个时代非常特别,现在处于人机物的时代,我在因特尔,微软工作过,无所不在的计算成为了可能,芯片的尺寸和价格在18个月左右降低一倍,这使得设备的小型化,带来了设备的无所不在。同时把这个设备和这种连起来这种网络,网络的增长速度每六个月增长一倍,这样把网络的各种设备和人联系起来,所以这种设备的无所不在和网络的无所不在和计算的无所不在,导致了数据产生的速度发生了爆炸性的增长。

从大数据的产生来看,他记录了我们从一部分数据会来自于互联网世界,一部分是网络世界,一部分是物理世界,一部分来自于人,通过社交网络记录人的行为。大家知道这个互联网的话,能把我们所有的人和设备联系起来,使得我们能够记录我们在虚拟世界很多数据。比如说每天百度会产生300PB的数据要处理,脸书有10亿用户。大量的互联网信息产生了非常大的数据需要进行处理,同时的话,物联网就是各种各样的传感器,湿度、温度可以记录物理世界人的发展一条主线是物理世界,大自然,一是人的活动。

现在应用最多是GPS数据全世界有40亿的GPS在采集数据,我们人类的足迹也开始记录了,原来人类活动不太容易被网络给记录,记录什么呢?记录我们的行为,我们对这个信息的这个喜欢程度、偏爱程度、对在情绪的体现,而且它这个社交网络的特点,他有个传播功能,这你的情感也会影响你周围的人,所有的行为互相也感染。社交媒体让所有的事情传播的非常快。

现在随着互联网、物联网和社交网络的发展,预计2020年我们可以有40ZB可以记录的数据。2012年的世界经济论坛,有一份《大数据、大影响》的报告,数据已经成为经济资产,2012年美国政府六个部门,启动了大数据的项目,他是强调学术界、工业界、产业界联合发展的模式,目标是在数据里面找到他的价值。

随着大数据刚刚开始,美国开始做一个报告,美国一直在争夺中东的石油,他用石油来描述他对大数据的喜欢程度,开始的时候数据是在金融、医疗、制造管理。比如公共管理取得2500亿的利润,医疗是3000亿,来宣传大数据的价值。

大数据它所具有的影响力,他的模式也不一样,它也影响我们国家的安全,带动了新的经济增长点,比如说数据相关的产业的发展,同时为各行各业带来了一些渗透。

个大数据是继互联网以后,能渗透劳动各行各业的一个技术,在美国的时候,任何传统企业,只要沾上互联网几个字,股票都飞涨,今天大数据有这个能力和渗透力,它除了传统的行业,这里面提到了金融、智慧城市、材料、医疗等等数据之外,还产生了新的新型的产业,比如说数据材料,比如说数据制药、数据医疗,怎么从数据中发现新的规律。除了传统行业之外还会产生新的新兴行业和新的增长点。

大数据给我们带来变革的同时,使我们的思想方式产生了变化,企业原来关注生产规模和能力,除了原来传统的信息化的过程,互联网信息化的过程,现在更强调这个企业对于这个数据资源的分析能力和掌控能力等等,这样的话给我们带来了一些企业的,新的挑战。

这是美国CEO要读的东西,我是在2012年参加大数据论坛的时候看到的书,这里面主要一个点就是,原来可能整个会整个行业需求的是计算机编程人员,数据科学家数据工程师,这样能让他从中分析数据,从数据中寻找价值。我去年到脸书,到谷歌访问,他们公司里面就有这种职业了,这样的话大家对于数据分析师,数据科学家的需求,将来的增长会非常快。

整个学术界讨论最多的是,大数据是不是科学?

我们从科学的发展范式来考虑这个问题,整个一个人在观察大自己的现象,他从自然里面去体现规律,这里面有很多现象,比如说牛顿发现万有引力,这里面大家是通过做实验,是跟自然打交道,这就产生了当时的实验科学,这是第一个科学范式。

后来人们通过归纳,能够用数据建立模型,出现了理论科学,至少能够把它描述成一些方程等等,这样的话,理论科学产生能让我们对自然描述往前走了一步。

大概就是随着几十年前,随着三极管的发明,开拓了整个信息行业。这样的话给我们带来了一个,由于这个芯片的发明,计算机的发明,对数据模型技术计算,出现了计算科学。因为原来的话做不到的事情,比如说要探索宇宙等等没法做到,通过计算机的仿真可以做到,原来很复杂的公式可以用计算机来计算。可以通过建模去仿真科学计算。

数据出现这么多以后,人们开始想,数据到底是不是科学,人要从数据中寻找规律,原来是从自然中寻找规律,在寻找规律的时候要交叉,我们需要懂得这个行业的人,和搞计算科学的人交叉融合一起来分析,呈现了交叉的特点。这里我举了一个例子,是社会科学和计算科学的交叉,原来我们搞计算科学的人是拿了社会科学的模型假设,进行一些模型分析,现在我们从数据型的方法来进行分析,找这种里面的规律,找到规律之后的话,再用社会化作为一个验证,是社会科学和数据科学的交叉。从数据中找到我们的规律,也能找到我们的价值所在。

根本的变化是从计算科学,计算是以模型为驱动,决策是根据经验,到了数据科学都是以数据驱动来做,也是数据驱动来决策。

大数据的特点是五个V,第一是数据量非常大,第二是数据的种类非常多,多模易构,这个数据里面有语音、文本、图片、视频等等,这样的话给处理带来了很多挑战。数据的变化很快,传播特性造成了数据的变化,时时性时效性,金融数据瞬间的变化导致了多少资金的流失。数据又非常大,这样一个矛盾非常难以解决。第四个挑战是数据真实性和可靠性,最难的东西是现在拿到很多数据,是不是越多越好,怎么从数据中提炼出来也是一个挑战。另外一个挑战是传统的互联网的共识,在互联网里面没有人知道你的真实的身份,数据如果不真实,如果有噪声,有欺骗行为的数据,导致你的分析走向错误的方面。所以这个给我们的分析带来很多挑战。

第一个挑战就是非结构性的挑战,原来我们搞数据库的时候是链表,从一千个,到10万个,是一个复制的命令,都能做了,非结构化数据是有文本、有照片、有语音、还有视频等等,这种当你量大的时候,简单的做不到,需要对文本数据进行分析,这些摄象头数据基本都是非结构化数据,做不到人工的读,人工的标识,数据多了用不了怎么样把它作为结构化数据放起来才可以用。

第二个挑战就是数据不是越多越好,它本身有复杂性,微观上它是一个混沌的现象,宏观上又要找规律,怎么样发现有限的现象,每一个都不一样,但是你要找到宏观的规律,这样对我们的挑战很大,我们分析是为了理解,理解是为了认知,也是一种挑战,人工智能是一种方法,中国计算等等,很多技术在探讨之中,怎么从数据中挖掘到知识。结构化之后很重要的是对数据的理解和认知。

第三个是对数据量大之后,对实时性和时效性有很大的挑战性,北京市各大公司引进的顶尖人才都在系统之内,比如像美国谷歌可以达到全球的规模,这样导致我们搞算法的人,需要考虑数据的这种计算算法的这种迭代式计算。像我们炒菜不知道什么时候尝一尝是一样的道理。

还有一个挑战是系统方面的挑战,原来数据的话,数据产生是分布局部的,我们今天先建立了云,迫使我们的运算不是在局部产生,网络的开销非常大,它的设计它也不是为了真正的支持大数据的计算。这样的话怎么样联合优化存储,还有计算,还有网络通讯,产生新的大数据的系统,这也是一个学术界大家讨论的一个问题。

大数据的特点,它需要两方面人才,一个方面是需要行业懂你行业的人,也需要懂你计算算法的人,这样的话整个的特点是应用为导向,像我们大数据研究院也是在我们清华的时候,明显是需求,这个算法是要实时,但是并没有革命性的变化,但是对应用需求的变化非常大,原来是小样板的,现在是大数据整个思维方式都变了。这种交叉的特点,应用需求,从计算领域需要我们存储计算来支持我们的交叉和需求。

到底大数据方法和传统什么不同,大数据告诉我们,现在数据非常大,而且是多元异构的特点,第一点我们说有没有数据?这是第一步给你数据,给你数据之后,它有噪声,你怎么进行处理?从理念上来看,大数据和原来的传统不一样,传统都是因果推断,因为A导致B大数据关联的思维,比如说吸烟和肺癌,从抽烟到得肺癌,不是因果关系但是是相关关系,这种相关关系,比如说互联网和金融交叉出现互联网金融,这种关联的关系给我们产生的这种分析分析,从科学上有挑战。因为因果关系已经被科学论证了,今天是关联,关联发现之后还要进一步分析,到底对不对?到底有没有因果?因果关系和关联关系还在探讨当中。

从计算方法来看的话,原来数据都是一次算完了,封闭式的,现在是流式计算,迭代计算等等,我们可以用一种近似的方法,把一个数据分成子数据再合起来。

我们对大数据的发展趋势做一个预测,第一个比较大的变化是把人工智能放在第一位,大数据和人工智能结合是非常重要的,大数据的认知理解非常难,怎么样能够把人工智能,传统的人工智能也不能支持工作,我们从数据当中提炼出来的支持是一种客观的支持,人类有其他的支持,数据和人类的支持结合是一个广义的人工智能,现在这个脑计划我们国家也提出来了。

后面的话就是说,学科的交叉,大数据的隐私等等,这都是一个很大的挑战。

第四点经典的是在计算科学里面,今年有一篇在《自然》发布了,把深度学习和人工智能的理念,有了反馈和结合,取得了非常好的效果。这样的话大家看到大数据能带来一些原来做不了的事情。

我们都在朝着这个目标努力,让数据变成智慧和智能。

关键字:谷歌迭代计算

本文摘自:和讯网

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^