当前位置:大数据业界动态 → 正文

大数据时代的数据困惑

责任编辑:editor005 作者:高书国 |来源:企业网D1Net  2015-06-02 14:18:15 本文摘自:《教育科学研究》

维克托·迈尔-舍恩伯格(Viktor Mayer-Schnberger)是最早洞见大数据时代发展趋势的数据科学家之一,2012年出版的《大数据》一书是“大数据”系统研究的先河之作。进入21世纪第二个十年,人类正式拉开了从小数据时代进入大数据时代的序幕。英国学者维克托·迈尔-舍恩伯格和肯尼思·库克耶在其著作中提出世界进入大数据时代:“大数据开启了一次重大的时代转型。”“这仅只是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。”[1]与全球大数据景象相比,教育信息化、数据化相对滞后,教育领域或成为大数据时代的“慢热领域”。教育特别是教育研究面临大数据时代的新的数据挑战和数据困惑。

一、从小数据时代进入大数据时代

人类原始时代早期所创造的数的概念、数的方法和数的科学,为东西方文化的发展提供了共同的智慧财富。人类对于数据价值的认识可以粗略地分为三个阶段:一是以经验科学为基础判断数据价值的“小数据”时代;二是以计算机为基础追求数据精细化时代——从小数据向大数据过渡时期;三是以系统性数据资源为基础深入挖掘数据关系的大数据时代。

(一)以经验科学为基础判断数据价值的“小数据”时代

早在数千年以前人类就开始计量数据、运用数据和分析数据。人类有记载的、最早的计数发生在公元前8000年。中国古书《易·系辞下》有记载:“上古结绳而治,后世圣人易之以书契。”古书《易九家言》记载为:“事大,大结其绳;事小,小结其绳,之多少,随物众寡。”在西方,自圣经时代开始,政府就通过人口普查来建立大型的国民数据库。[2]同样,在古代波斯也有结绳记事的记载。据说波斯王大流士给他的指挥官们一根打了60个结的绳子,并对他们说:“爱奥尼亚的男子汉们,从你们看见我出征塞西亚人那天起,每天解开绳子上的一个结,到解完最后一个结那天,要是我不回来,就收拾你们的东西,自己开船回去。”[3]

从古代人结绳记事起,人类数十万年依靠数量概念和数量科学推动着社会经济与人类自身的发展。人类的先知们凭借自身与观察到的经验,发现了数据对于自然界的物质生产、社会界的精神生产以及人类自身的自我生产、存在与发展的重要价值。

人口普查是一种国家层次的重要的“数据指标行动”。据有关资料记载,中国是世界上最早统计人口的国家之一。相传最早在公元前210多年前的夏禹时代就有过人口统计。中国古代封建王朝设立户部,“户部”主管户口、赋税等,是负责统计人口的机构。西周的人口统计不但有公开的人口调查,还有专司人口统计的官吏,称为“司民”。《周礼·秋官》载:“司民,掌登万民之数,自生齿以上,皆书于版,辨其国中,与其都鄙,及其郊野,异其男女,岁登下其死生。”这里,我们不难看出,周朝时人口普查就已经初步设立了年龄、“国别”、城乡、男女、生死等人口的重要指标。东汉时期的户口调查进一步制度化,称为“案比”,即案验、比较,在每年的八月进行。中国魏晋时期皇甫谧著《帝王世纪》有记载:“禹平水土,还为九州,今禹贡是也。是以其时九州之地,凡二千四百三十万八千二十四顷,定垦者九百三十万六千二十四顷,不定垦者千五百万二千顷。民口千三百五十五万三千九百二十三人。”南朝宋范晔《后汉书》与宋元之际马端临《文献通考》,都有同样记载。有的统计学者认为这是“我国最早的统计数字资料”。在数千年的农业社会中,人类不断探索新的科学技术,但是对于统计数据的收集、挖掘和使用始终处于较低水平。

(二)以计算机为基础追求数据精细化时代

计算机技术的发展与进步,成为20世纪影响经济社会和科技发展最为重要的事件之一。以计算机技术为引领的信息化、数字化时代,为数据收集、整理、分析和使用提供了前所未有的便利——数据收集更加便捷,数据整理更加科学,数据分析更加深入,数据使用更加广泛。但是,这一阶段计算机技术的主要应用范围局限在数值领域,追求数据的丰富性和精细化,成为这一阶段数据发展的典型特点。

1997年《经济合作与发展组织教育要览》明确指出:“在现今的教育可比数据管理上仍有不足之处。因而,迄今所取得的进步已清楚表明在指标的涵盖范围、有效性、可比性、精确性和及时性上,还需要做很大的进一步改进。”[4]从更加科学的角度分析,在计算机出现之前,人类的经济和政治生活根本就不是以数据为基础的时代,进一步说“小数据时代是计算机背景下以数据为基础的时代”。小数据时代,由于数据的紧缺,研究者更加追求数据的精确性。中国学者张芳认为:“传统的统计数据质量仅仅指其准确性,通常用统计估计中的误差来衡量。但‘质量’的概念被拓宽以后,‘统计数据质量’的概念也有必要拓宽。从ISO关于质量的定义出发,把用户的需求作为衡量统计数据质量高低的首要因素,那么可以把统计数据质量定义为‘影响统计数据满足用户需求的特征’。”[5]

自20世纪90年代起,网络技术、数码技术和电子信息系统的发展,推进计算机技术从数值领域发展到非数值领域。数据技术经历了一次革命性的变化,多媒体技术使得文字、图形、影像、音响和动画技术融为一体,数据的生产、复制和储存能力急骤增长。世界各国相继实施和推进数字化战略,数字城市、数字社区和数字家庭不断涌现。从磁盘、光盘,到互联网,传统媒体数字化转型,以手机带动的新型传输方式的发展,极大地提升了大规模数据传输速度。人类开始从小数据时代向大数据时代过渡。

(三)以数据战略资源深入挖掘数据关系的大数据时代

美国人迈克尔·考克斯和大卫·埃尔斯沃思被认为是第一次提出“大数据”概念的工程师。1997年10月,迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议论文集中发表了《为外存模型可视化而应用控制程序请求页面调度》的文章。“可视化对计算机系统提出了一个有趣的挑战:通常情况下数据集相当大,耗尽了主存储器、本地磁盘甚至是远程磁盘的存储容量。我们将这个问题称为大数据。当主存储器(内核)无法容纳数据集,或者当本地磁盘都无法容纳数据集的时候,最常用的解决办法就是获取更多的资源。”[6]该文是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。

2000-2010年,被视为“大数据时代”的奠基之年。互联网数据中心估计,2002年世界产生了5EB新数据,2006年为161EB数据,并预测在2006年至2010年间,每年为数字宇宙所增加的信息将是以上数字的六倍多,达到988EB,或者说每18个月就翻一番。而实际上,据2010年和2011年同项研究所发布的信息,每年全球所创造的数字化数据总量超过了这个预测,2010年达到了1200EB,2011年增长到了1800EB。

2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数据量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。经过十年的发展,新的数据标准、规则更加成熟,无线通信新技术在企业生产、市场流通与大众消费领域日益扩大。在云计算普及化以及信息环境更加完善的前提下,越来越多的企业、社区和家庭使用更高级别的数据标准,各种层次和各种功能的数据中心如雨后春笋应运而生,数字城市、智能网络和数据系统不断涌现。

三是整体国家甚至世界都被数据化。出于政治、军事、外交和商业利益考虑,国家、地方及国际组织相互“数据化”,共同对敌对国家、合作国家和友好国家实施数据化。公民行为、国家行为被全面数据化。斯诺登揭露的美国政府和安全部门对世界各国的监控丑闻,足以显示大数据时代国家战略竞争的激烈程度和残酷程度。

三种“被数据化”模式,无理化程度一个比一个更严重,对于消费者和公民个人合法权利的侵害程度一个比一个更深刻。在国家利益面前,合法的个人隐私丧失殆尽,成为被牺牲者和不得不牺牲的东西。同时,大数据时代,数据垄断依然严重存在,引发了人们对“数据民主”的怀疑。让人们感到失望的是,“数据民主”时代并没有伴随大数据时代的到来而到来。数据垄断的目标,一是企业通过独享数据,可以获得超额的“数据利润”。二是政府所进行的数据垄断,成为一种新权力象征。不仅掌握公章就掌握了权力,而且掌握了数据也掌握了权力。依靠向使用者谋取利益的“数据寻租”现象也相继产生。

(四)教育仍“远离”大数据时代,数据短缺现象比较严重

整体而言,伴随教育事业的发展和教育改革的深化,教育统计数据日益丰富。一方面,教育数据持续增长。以中国教育经费统计为例,1990年,《中国教育经费统计资料》为435页,共70.7万字;2000年,《中国教育经费统计年鉴》为585页,78.7万字,比1990年增加34.5%和11.3%;2012年,《中国教育经费统计年鉴》为615页,94.8万字,比2000年增加5.12%和20.6%。同样,2012年与1990年相比,统计年鉴页码增加了180页(41.4%),文字和数据总量增加了24.1万字(34.1%),增长比例和增长速度可观。另一方面,教育数据的增长难以满足多样化的教育需求。从教育研究视角分析,数据的困境主要表现在以下几个方面。

一是公民个人教育与学习数据缺乏。教育是公民发展的第一要务。与发达国家相比,中国的教育统计更加关注国家、学校和教师,而对学生特别是学习者个人缺乏必需的关注。在中国的教育统计中,我们很难找到有关学习者个人学习时间、学习支出、学习回报的相关数据。需要指出,现有统计中反映学生学习质量、学生健康水平和质量保障等教育质量方面的数据缺乏。由于缺少公民个人教育和学习数据,教育研究终日里在“国家层面”转来转去,缺少真正反映公民群体需要和公民个人需要的高水平的研究成果。

二是非正规教育特别是终身学习数据缺乏。教育体系的成长有一个渐进的历史过程。20世纪90年代以来,世界各国制定战略规划和相关政策,着力推进正规教育体系的完善与正规教育的普及。由于中国教育管理体制和统计体系存在的分隔问题,非正规教育分别由教育部门、劳动人事部门、工会组织和其他专业部门管理,有关非正规教育和培训的数据统计难以进行,统计的科学性难以测量,反映政府组织、企业和社区终身学习的数据资料严重匮乏。此外,企业教育培训数据相对封闭。教育作为一个相对完整而封闭的系统自我循环,改制后的企业教育与培训远离学校,学校教育与社会教育和企业教育特别是企业教育与培训需求难以接轨,三者“老死不相往来”。教育与培训体系给教育信息管理数据化带来体制性制约。

三是关键地区和关键领域统计数据缺乏。统计数据的专业化是数据统计与数据应用的一大陷阱。由于地区行政管理体制不同,区域之间缺少数据的协作与协调,研究与决策过程中常常缺少能够反映一个区域的数据和指标。比如,有关长三角、珠三角、环渤海的数据,有关东部地区、中部地区和西部地区人口发展和教育发展的数据,均难以获得。学前教育和民族教育都是中国教育发展的重点领域和薄弱环节,中央和地方在进行学前教育发展研究与决策时,缺少学前教育和民族教育学龄人口、师资规模、办学条件、经费需求和社会需要等方面的数据,许多数据只能从个案调研中获得,直接影响教育研究水平和决策效果。

四是教育数据分析能力十分薄弱。教育研究机构的整体数据分析能力不能适应教育改革和发展特别是重大决策的需要。教育数据分析人才短缺,分析能力薄弱,分析成果严重不足。2012年,教育部曾组织全国中小学生健康情况调查,几乎收集了全国所有中小学生的健康情况数据。由于缺少必要的培训,上报数据问题严重;由于缺少分析人员和分析能力,所有数据至今躺在数据管理人员的计算机里,几乎已经“数死胎中”。

同时,与可以看到的数据相比,还存在一些“看不到”的问题:教育数据统计意识薄弱,统计手段相对落后,教育数据统计指标得不到时时更新;由于分析能力不足,造成经费资源、时间资源和人力资源浪费;缺少公开、丰富、持续的教育数据发布机制。数据的困乏,影响教育决策、教育研究和国民对于教育的知情权。可以说,中国教育统计远远没有进入所谓的大数据时代。

(五)教育数据与国际数据接轨困难,国际可比较性亟待提高

联合国开发计划署在2003年人类发展报告中提出:要“加强国际数据系统。对协调一致的国际统计数据的日益需要是一个严峻挑战。尽管更强大的国际统计有赖于国家统计,但是国际统计机构也需要变革。它们必须提高自己的能力来应对新的测量方法的挑战,并提供及时的数据,缩小数据上的差距和不一致性,改善与国家统计系统的合作,并加强相互间的协调,以提高国际标准和手段,并确保国际数据系列的一致性。”[14]可比较的国际教育统计数据十分缺乏。数据的可比较性是数据和指标的一个本质要求,也是数据能力建设的基本要求。缺乏数据的可比较性,已经成为指标设计和数据分析的最大障碍之一。其原因是:第一,指标设计缺乏国际标准;第二,数据采集口径缺乏要求,不规范;第三,教育发展阶段不相同,是影响各个国家和地区教育统计数据规范和质量的关键因素。

要科学判定数据的精确性与数据的模糊性价值。美国学者道格拉斯·W.哈伯德在《数据化决策》一书中一方面反复强调量化是减少不确定性的工具,另一方面又告诫人们:“量化的概念是‘减少不确定性’,而且没有必要完全消除不确定性,这是本书的核心观点。”“一个真正的量化过程不需要无限精确。而且,如果没有报告误差,也没有采用抽样和实验等实证方法,就认为数字是完全精确的,根本不是真正的量化。”[15]数据的精确性,既可能是一块蛋糕,也可能是一个陷阱。有时,甚至多样化的模糊数据和指标更加真实,研究者和决策教育对此必须加以理性的思考和科学的运用。否则,就会如罗伯特·J.德威利斯所说:“如果一个最差劲的测量是唯一可以利用的测量,那么使用它的代价会比得到的好处要大得多。”[16]在有些情况下,局部的精确并不一定反映整体的科学,我们不能简单地追求数据的精确性,而忘记甚至放弃模糊数据的科学性。

关键字:教育决策宋元之际塞西亚

本文摘自:《教育科学研究》

x 大数据时代的数据困惑 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

大数据时代的数据困惑

责任编辑:editor005 作者:高书国 |来源:企业网D1Net  2015-06-02 14:18:15 本文摘自:《教育科学研究》

维克托·迈尔-舍恩伯格(Viktor Mayer-Schnberger)是最早洞见大数据时代发展趋势的数据科学家之一,2012年出版的《大数据》一书是“大数据”系统研究的先河之作。进入21世纪第二个十年,人类正式拉开了从小数据时代进入大数据时代的序幕。英国学者维克托·迈尔-舍恩伯格和肯尼思·库克耶在其著作中提出世界进入大数据时代:“大数据开启了一次重大的时代转型。”“这仅只是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。”[1]与全球大数据景象相比,教育信息化、数据化相对滞后,教育领域或成为大数据时代的“慢热领域”。教育特别是教育研究面临大数据时代的新的数据挑战和数据困惑。

一、从小数据时代进入大数据时代

人类原始时代早期所创造的数的概念、数的方法和数的科学,为东西方文化的发展提供了共同的智慧财富。人类对于数据价值的认识可以粗略地分为三个阶段:一是以经验科学为基础判断数据价值的“小数据”时代;二是以计算机为基础追求数据精细化时代——从小数据向大数据过渡时期;三是以系统性数据资源为基础深入挖掘数据关系的大数据时代。

(一)以经验科学为基础判断数据价值的“小数据”时代

早在数千年以前人类就开始计量数据、运用数据和分析数据。人类有记载的、最早的计数发生在公元前8000年。中国古书《易·系辞下》有记载:“上古结绳而治,后世圣人易之以书契。”古书《易九家言》记载为:“事大,大结其绳;事小,小结其绳,之多少,随物众寡。”在西方,自圣经时代开始,政府就通过人口普查来建立大型的国民数据库。[2]同样,在古代波斯也有结绳记事的记载。据说波斯王大流士给他的指挥官们一根打了60个结的绳子,并对他们说:“爱奥尼亚的男子汉们,从你们看见我出征塞西亚人那天起,每天解开绳子上的一个结,到解完最后一个结那天,要是我不回来,就收拾你们的东西,自己开船回去。”[3]

从古代人结绳记事起,人类数十万年依靠数量概念和数量科学推动着社会经济与人类自身的发展。人类的先知们凭借自身与观察到的经验,发现了数据对于自然界的物质生产、社会界的精神生产以及人类自身的自我生产、存在与发展的重要价值。

人口普查是一种国家层次的重要的“数据指标行动”。据有关资料记载,中国是世界上最早统计人口的国家之一。相传最早在公元前210多年前的夏禹时代就有过人口统计。中国古代封建王朝设立户部,“户部”主管户口、赋税等,是负责统计人口的机构。西周的人口统计不但有公开的人口调查,还有专司人口统计的官吏,称为“司民”。《周礼·秋官》载:“司民,掌登万民之数,自生齿以上,皆书于版,辨其国中,与其都鄙,及其郊野,异其男女,岁登下其死生。”这里,我们不难看出,周朝时人口普查就已经初步设立了年龄、“国别”、城乡、男女、生死等人口的重要指标。东汉时期的户口调查进一步制度化,称为“案比”,即案验、比较,在每年的八月进行。中国魏晋时期皇甫谧著《帝王世纪》有记载:“禹平水土,还为九州,今禹贡是也。是以其时九州之地,凡二千四百三十万八千二十四顷,定垦者九百三十万六千二十四顷,不定垦者千五百万二千顷。民口千三百五十五万三千九百二十三人。”南朝宋范晔《后汉书》与宋元之际马端临《文献通考》,都有同样记载。有的统计学者认为这是“我国最早的统计数字资料”。在数千年的农业社会中,人类不断探索新的科学技术,但是对于统计数据的收集、挖掘和使用始终处于较低水平。

(二)以计算机为基础追求数据精细化时代

计算机技术的发展与进步,成为20世纪影响经济社会和科技发展最为重要的事件之一。以计算机技术为引领的信息化、数字化时代,为数据收集、整理、分析和使用提供了前所未有的便利——数据收集更加便捷,数据整理更加科学,数据分析更加深入,数据使用更加广泛。但是,这一阶段计算机技术的主要应用范围局限在数值领域,追求数据的丰富性和精细化,成为这一阶段数据发展的典型特点。

1997年《经济合作与发展组织教育要览》明确指出:“在现今的教育可比数据管理上仍有不足之处。因而,迄今所取得的进步已清楚表明在指标的涵盖范围、有效性、可比性、精确性和及时性上,还需要做很大的进一步改进。”[4]从更加科学的角度分析,在计算机出现之前,人类的经济和政治生活根本就不是以数据为基础的时代,进一步说“小数据时代是计算机背景下以数据为基础的时代”。小数据时代,由于数据的紧缺,研究者更加追求数据的精确性。中国学者张芳认为:“传统的统计数据质量仅仅指其准确性,通常用统计估计中的误差来衡量。但‘质量’的概念被拓宽以后,‘统计数据质量’的概念也有必要拓宽。从ISO关于质量的定义出发,把用户的需求作为衡量统计数据质量高低的首要因素,那么可以把统计数据质量定义为‘影响统计数据满足用户需求的特征’。”[5]

自20世纪90年代起,网络技术、数码技术和电子信息系统的发展,推进计算机技术从数值领域发展到非数值领域。数据技术经历了一次革命性的变化,多媒体技术使得文字、图形、影像、音响和动画技术融为一体,数据的生产、复制和储存能力急骤增长。世界各国相继实施和推进数字化战略,数字城市、数字社区和数字家庭不断涌现。从磁盘、光盘,到互联网,传统媒体数字化转型,以手机带动的新型传输方式的发展,极大地提升了大规模数据传输速度。人类开始从小数据时代向大数据时代过渡。

(三)以数据战略资源深入挖掘数据关系的大数据时代

美国人迈克尔·考克斯和大卫·埃尔斯沃思被认为是第一次提出“大数据”概念的工程师。1997年10月,迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议论文集中发表了《为外存模型可视化而应用控制程序请求页面调度》的文章。“可视化对计算机系统提出了一个有趣的挑战:通常情况下数据集相当大,耗尽了主存储器、本地磁盘甚至是远程磁盘的存储容量。我们将这个问题称为大数据。当主存储器(内核)无法容纳数据集,或者当本地磁盘都无法容纳数据集的时候,最常用的解决办法就是获取更多的资源。”[6]该文是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。

2000-2010年,被视为“大数据时代”的奠基之年。互联网数据中心估计,2002年世界产生了5EB新数据,2006年为161EB数据,并预测在2006年至2010年间,每年为数字宇宙所增加的信息将是以上数字的六倍多,达到988EB,或者说每18个月就翻一番。而实际上,据2010年和2011年同项研究所发布的信息,每年全球所创造的数字化数据总量超过了这个预测,2010年达到了1200EB,2011年增长到了1800EB。

2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数据量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。经过十年的发展,新的数据标准、规则更加成熟,无线通信新技术在企业生产、市场流通与大众消费领域日益扩大。在云计算普及化以及信息环境更加完善的前提下,越来越多的企业、社区和家庭使用更高级别的数据标准,各种层次和各种功能的数据中心如雨后春笋应运而生,数字城市、智能网络和数据系统不断涌现。

三是整体国家甚至世界都被数据化。出于政治、军事、外交和商业利益考虑,国家、地方及国际组织相互“数据化”,共同对敌对国家、合作国家和友好国家实施数据化。公民行为、国家行为被全面数据化。斯诺登揭露的美国政府和安全部门对世界各国的监控丑闻,足以显示大数据时代国家战略竞争的激烈程度和残酷程度。

三种“被数据化”模式,无理化程度一个比一个更严重,对于消费者和公民个人合法权利的侵害程度一个比一个更深刻。在国家利益面前,合法的个人隐私丧失殆尽,成为被牺牲者和不得不牺牲的东西。同时,大数据时代,数据垄断依然严重存在,引发了人们对“数据民主”的怀疑。让人们感到失望的是,“数据民主”时代并没有伴随大数据时代的到来而到来。数据垄断的目标,一是企业通过独享数据,可以获得超额的“数据利润”。二是政府所进行的数据垄断,成为一种新权力象征。不仅掌握公章就掌握了权力,而且掌握了数据也掌握了权力。依靠向使用者谋取利益的“数据寻租”现象也相继产生。

(四)教育仍“远离”大数据时代,数据短缺现象比较严重

整体而言,伴随教育事业的发展和教育改革的深化,教育统计数据日益丰富。一方面,教育数据持续增长。以中国教育经费统计为例,1990年,《中国教育经费统计资料》为435页,共70.7万字;2000年,《中国教育经费统计年鉴》为585页,78.7万字,比1990年增加34.5%和11.3%;2012年,《中国教育经费统计年鉴》为615页,94.8万字,比2000年增加5.12%和20.6%。同样,2012年与1990年相比,统计年鉴页码增加了180页(41.4%),文字和数据总量增加了24.1万字(34.1%),增长比例和增长速度可观。另一方面,教育数据的增长难以满足多样化的教育需求。从教育研究视角分析,数据的困境主要表现在以下几个方面。

一是公民个人教育与学习数据缺乏。教育是公民发展的第一要务。与发达国家相比,中国的教育统计更加关注国家、学校和教师,而对学生特别是学习者个人缺乏必需的关注。在中国的教育统计中,我们很难找到有关学习者个人学习时间、学习支出、学习回报的相关数据。需要指出,现有统计中反映学生学习质量、学生健康水平和质量保障等教育质量方面的数据缺乏。由于缺少公民个人教育和学习数据,教育研究终日里在“国家层面”转来转去,缺少真正反映公民群体需要和公民个人需要的高水平的研究成果。

二是非正规教育特别是终身学习数据缺乏。教育体系的成长有一个渐进的历史过程。20世纪90年代以来,世界各国制定战略规划和相关政策,着力推进正规教育体系的完善与正规教育的普及。由于中国教育管理体制和统计体系存在的分隔问题,非正规教育分别由教育部门、劳动人事部门、工会组织和其他专业部门管理,有关非正规教育和培训的数据统计难以进行,统计的科学性难以测量,反映政府组织、企业和社区终身学习的数据资料严重匮乏。此外,企业教育培训数据相对封闭。教育作为一个相对完整而封闭的系统自我循环,改制后的企业教育与培训远离学校,学校教育与社会教育和企业教育特别是企业教育与培训需求难以接轨,三者“老死不相往来”。教育与培训体系给教育信息管理数据化带来体制性制约。

三是关键地区和关键领域统计数据缺乏。统计数据的专业化是数据统计与数据应用的一大陷阱。由于地区行政管理体制不同,区域之间缺少数据的协作与协调,研究与决策过程中常常缺少能够反映一个区域的数据和指标。比如,有关长三角、珠三角、环渤海的数据,有关东部地区、中部地区和西部地区人口发展和教育发展的数据,均难以获得。学前教育和民族教育都是中国教育发展的重点领域和薄弱环节,中央和地方在进行学前教育发展研究与决策时,缺少学前教育和民族教育学龄人口、师资规模、办学条件、经费需求和社会需要等方面的数据,许多数据只能从个案调研中获得,直接影响教育研究水平和决策效果。

四是教育数据分析能力十分薄弱。教育研究机构的整体数据分析能力不能适应教育改革和发展特别是重大决策的需要。教育数据分析人才短缺,分析能力薄弱,分析成果严重不足。2012年,教育部曾组织全国中小学生健康情况调查,几乎收集了全国所有中小学生的健康情况数据。由于缺少必要的培训,上报数据问题严重;由于缺少分析人员和分析能力,所有数据至今躺在数据管理人员的计算机里,几乎已经“数死胎中”。

同时,与可以看到的数据相比,还存在一些“看不到”的问题:教育数据统计意识薄弱,统计手段相对落后,教育数据统计指标得不到时时更新;由于分析能力不足,造成经费资源、时间资源和人力资源浪费;缺少公开、丰富、持续的教育数据发布机制。数据的困乏,影响教育决策、教育研究和国民对于教育的知情权。可以说,中国教育统计远远没有进入所谓的大数据时代。

(五)教育数据与国际数据接轨困难,国际可比较性亟待提高

联合国开发计划署在2003年人类发展报告中提出:要“加强国际数据系统。对协调一致的国际统计数据的日益需要是一个严峻挑战。尽管更强大的国际统计有赖于国家统计,但是国际统计机构也需要变革。它们必须提高自己的能力来应对新的测量方法的挑战,并提供及时的数据,缩小数据上的差距和不一致性,改善与国家统计系统的合作,并加强相互间的协调,以提高国际标准和手段,并确保国际数据系列的一致性。”[14]可比较的国际教育统计数据十分缺乏。数据的可比较性是数据和指标的一个本质要求,也是数据能力建设的基本要求。缺乏数据的可比较性,已经成为指标设计和数据分析的最大障碍之一。其原因是:第一,指标设计缺乏国际标准;第二,数据采集口径缺乏要求,不规范;第三,教育发展阶段不相同,是影响各个国家和地区教育统计数据规范和质量的关键因素。

要科学判定数据的精确性与数据的模糊性价值。美国学者道格拉斯·W.哈伯德在《数据化决策》一书中一方面反复强调量化是减少不确定性的工具,另一方面又告诫人们:“量化的概念是‘减少不确定性’,而且没有必要完全消除不确定性,这是本书的核心观点。”“一个真正的量化过程不需要无限精确。而且,如果没有报告误差,也没有采用抽样和实验等实证方法,就认为数字是完全精确的,根本不是真正的量化。”[15]数据的精确性,既可能是一块蛋糕,也可能是一个陷阱。有时,甚至多样化的模糊数据和指标更加真实,研究者和决策教育对此必须加以理性的思考和科学的运用。否则,就会如罗伯特·J.德威利斯所说:“如果一个最差劲的测量是唯一可以利用的测量,那么使用它的代价会比得到的好处要大得多。”[16]在有些情况下,局部的精确并不一定反映整体的科学,我们不能简单地追求数据的精确性,而忘记甚至放弃模糊数据的科学性。

关键字:教育决策宋元之际塞西亚

本文摘自:《教育科学研究》

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^