清华大学图书馆大数据的巧妙运用

责任编辑：editor007 |来源：企业网D1Net 2013-08-30 09:10:37 本文摘自：中国新闻出版报

目前清华大学图书馆馆藏纸质书达300多万种，电子书600多万种、近7万种电子期刊、几亿篇文章，并采用专业的资源发现系统为用户提供纸质书和电子资源的整合检索。资源发现系统自带的知识库包含7亿多条高品质的文章级元数据，是庞大的元数据仓储；此外，清华大学图书馆还在发现系统平台汇集融合了从维基百科下载的开放数据，以及由图书馆员收集整理的清华教工的学术简介等。基于上述数据基础，清华大学图书馆在以下两方面进行了探索和实践。

数据集成。清华大学图书馆尝试在检索平台“水木搜索”上综合运用多来源数据。将书、刊、文章等元数据汇聚在一起用于检索，用户可通过开放链接技术定位及获取资源；维基百科的词条、清华教工简介、豆瓣书评、清华学生打过的标签则在展示层与检索结果关联，用户可在一个检索结果页面获得不同层次、不同角度的信息内容。

挖掘数据价值。从目前情况看，图书馆的数据规模以及对数据处理的实效性虽远未达到大数据处理的需求，但是基于大数据开展的挖掘数据价值、提取知识的理念却深深影响了图书馆的服务模式。

海量权威的元数据汇集到一起，蕴藏了大量的知识，对基于数据的知识服务带来重要影响。清华大学图书馆尝试对这些数据集合做一些分析工作，即从元数据仓储中提取关键词等信息，分析关键词走向，分析作者与合作者的关系，建立以人为中心的知识关联网络。

基于时间轴进行趋势分析。研究某学科领域在一个时间段的发展趋势对了解该学科的发展脉络、预测未来的发展方向至关重要。清华大学图书馆采用提取文章关键词并分析关键词在时间轴上分布的方法来给出该领域的发展趋势。该服务的初步尝试已得到读者的良好反馈。

建立以学者为中心的知识关联网络。清华大学图书馆以海量多来源数据为基础，通过分析海量文献数据的特点，自动甄别出清华大学目标学者（ThuRID），获取目标学者的学术出版物、与其紧密关联的合作者、期刊会议等信息，应用开放链接技术准确定位清华学者学术出版物的全文，采用可视化视图的方式直观展示学者的学术历程，以及以学者为中心的科研网络。目前，清华大学图书馆已经成功甄别出清华50位专家学者，并建立了以他们为中心的知识关联网络。

清华大学图书馆用于分析的主要数据集合还是英文数据，我们期待着和中国知网这样的国内数据提供商在数据挖掘及增值应用方面有更多的合作。此外，中国知网在国内外大力推广数字出版，这使得建设一个从资源产生到资源应用的快速通道成为可能，我们也在积极思考如何和中国知网携手共建这个快速通道，也希望数字出版能从资源诞生那一刻起即考虑到与应用环节的有机衔接，共同促进知识的传播与再利用。

关键字：数据清华大学

热文

高端访谈更多