基于的科研数据本体构建研究
1 引言
科研数据作为科研产出的一种形式,可作为进一步激发科研创新的基础。随着数据密集型科研环境的形成,科研数据的数量急剧增长,且动态多变,异源异构,给科研数据的管理和共享带来困难和挑战。科研数据机构库联盟是在此背景下提出的实现数据共享的创新模式,是打破“数据孤岛”走向协同服务的内在要求和趋势[1]。联盟的成立将为科研数据共享提供机制保证,而如何对分散在各个机构的数据进行管理与组织,便于科研人员及应用程序发现并“一站式”获取,成为科研数据机构库联盟服务面临的主要问题。
科研数据机构库联盟服务的有效开展依赖于对联盟机构内部分散、异构数据的可扩展集成,并探索基于新型数据组织模式的知识融合和知识发现服务。关联数据被认为是大数据时代多源、异构web数据集成和发现的最佳解决方案之一[2]。作为语义网的初步实现方式,关联数据具有较强的语义描述和关联能力,为联盟间的数据组织与共享提供了新的思路和途径。
国内高校科研数据管理和共享平台建设尚处于起步阶段,机构之间和机构内部还未形成成熟的协调与合作机制,各个平台单打独斗不成规模,影响了平台数据规模和共享[3]。在科研数据描述方面,各个平台缺乏统一的元数据标准,且不同学科的数据保存格式难以统一,数据处理与组织的规范化还有待进一步加强[4-5]。科学数据的整合集成对于数据的共享与互操作具有举足轻重的意义,但从已有平台实际情况看,尚缺乏对数据的深度整合和内容标引,数据揭示与服务方式较传统[6-7]。各个平台、各个单位之间的数据关联性不高,数据之间的关联价值未能充分体现出来,数据的对接和关联效果有待提升[8]。综上所述,已有科研数据管理和共享平台在科研数据组织的规范、深化和整合方面还存在一定的欠缺,在满足用户知识检索需求方面还需进一步改善和优化。此外,如何设计包含数据源中全部对象、属性以及相关描述的数据融合方案也是有待进一步解决的问题[9]。关联数据组织模式在知识发现、规范控制和资源关联方面具有独特的优势,恰恰可以弥补与改善目前高校科研数据平台在这些方面存在的欠缺与不足,为联盟数据服务的实现提供方向和路径。
鉴于此,本文以构建基于关联数据的高校科研数据机构库联盟服务为导向,基于国内高校科研数据平台建设的基本情况,重点探讨科研数据知识本体的构建,以实现科研数据的语义化关联、组织与集成。
2 理论基础
2.1 关于科研数据本体描述标准调研
目前,尚缺乏专门针对科研数据本体描述的标准,孙广元以社会科学研究问卷数据为例,对数据外在特征属性和概念内容变量及其关系进行了规范研究[10]。科研数据更多的是作为一种资源纳入相关科研本体之中,如VIVO本体、研究社区语义规范(SemanticWebforResearchCommunities,简称SWRC)、关联科学核心词汇规范(LinkedScienceCoreVocabulary,简称LSC)、资金、研究管理和项目本体(Funding,ResearchAdministrationandProjectsOntology,简称FRAPO)、欧洲通用研究信息格式(TheCommonEuropeanResearchInformationFormat,简称CERIF)本体规范等,均包括对科研数据的关联,但是缺乏对科研数据的深层描述和揭示。
在社会科学领域,DDI(DataDocumentationInitiative,简称DDI)联盟将词表进行RDF语义转换,主要开发了三种语义词汇,一是DDI-RDF发现词汇,支持将数据集元数据进行关联数据网络的发布;二是PHDD词汇,主要描述已有数据的物理表现形式;三是XKOSRDF词汇,作为SKOS词汇的延伸,主要描述统计分类数据[11]。
基于W3CRDF描述的DataCubes本体词汇,与统计数据和元数据交换(StatisticalDataandMetadataeXchange,简称SDMX)的多维数据集模型兼容,是支持统计数据流或其他多维数据集发布的核心基础[12]。DataCite元数据模式是为发布和引用科研数据而开发的,其中有专门针对科研数据实体、类和属性的关系描述[13]。
2.2 关于BIBFRAME的应用实践研究
书目框架格式(BibliographicFramework,简称BIBFRAME)是美国国会图书馆为取代MARC而开发的关联数据项目,自2011年书目框架转换声明发布以来,因其面向语义网和关联数据进行架构,具有较好的开放性和包容性,获得了相关学者和机构的密切关注。
图书馆界近些年对BIBFRAME模型进行了相关应用探索,其中具有较大影响的有LD4L(LinkedDataforLibraries)和LD4Prod(LinkedDataforProduction)项目,主要由斯坦福大学、康奈尔大学以及哈佛大学图书馆等参与,探讨如何在关联数据环境下利用BIBFRAME创建元数据,实现图书馆资源的语义化组织与关联[14]。相关研究及实践证明,BIBFRAME在资源类型描述上没有限制,具有广适性。除传统的图书资料等书目对象外,对科技报告、家谱、制图资源、连续性资源和电子资源等也具有较好的语义映射效果[15-19]。除此之外,齐云飞等利用BIBFRAME对视觉资源进行语义组织和关联,实现移动视觉搜索和语义搜索的融合,也是利用BIBFRAME对数字图书馆领域语义服务模式的一种创新[20]。