数据分析与知识发现
    主页 > 期刊导读 >

数据图谱在政府数据开放平台的应用研究

1 前言

随着人类社会从信息时代进入大数据时代,拥有庞大公共数据资源的政府部门也从信息公开也进入到数据开放阶段。互联网和语义网技术的快速发展,使政府部门日益意识到基于开放标准在互联网上发布政府数据的重要性,互联网上越来越多的政府数据以链接数据形式发布,然而各机构发布的链接数据之间存在严重的异构和冗余等问题。

2015年国务院发布了《促进大数据发展行动纲要》,提出要在2018年底前建成构建跨部门的国家政府数据统一共享交换和开放平台[1];2017年5月3日国务院办公厅印发了《政务信息系统整合共享实施方案》,提出要建设“大平台、大数据、大系统”,形成覆盖全国、统筹利用、统一接入的数据共享大平台[2]。在此背景下,如何实现多源异构的政府数据之间的关联组织、关联查询,揭示数据之间的关联关系和知识构成,从而使得机器能够理解并发现更多的相关数据,进而帮助人们对政府数资源进行创新性开发和利用,是目前各政府数据开放平台需要解决的主要问题。

2 政府数据开放与数据图谱

2.1 政府数据开放

所谓政府数据,是指政府和公共机构依据职责所产生、创造、收集、处理和存储的数据,是对一切产生于政府内部或虽然产生于政府外部但会对社会活动、公共事务和普通民众有影响、有意义的数据资源的统称[3][4]。在大数据时代,政府数据开放具有更加重要的意义,可以促进政府数据的重复性和创新性利用,有助于提高政府部门透明度、促进经济发展和社会创新。

从国际实践来看,建设国家专门和统一的数据开放平台已经成为了促进政府数据的开放共享和公众获取使用的重要措施。通过政府数据开放平台,社会公众可以免费地获取大量完整原始、机器可读、可重复分析和利用的政府数据。

2.2 数据图谱

目前学术界对数据图谱还没有一个明确的定义,我们可以将数据图谱理解为关联数据云图(Linked Open Data cloud,LOD cloud)的雏形。关联数据云图是web中关联数据的集合,其基础是RDF开放数据集的建设和RDF链接的产生。关联数据云图显示了以关联数据格式发布的数据集,并与云图中的其他数据集相互关联。云图中每个圆代表一个数据集,圆的大小对应于连接到每个数据集的边数。2007年5月W3C的语义教育及扩展(Semantic Web Education and Outreach,SWEO)工作组首次发布了第一个版本的关联数据云图,截止2017年2月20日,SWEO工作组共发布了15个版本的关联数据云图[5]。

数据图谱在技术上涉及数学、图形学、信息可视化等,所涉及的内容除了数据本身还包括术语定义、模板定义、模型定义、数据关系定义、变换关系定义、编码系统以及总体的体系架构等[6]。在实际应用中,数据图谱以关联数据和关联数据云图的相关理论和方法为借鉴,采用图形式计算模型,将数据有机地整合起来,并用可视化技术表达数据资源及其相互联系。

图1

2.3 政府数据的数据图谱实现机理

首先,政府数据相互关联且具有较好的自解释能力,并且基本不涉及任何授权和隐私,鼓励不受限制地自由开发和利用,特别适合采用关联数据和数据图谱的思想进行组织和服务。

其次,关联数据要求政府数据采用RDF三元组模型。RDF数据模型的基本构成单位是一个由资源、属性和描述组成的主谓宾三元组,一个资源可以同时是主体和客体出现在多个三元组中。三元组用来表达两个资源间的二元关系或一个资源的属性,表示两个资源间或资源和属性值之间的一种关联关系,可视为数据图结构中的一条有向边及其两个邻接顶点,一个数据集需要多个三元组才能完整地描述该数据集的数据结构[7]。根据三元组中资源、属性和描述组合结构的不同,关联数据的关联模式分为数据集内部关联、数据集外部关联和数据集关联三种。通过大量的数据集内部关联、外部关联和数据集关联,可以将政府数据开放平台上的众多数据资源进行相互关联。

再次,从数据计算模式角度,RDF三元组模型更适宜采用图形式计算模式而不是关系型数据库计算模式。数据图谱是在技术上涉及了数学、图形学、信息可视化、信息科学等。数据图谱借鉴关联数据和关联数据云图的理论与方法,在多种数据关联模式基础上,采用图形式计算模式将政府数据有机地整合起来,用可视化技术分析、构建、描述和显政府示数据资源及它们之间的相互联系。