跨越时空的对话构建基于语义标注平台的书画记
1 引言
清代段玉裁 《说文解字注》[1]里将题解释为“頟也”,引申为“凡居前之称”;将跋释为“蹎也”,引申为“近人题跋字,题者标其前,跋者系其后也”。《现代汉语词典》[2]将题跋定义为“写在书籍、字画等前后的文字,‘题’ 指写在前面的,‘跋’ 指写在后面的,内容多为品评、鉴赏、考订、记事等”。书画题跋历史悠久,源头可追溯到唐代甚至六朝,宋代之后正式定型并繁盛[3]。书画题跋可分为作者的题跋和他人 (如收藏者、鉴赏者等)的题跋。他人的题跋,一般包括题名 (观款)、诗文题跋、标题、签题、引首书等[4]。收藏者和鉴赏者在书画上留下的题跋,记录了对书画的观感,说明了藏品的流传轨迹,丰富了艺术作品所携带的历史色彩,对分析书画的意境、评判书画的价值、以及鉴别书画的真伪都起到重要的作用。
2014 年,美国斯坦福大学STUART 等[5]提出国际图像互操作框架 (International Image Interoperability Framework,简称IIIF),旨在组建图书馆、博物馆、档案馆、非营利非商业的组织和其他研究机构的大型社群,致力于图像的传输和不同平台之间交换和共享数据。IIIF 定义了一系列应用程序接口 (Application Programming Interfaces,简称API),为用户提供浏览、比较、使用和标注图像的体验 (
随着IIIF 框架的改进、技术的提升,功能的完善,其使用群体正逐步扩大[6]。国内近年来,上海图书馆、复旦大学、华东师范大学等高校和研究机构都纷纷尝试使用IIIF 来呈现图像资源。纵观全球,对于IIIF 的应用和研究大多数都是针对于资源的发布,而基于语义标注的知识发现则为数不多。本文基于团队已创建的IIIF-Immersing Interaction Platform (IIIF-IIP)沉浸式交互平台 (
2 相关研究
IIIF 的 API 包括图像 (Image)API、呈现(Presentation)API、检索 (Search)API 和认证(Authentication)API。图像API 只用于提供展示的图像元素,呈现API 提供与图像有关的元数据信息,其中包括不同图像之间的关联、图像内部元素结构及相关标注等。用户使用标注功能,可以在共享图像上添加注释,注释的形式,除文本外,还可添加音频视频等多媒体内容[7]。
2015 年6 月由IIIF 组织发起在英国牛津成立的IIIF 资源整合发布平台联盟IIIF-C,其成员来自各大国际组织和高校,目前在全世界已有40 多个成员单位,如大英图书馆、法国国家图书馆、哈佛大学图书馆等。它们的主要任务是基于IIIF 框架,整合发布来自各类机构资源典藏单位的数字图像资源,而依托IIIF 和关联数据构建的展示平台,关于图像语义信息的知识发现,尚为数不多。日本开放数据人文中心利用IIIF 技术,2018 年发布IIIF Curation 平台,推出“容貌收集”app[8],该应用可以对各类图像资源中的人脸部分进行提取和再分析;同年,台湾中央研究院数位人文研究平台,结合字符识别、关联数据和IIIF[9],为研究者提供上传共享、文本相似检测等工具。
国内关于题跋的研究多是从美学、艺术学、历史学、文学、古典文献学、语言文字学等角度,对题跋的定义、内容、艺术价值、学术价值等方面开展研究。而从计算机角度分析书画,主要侧重于图像分类、图像识别和图像生成等领域,对书画题跋类文字的内在联系和书画的传承轨迹,研究较少。在语义标注领域,王晓光等对敦煌壁画图像的主题开展深度语义标注[10],并提出叙事型图像语义标注模型[11],但壁画的题跋尚不多见,且名人书画大多不存在连续叙事特征,故不适宜迁移。
3 研究方法
书画上历代文人雅士或者君主的题跋,与原作品共同呈现于同一长卷,提升了原作品的历史价值和艺术成就,构成独特的历史文化记忆。本节首先定义书画记忆链模型,设定网络度量方法,然后介绍如何通过IIIF-IIP 平台关联人物信息,呈现书画流传过程中经历的人物驿站。
3.1 模型构建
本文将书画记忆链模型定义为重边的有向图G=(V,E),其中节点集合V∈P代表所有在书画上留有印章、题跋或文字的人物集合,每个人物p∈P由id、正式的姓名、别名、和其他例如朝代、性别、职业、小传等描述性的属性组成。边集合E?Vp×Vp代表节点之间的关系,如果一幅画从人物i流传到人物j收藏,那么书画收藏网络中就存在一条从i到j的有向边。书画的名称c?C、收藏者在书画上留下的文字,即字序列{w1,w2,…,wn},以及题款的日期,作为边的属性赋予每条边\{(d,t,…,c,{w1,w2,…,wn})∣d∈N,t∈T,…,c∈C,…,w∈W}。为了区分相同的人物之间可能存在的多条边,即多幅艺术品的题跋或印章,用字母d 来表示每条边的id。