数据分析与知识发现
    主页 > 期刊导读 >

基于偏序结构理论的情态与时体态互动关系知识

0 引言

情态动词作为情态的重要载体,是英语语法中最难描述的词类。绝大多数情态动词一词多义,存在语义级差、语义歧义和语义重叠,使其语义更难识别、更难描述,已经成为自然语言处理和理解研究中的棘手难题。时、体、态与情态动词语义有着紧密的联系。揭示和发现时、体、态与情态动词语义的互动关系,及其构成并限制情态动词语义的机理,无论对情态语义学研究,还是对自然语言处理研究都具有重要的理论和实践意义。

由于情态动词一直是语言学研究、哲学研究和自然语言处理研究的热门话题,已有很多学者对其展开了广泛的研究。Palmer[1]描述了情态动词的语义分类和语法功能。有些学者研究了情态动词的语义和语用功能[2-3]。汤敬安、白解红[4]用主观性和主观化理论解释了认识情态主客观类型的变化。吉洁、梁茂成[5]基于布朗(Brown)语料库,研究了英语情态动词must的语义和句法特征的历时演变。胡晓丹、倪蓉[6]通过分析COCA语料库的例句,从语法化变化过程研究了英语情态意义范畴。张楚楚[7]从认知的角度分析了情态动词的语义。Talmy[8]采用力动态理论分析了英语情态动词的用法。刘翼斌等[9]通过分析例句研究了汉语情态意义与体的关系。Coates[10]基于语料库,统计出与情态动词共现的句法特征。自然语言处理关于情态动词的研究主要集中在情态动词的语义排歧上。于建平等[11-15]分别研究了基于神经网络、支持向量机、朴素贝叶斯概率、模糊c均值聚类、自适应神经网络模糊推理系统以及属性偏序图的英语情态动词may, must, can和will的语义排歧。Palmer[1]认为,英语中,时态、体和语态都对情态动词语义有影响,但关于时、体、态如何影响英语情态动词语义的研究却很少。而且,以往的相关研究主要限定在基于例句表面结构的分析,由于这种研究方法无法展示情态动词的语义结构,所以无法揭示和发现情态动词语义与时、体、态同现时的互动限制关系和概念层次关系,也无法揭示时、体、态构建和限制情态动词语义的机理。如何解决上述难题一直是国内外语言学研究和自然语言处理研究关注的热点。

因此,本文基于偏序结构理论和方法,对时、体、态与情态动词语义的互动限制关系展开研究。基于一个120万字的英语语料库,以英语情态动词can为目标词,构建反映情态动词can的3个词义与时、体、态特征共现关系的形式背景和偏序结构关系图,旨在发现以上问题的答案,发现有价值的知识。

1 偏序结构理论和方法概述

偏序结构理论源于德国数学家Wille[16]于1982年提出的形式概念分析。形式概念分析主要研究如何数学化地描述概念、概念层次以及概念之间的关系。从由对象、属性和它们之间的关系生成的形式背景中获取形式概念和形式概念之间的联系[17],形成一种以形式概念为元素的格结构。基于形式概念分析理论和方法,洪文学等[18-21]提出了以属性覆盖对象程度为偏序关系的属性关系结构图理论和方法,并把该方法应用于不同问题的知识发现研究。于建平等[15, 22-23]研究了基于偏序结构图的英语情态动词语义排歧方法和英语介词的语义排歧和规则提取方法,取得了很好的排歧效果。偏序结构方法主要基于以下理论描述[17-18]。

定义1 一个形式背景由一个三元组(G,M,I) 构成。G是对象集合,M是属性集合,I为G和M之间的关系,I?G×M,(g,m)∈I或gIm表示对象g具有属性m。

定义2 定义背景上的一个形式概念是一个二元组,其中,A?G,f(A)={m∈M|(g,m)∈I,?g∈A},相应地,B?M,定义g(B)={g∈G|(g,m)∈I,?m∈B}。一个形式概念是一个二元组合(A,B),而且满足f(A)=B,g(B)=A,称A为概念(G,M,I)的外延,B为概念(G,M,I)的内涵。

定义3 如果对于一个集合M上的所有元素x,y,z∈M都满足下列条件:

1) 自反:xRx;

2) 反对称:xRy和x≠y→非yRx;

3) 传递:xRy和yRz→xRz。

那么,这个集合M上的二元关系R称为一个偏序关系。

定义4 设K=(G,M,I)为一个形式背景,如果对于任何对象g1,g2∈G,对于f(g1)=f(g2),总有g1=g2,而且相应地,对于所有的m1,m2∈M,g(m1)=g(m2),有m1=m2,则称形式背景K=(G,M,I)为净化了的形式背景。

定义5 设K=(G,M,I)为一形式背景,m∈M。如果属性m满足下列条件:{g(m)|m∈M}=U,则称m为最大共有属性。

定义6 设m0,m1,…,mk为某些概念的内涵,如果g(mi)?g(m0),这里i=1,2,…,k,k≥2,则m0是对应于mi的概念的一个共有属性。