基于深度学习表示的医学主题语义相似度计算及
随着海量医疗数据的涌现,大量的生物医学信息,比如,疾病、基因和药物等信息以非结构化的方式呈现在科研文献中[1]。上述非结构化医学信息不仅能有效帮助实现医学领域的知识发现[2],而且可以提升关联基因挖掘[3]、精准医疗检索及扩展检索[4]等相关应用的整体效果。在医学文献的知识发现中,相关文献之间相似度计算一直是备受关注的重要任务。不同于一般的文献,医学文献中出现的致病基因、治疗药物等医学实体,能有效的标记和关联不同文献,进而发现文献集合中潜在的关联知识。已有研究表明,医学文本相似度计算能有效用于蛋白质作用关系预测[5]、靶点基因知识发现[6]等领域。
然而,随着精准医疗计划的提出以及基因组测序数据的累积,针对特定突变基因的癌症靶向治疗等医学领域研究热点,对医学文献知识发现中相关文献之间语义相似度精确性提出了更高的要求[7]。已有一些学者将深度学习文本表示方法应用于医学文本相似度计算中,并取得了良好的效果,其中CNN、LSTM模型对医学文本中的句子相似度计算任务性能提升尤其明显[8]。另外,范少萍等[9]的研究表明在医学文献相似度计算中加入主题维度信息,能有效从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。目前鲜有研究融合深度学习语义表示技术和主题层面知识对医学文献相似度计算方法进行探究。
综上所述,本文提出了一种基于深度学习文本表示的医学文献主题语义相似度计算方法。借鉴基于主题词计算主题相似度的基础上,在对医学全文本对象中疾病、基因、致病因素、药物等能有效帮助医学知识发现的领域知识标注的基础上,利用深度学习相似度计算模型Siamese Network分析医学文本间的相似性,最后通过文献聚类这一应用评估该方法的性能。
1 相关研究
医学文本相似度计算研究,主要是通过计算词级相似性得到句子之间的相似度,进而用于医学领域的知识发现。目前医学文本相似度计算方法主要有如下三类,基于基因本体GO(Gene Ontology)[10]的相似度计算、基于主题层面[9]的相似度计算、基于MeSH词表[11]的相似度计算等主要方法。其中,Sogancioglu[12]证明了对于特定领域的语义句子级别相似性计算中基于从大型生物医学语料库中无监督学习句子的分布式表示方法并不一定是最佳的,并提出了一种结合生物医学本体的句子语义相似度计算方法。为了减少临床研究人员的负担并提供决策支持,Baker[13]开发了自动文本挖掘方法和工具(CHAT),该方法根据癌症标志物对文献中的句子进行分类并通过计算其之间相似性,最后用来组织和分类癌症相关文献。Kavuluru[11]利用MeSH术语对PubMed文献摘要进行手动注释,通过术语之间的共现关系以及在MeSH之间的潜在关联计算术语之间的潜在关联。上述研究中,基于词表和基因本体的方法,因需要预先标记好的语料库和词条,为该方法的实施带来一定的困难。相对的,获取文献主题的方法多种多样,具有较好的可延展性和泛用性。
深度学习词嵌入表示方法将词语表示成带有特定语义信息的向量,通过相似度计算可以获得更深层次的语义关联信息。基于深度学习的医学文献相似度计算方面,Smaili[14]提出了一种新的本体向量表示方法OPA2Vec,通过将PubMed摘要中的本体和本体注释数据相结合并通过Word2Vec模型训练得到本体的向量表示,最终用于进行蛋白质相互作用关系的预测。Jain[15]在将医学文献摘要表示成语义三元组的基础上,利用对抗网络生成区分相似文本和差异性较大文本的阈值标准,并通过试验证明该方法在临床领域文献的信息检索应用中的有效性。Zhang[16]提出了一种利用子单词和MeSH词表的深度学习语义表示基础上的词语相似度计算方法,并在句子相似度计算和生物医学关系提取任务中都取得了更好的效果。Zhang提出的方法和本研究基于主题语义的相似度计算方法都丰富了词语的表示,不同之处在于Zhang使用词语的子词信息,而本研究将词语映射到词语的所属主题。
上述深度学习语义表示在医学领域的相似度探究中,基本仅使用了文献中的摘要相关信息,然而,Geifman[17]的研究表明,在摘要中包含的不完整的基因和疾病关联关系,可能会影响结果的准确性。同时,Xu[18]的研究证明,利用医学全文本中的药物副作用标记结果,能有效提升对医学文献中抗癌药物的副作用信息的提取和自动分类性能。另外,鲜有将Huang[19],Zhang[20]等提出的可结合文本和主题的深度学习模型应用于医学领域的探究。Liu[21]在研究中表明在医学集合中训练出来的单词嵌入模型不能很好地捕捉到一些特定单词之间的联系,比如心脏和处方中提到的相关单词,而在单词嵌入中添加知识信息可以更好地适用于医学文本表示计算任务。