医学本体构建方法研究以脑区与自闭症为例
1 引言
随着医学大数据的出现和人工智能技术的迅速发展,临床诊疗和医学研究呈现 “智能化”趋势。医学大数据的“4V”特征(Volume;Variety;Velocity;Valueless),决定了从大数据中抽取、融合和处理知识并构建医学信息资源是实现医学信息化的基础。本体作为领域概念体系的表示模型,是医学信息资源的核心内容。构建医学本体有利于促进医学信息的关联和共享,同时支持医疗智能应用。 近年来,大型通用医学领域本体相继出现,如开放生物医学本体OBO[1]、临床医学本体OpenGALEN[2]等,促进了医学知识的获取和利用。
以脑区与自闭症领域为例,脑生物学因素是自闭症的重要病因之一。已有研究[3-5]证实了部分脑区的结构和神经机制异常与自闭症之间的因果关系,这些成果能够有效地推动自闭症的早期诊断和及时干预。研究方法方面,应用最广泛的临床队列研究[5-6]通过领域专家发现医学知识,并基于医学图像进行实验研究。该方法的实验过程比较完备,得出的研究结果较为准确。然而,脑区概念数量庞大,脑区和自闭症概念间具有上下位关系、等价关系等多种复杂关系。因此,将临床队列研究方法应用于脑区和自闭症领域,研究成本较高且周期较长。近年来一些研究[7-8]使用机器学习方法从大量医学影像中发现新关系,从而提高知识发现的效率。然而,机器学习模型多为“黑箱模型”,即结果缺乏可解释性,损害了知识发现结果的准确性和有用性。因此,有必要构建医学本体,合理表示和组织领域概念和复杂关系,并在此基础上发现脑区与自闭症之间的新关系。
本文对高效构建医学本体并实现领域知识组织和新知识发现进行了深入研究。特定医学领域的本体构建面临诸多挑战和难点。首先,医疗大数据的庞大数量要求本体构建过程的高效率;其次,医学领域知识固有的复杂性要求本体构建方法具备高准确性;最后,医学研究和临床应用要求医学知识的权威性和正确性。然而,现有的本体构建方法难以完全满足医学本体构建的上述要求。骨架法[9]和TOVE法[10]等人工构建本体的方法不支持本体的扩展和更新,并且难以适应大数据的要求;五步循环法[11-12]和循环获取法[13]等半自动本体构建方法利用机器学习,能够支持本体的扩展、演进和更新,但它们在本体初始构建阶段未对领域知识进行明确地定义,存在准确性不足的问题。本文提出的推理-复用法利用人机融合的方式构建本体,同时提升了本体构建的准确性和可扩展性。现有的半自动本体构建方法难以满足医学领域复杂概念体系的要求,且缺乏可扩展性,难以进行大规模本体构建。
为了解决上述挑战,本文提出了一种医学本体构建方法。具体来说,本研究的主要贡献包括以下几个方面:①提出了一种高效构建医学本体的半自动本体构建方法。推理-复用法首先初始化领域知识和数据,确保本体构建的准确性;然后,使用知识推理来扩展本体的规模。该方法还使用评估反馈机制来完善本体的结构和功能。②利用推理-复用法首次构建了脑区-自闭症本体。该本体涵盖了脑神经科学与自闭症的相关概念和关联关系,实现了领域知识的体系化、结构化组织和表示。基于医学文献的专业知识,定义了一组关于脑区-自闭症本体的推理规则。推理得到脑区-自闭症之间的新关系,并将它们作为未经验证的潜在知识添加到现有本体中,实现本体规模的扩展。③对脑区-自闭症本体的结构和推理结果的有用性进行了评估和实证分析。评估反馈表明,脑区-自闭症本体完成了复杂概念和关联关系的深入表示,其关系丰富度和属性丰富度优于其他自闭症领域本体。实验结果表明,脑区-自闭症本体对领域研究有辅助和指导作用。
2 相关研究
2.1 本体构建方法
医学本体构建和其他领域本体构建在数据源和应用需求方面存在差异。数据源方面,医学数据源专业化程度高,并且许多医学数据涉及隐私保护,难以直接获取和利用。应用需求方面,由于医疗和健康领域的应用对精确性要求较高,医学本体构建同样需要高精确性和可解释性。
目前经典的本体构建方法包括骨架法、TOVE法、七步法等。骨架法[9]描述了本体构建的指导方针和基本流程,但未涉及本体的自我扩展和演进;TOVE法[10]提出了基于本体评价的本体构建方法,但仍未提及本体的迭代和更新;七步法[14]是斯坦福大学提出的一种较为实用的用于医学领域的本体构建方法,但缺少必要的评估和反馈机制。