知识图谱如何为数据分析带来变革?
作者:Neo4j高级产品市场总监Maya Natarajan博士
?
数据大爆炸时代,企业面临着全面数字化转型的挑战。如何挖掘数据之间的内在关联,并将这些洞察应用于关键业务决策,驱动从数据分析到数据智能的转化成为关键。
?
作为高级数据科学的一大趋势,知识图谱的应用已经渗透到不同领域的各个细分行业。根据Neo4j一项针对100名企业高管的相关调查揭示,88%的企业管理者已经认识到知识图谱的价值,认为知识图谱可以帮助跨越管理和数据治理的瓶颈,在弥合数据孤岛,改进AI或者机器学习,以及协助开辟新收入来源等方面发挥重要作用。
?
什么是知识图谱?阿兰·图灵研究所(Alan Turing Institute)将知识图谱定义为“对知识进行编码以在开放、不断发展、去中心化系统中大规模使用”的最佳方式。简而言之,知识图谱是具有丰富含义、相互关联的数据集。企业可以针对基础数据进行推理,并且自信地将其用于复杂的分析和决策中。
Neo4j高级产品市场总监Maya Natarajan博士
?
Neo4j知识图谱包含数据、显示动态内容的图数据及语义在内的三大要素。与关系型数据库的平面结构不同,当数据被抽取到Neo4j动态图结构中存储时,节点和节点之间的关系就被添加进来,为数据提供了动态的内容,即第一层上下文关系。而随着信息不断丰富,图也会不断增长。在图中获取数据并为它添加语义,就获得一个知识图。语义为图添加了第二层上下文关系,图谱就具备了深入动态的上下文关系。通过这个步骤将智能引入到数据当中,便于系统或者客户从中推断出不同的含义。
?
根据数据范围,Neo4j知识图谱的应用范畴划分为数据管理和数据分析。数据管理包括汇集、校验、治理和探索数据。而数据分析侧重推理、预测判定。相对应的,Neo4j提供行为图和决策图两种类型的知识图谱,协助客户从行为知识图谱过渡到决策知识图谱,实现数据分析到数据智能,完成数据创新。
?
行为知识图谱
?
行为知识图谱是以数据管理为核心的知识图谱,其主要目的是提供数据保障,并通过数据洞察来推动决策行动。数据保障侧重把不同数据源的数据聚合在一起,进行数据交叉验证从而产生洞察。而数据治理包括如何溯源数据目录和结构,数据是否存在血缘关系以及是否合规,以甄别存在的风险。数据洞察超越了信息存储的可见性,专注于新知识的探索、演绎和推理。
?
行为知识图谱常见的用例包括耳熟能详的客户360和患者360、产品360、供应链360等在内的X360系列,以及金融行业身份验证,访问管理,欺诈、反洗钱的根本原因分析以及改善建议等。Neo4j行为知识图谱帮助客户更加深入了解并精准地划分用户,以提供个性化的服务。
?
决策知识图谱
?
决策知识图谱侧重于数据分析和预测、判定,提供基于图的分析和基于图的机器学习。数据分析添加不同的语义,帮助客户从更深层次理解数据,从而改进决策系统并采取最佳的措施。
?
决策知识图谱的主要用例包括流失分析、欺诈分析、风险分析、假设分析和影响分析以及实体解析和知识图谱补全和预测模型等。由于数据是一个连续的图谱,Neo4j客户典型的数据图都是从行为知识图谱开始,进而演进到决策知识图谱。从数据洞察到数据分析,最后到基于图的机器学习。以金融行业反欺诈为例,欺诈识别是一个数据洞察用例,Neo4j添加了很多图算法开展检测并且进行不同类型的分类和标记。这些算法允许检测不同的欺诈模式,同时通过算法来提取图特征进行训练,通过机器学习来实现建模,预测欺诈。
?
知识图谱如何助力企业实现数字化转型?
?
Neo4j知识图谱解决方案是一个知识图谱平台,建立在丰富的产品基础上,包括负责数据存储的Neo4j图数据库,帮助建模的知识图谱工作台,致力数据分析的图数据科学 (GDS) 以及数据可视化工具Neo4j Bloom。
?
每个企业或组织都有大量各自为政的数据,数据孤岛其实不是一件坏事,由于每个数据孤岛都较小,用户可以方便地对其进行数据维护和控制,并制定政策。但另一方面,数据孤岛会降低数据质量、分析速度和报告的准确性。Neo4j为知识图谱添加各种关联以及丰富的上下文关系,将数据孤岛串联起来,提供一个完整可见的数据查询视图。基于查询视图,过渡到更深入的数据联邦,获得更加丰富的内容。在这个过程当中,知识图谱描述了整个结构中各个数据源之间的关联关系,并添加了上下文,提供数据的上下文智能。