一种医疗数据补全方法及相关产品与流程

未命名 10-21 阅读:76 评论:0


1.本技术涉及数据处理技术领域,特别是涉及一种医疗数据补全方法及相关产品。


背景技术:

2.随着“数据洪流”时代的来临,医疗领域电子化、数据化、信息化迅猛发展,海量的医疗健康数据被收集和存储。通过对日常所收集到的患者健康状况和诊疗状况等真实医疗数据的分析,可以为实际诊疗过程中诊断、治疗和疾病预防等提供有效的数据支撑,进而减轻医生负担,提高诊疗质量。
3.然而,由于数据采集不规律、记录不完全或传输不稳定等原因,导致存在大量的医疗数据缺失,严重影响了医疗数据信息的完整性和可用性,限制了医疗科技创新的发展。当前,可以通过分布的先验知识或对医疗数据进行聚类预测等方法,补全医疗数据的缺失值。但前者要求待处理的数据要具有很强的统计学分布特征,后者可能会忽略医疗数据不同特征间的相关性或无法全面反映特征间的信息。
4.所以,采用传统医疗数据补全方法,获得的医疗数据缺失值的理论值与医疗数据缺失值的真实值差异较大。利用传统医疗数据补全方法补全的医疗数据集对患者的实际诊疗过程进行预测,会导致诊断不准确或治疗方案不完善,对患者的健康产生负面影响。所以,如何获得准确度较好的医疗数据缺失值,恢复医疗数据集的完整性并提高医疗数据集的可用性,已经成为当前领域亟待解决的技术问题。


技术实现要素:

5.基于上述问题,本技术提供了一种医疗数据补全方法及相关产品,用以获得准确度较好的医疗数据缺失值,恢复医疗数据集的完整性并提高医疗数据集的可用性。
6.本技术第一方面提供了一种医疗数据补全方法,包括:
7.根据目标医疗数据集中数据的特征或属性,以及数据间关系,构建所述目标医疗数据集对应的医疗知识图谱;所述目标医疗数据集中所缺失数据对应于所述医疗知识图谱中有待预测的尾实体;
8.将所述医疗知识图谱作为医疗数据补全模型的输入,通过所述医疗数据补全模型获得所述医疗知识图谱中有待预测的尾实体的预测值;所述医疗数据补全模型包括至少一层图卷积层,所述图卷积层用于通过聚合所述医疗知识图谱中相邻的节点的信息以实现基于数据间关系的节点表示学习;相邻的两个节点包括头实体和尾实体,相邻的两个节点之间的边表示所连接的头实体与尾实体之间的关系,头实体与尾实体的数据的特征或属性不同;
9.将有待预测的尾实体的预测值补充至所述目标医疗数据集中对应的所缺失数据的位置。
10.其中,医疗数据补全模型的训练步骤包括:
11.根据医疗数据样本集中数据的特征或属性,以及数据间关系对所述医疗数据样本
集中的数据进行结构化处理,构建所述医疗数据样本集对应的样本医疗知识图谱;
12.将所述样本医疗知识图谱输入待训练模型中,通过所述待训练模型中至少一层图卷积层的学习,获得所述样本医疗知识图谱的特征向量表示矩阵;所述特征向量表示矩阵包括所述样本医疗知识图谱中各节点经过至少一层图卷积层的信息聚合后形成的新的特征向量表示;
13.将所述特征向量表示矩阵和所述样本医疗知识图谱的关系表示矩阵进行矩阵拼接,得到拼接后的矩阵;
14.通过对所述拼接后的矩阵进行卷积、向量化及激活函数处理,得到尾实体矩阵求解结果;
15.根据所述尾实体矩阵求解结果得到对所述样本医疗知识图谱中样本尾实体的预测值;
16.根据所述样本医疗知识图谱中样本尾实体的预测值与真实值的差异,对所述待训练模型的参数进行调整,直至训练结束得到所述医疗数据补全模型。
17.可选地,所述待训练模型包括一层图卷积层;所述将所述样本医疗知识图谱输入待训练模型中,通过所述待训练模型中至少一层图卷积层的学习,获得所述样本医疗知识图谱的特征向量表示矩阵,包括:
18.从所述样本医疗知识图谱中提取得到各节点的初始特征向量表示并确定各节点的邻居节点集合;
19.对于所述样本医疗知识图谱中的目标节点,由所述待训练模型中的一层图卷积层,根据所述目标节点的邻居节点数量、所述目标节点的自相关权重、所述目标节点与所述目标节点的各邻居节点之间的关系权重、所述目标节点的初始特征向量表示和所述目标节点的各邻居节点的初始特征向量表示,得到所述目标节点的一阶特征向量表示;
20.根据所述样本医疗知识图谱中各节点的一阶特征向量表示得到所述样本医疗知识图谱的特征向量表示矩阵。
21.可选地,所述根据所述目标节点的邻居节点数量、所述目标节点的自相关权重、所述目标节点与所述目标节点的各邻居节点之间的关系权重、所述目标节点的初始特征向量表示和所述目标节点的各邻居节点的初始特征向量表示,得到所述目标节点的一阶特征向量表示,包括:
22.将所述目标节点的邻居节点数量取倒数作为所述目标节点对应的缩放系数;
23.将所述缩放系数、所述目标节点的目标邻居节点的初始特征向量表示以及所述目标节点与所述目标邻居节点之间的关系权重相乘,得到所述目标节点与所述目标邻居节点的互相关项;
24.累计所述目标节点与所述目标节点的各邻居节点的互相关项,得到互相关项累加结果;
25.将所述目标节点的自相关权重和所述目标节点的初始特征向量表示相乘,得到所述目标节点的自相关项;
26.对所述互相关项累加结果与所述自相关项之和,采用激活函数处理,得到所述目标节点的一阶特征向量表示。
27.可选地,所述待训练模型包括多层图卷积层,其中所述多层图卷层包括前后连接
的第1层图卷积层至第n层图卷积层;n为所述待训练模型中图卷积层总层数;所述将所述样本医疗知识图谱输入待训练模型中,通过所述待训练模型中至少一层图卷积层的学习,获得所述样本医疗知识图谱的特征向量表示矩阵,包括:
28.从所述样本医疗知识图谱中提取得到各节点的初始特征向量表示并确定各节点的邻居节点集合;
29.对于所述样本医疗知识图谱中的目标节点,由所述待训练模型中的第1层图卷积层,根据所述目标节点的邻居节点数量、所述第1层图卷积层的权重矩阵、所述目标节点的初始特征向量表示和所述目标节点的各邻居节点的初始特征向量表示,得到所述目标节点的一阶特征向量表示;所述第1层图卷积层的权重矩阵包括所述第1层图卷积层为所述目标节点配置的自相关权重,还包括所述第1层图卷积层为所述目标节点配置的与各邻居节点间的关系权重;
30.对于所述目标节点,由所述待训练模型中的第l层图卷积层,根据所述目标节点的邻居节点数量、所述第l层图卷积层的权重矩阵、所述目标节点的l-1阶特征向量表示和所述目标节点的各邻居节点的l-1阶特征向量表示,得到所述目标节点的l阶特征向量表示;所述第l层图卷积层的权重矩阵包括所述第l层图卷积层为所述目标节点配置的自相关权重,还包括所述第l层图卷积层为所述目标节点配置的与各邻居节点间的关系权重;所述l为大于1,且小于或等于n的整数;
31.根据所述样本医疗知识图谱中各节点的n阶特征向量表示得到所述样本医疗知识图谱的特征向量表示矩阵。
32.可选地,所述待训练模型还包括多层感知机;所述根据所述尾实体矩阵求解结果得到对所述样本医疗知识图谱中样本尾实体的预测值,包括:
33.将所述尾实体矩阵求解结果作为所述多层感知机的输入,通过所述多层感知机预测得到所述样本医疗知识图谱中样本尾实体的预测值。
34.可选地,所述根据医疗数据样本集中数据的特征或属性,以及数据间关系对所述医疗数据样本集中的数据进行结构化处理,构建所述医疗数据样本集对应的样本医疗知识图谱,包括:
35.将所述医疗数据样本集中的数据依据数据的特征或属性,以及数据间关系结构化为初始三元组;其中,初始三元组中头实体为患者标识,实体关系为患者的指标项,尾实体为患者在指标项下的指标值;
36.对所述初始三元组中的头实体、实体关系及尾实体分别编码,得到所述初始三元组对应的编码三元组;
37.基于所述医疗数据样本集的多个编码三元组构建所述医疗数据样本集对应的样本医疗知识图谱。
38.可选地,所述根据目标医疗数据集中数据的特征或属性,以及数据间关系,构建所述目标医疗数据集对应的医疗知识图谱,包括:
39.将所述目标医疗数据集中的数据依据数据的特征或属性,以及数据间关系结构化为以患者标识为头实体、以患者的指标项为实体关系并以患者在指标项下的指标值作为尾实体的三元组;
40.对所述目标医疗数据集结构化的三元组中头实体、实体关系及尾实体分别编码,
得到所述目标医疗数据集的编码三元组;
41.根据所述目标医疗数据集的多个编码三元组构建所述目标医疗数据集对应的医疗知识图谱。
42.可选地,所述对所述初始三元组中的头实体、实体关系及尾实体分别编码,得到所述初始三元组对应的编码三元组,包括:
43.获取所述医疗数据样本集中不同的患者标识,构建所述医疗数据样本集的头实体集合;
44.获取所述医疗数据样本集中各患者在不同指标项下的指标值,构建所述医疗数据样本集的尾实体集合;
45.根据所述头实体集合中的头实体数量和所述尾实体集合中的尾实体数量之和,得到实体编码范围;
46.获取所述医疗数据样本集中不同的指标项,构建所述医疗数据样本集的关系集合;
47.根据所述关系集合中关系的种类数量,得到关系编码范围;
48.根据所述实体编码范围对所述初始三元组中的头实体和尾实体分别编码,并根据所述关系编码范围对所述初始三元组中的实体关系进行编码,得到所述初始三元组对应的编码三元组。
49.本技术第二方面提供了一种医疗数据补全装置,该装置包括:
50.数据获取模块,用于根据目标医疗数据集中数据的特征或属性,以及数据间关系,构建所述目标医疗数据集对应的医疗知识图谱;所述目标医疗数据集中所缺失数据对应于所述医疗知识图谱中有待预测的尾实体;
51.模型处理模块,用于将所述医疗知识图谱作为医疗数据补全模型的输入,通过所述医疗数据补全模型获得所述医疗知识图谱中有待预测的尾实体的预测值;所述医疗数据补全模型包括至少一层图卷积层,所述图卷积层用于通过聚合所述医疗知识图谱中相邻的节点的信息以实现基于数据间关系的节点表示学习;相邻的两个节点包括头实体和尾实体,相邻的两个节点之间的边表示所连接的头实体与尾实体之间的关系,头实体与尾实体的数据的特征或属性不同;
52.数值补全模块,用于将有待预测的尾实体的预测值补充至所述目标医疗数据集中对应的所缺失数据的位置。
53.本技术第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面提供的方法的步骤。
54.本技术第四方面提供了一种电子设备,包括:
55.存储器,其上存储有计算机程序;
56.处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面提供的方法的步骤。
57.相较于现有技术,本技术具有以下有益效果:
58.本技术提供的医疗数据补全方法,根据目标医疗数据集中数据的特征或属性,以及数据间关系,构建目标医疗数据集对应的医疗知识图谱;将医疗知识图谱作为医疗数据补全模型的输入,通过医疗数据补全模型获得医疗知识图谱中有待预测的尾实体的预测
值;将有待预测的尾实体的预测值补充至目标医疗数据集中对应的所缺失数据的位置。
59.由于本技术中利用医疗知识图谱中节点和边分别表示目标医疗数据集中数据信息,以及数据间的相互联系;用医疗数据补全模型中包含的至少一层图卷积层聚合医疗知识图谱中相邻节点的信息以实现基于数据间关系的表示学习。所以,本技术中采用的医疗数据补全方法充分考虑了医疗数据集中数据的繁杂性和相关性,能够获得与有待预测的尾实体的真实值差异较小的预测值,最终解决了传统医疗数据补全方法不能获得准确度较好的医疗数据缺失值的问题,恢复了医疗数据集的完整性并提高医疗数据集的可用性,为实际诊疗过程中诊断、治疗和疾病预防等提供有效的数据支撑,有利于减轻医生负担,提高诊疗质量。
附图说明
60.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
61.图1为本技术实施例提供的一种医疗数据补全方法的流程图;
62.图2为本技术实施例提供的一种训练医疗数据补全模型的流程图;
63.图3为本技术实施例提供的一种采用一层图卷积层获取样本医疗知识图谱的特征向量表示矩阵的流程图;
64.图4为本技术实施例提供的一种采用多层图卷积层获取样本医疗知识图谱的特征向量表示矩阵的流程图;
65.图5为本技术实施例提供的一种多节点表示学习的示意图;
66.图6为本技术实施例提供的一种医疗数据补全方法装置的结构示意图。
具体实施方式
67.在医疗行业的实际诊疗过程中,医疗数据可以提供有关诊断、治疗和疾病预防方面的有用信息,通过对这些数据的分析和研究,科学家和医生可以发现新的医疗模式和疾病治疗方法。然而,由于数据采集不规律、记录不完全或传输不稳定等原因,导致存在大量的医疗数据缺失;缺失的数据会影响医疗数据信息的完整性和可用性,导致诊断不准确或治疗方案不完善,从而对患者的健康产生负面影响;也会影响医学研究和科研开发的进展,限制医生和科学家在疾病治疗和预防方面的研究与创新。
68.为解决上述问题,本技术实施例提供了一种医疗数据补全方法,该方法包括:根据目标医疗数据集中数据的特征或属性,以及数据间关系,构建目标医疗数据集对应的医疗知识图谱;将医疗知识图谱输入到医疗数据补全模型中,通过医疗数据补全模型获得医疗知识图谱中有待预测的尾实体的预测值;将有待预测的尾实体的预测值补充至目标医疗数据集中对应的所缺失数据的位置。由于充分考虑到了医疗数据集中数据的繁杂性和相关性,所以能够获得与有待预测的尾实体的真实值差异较小的预测值,最终解决了传统医疗数据补全方法不能获得准确度较好的医疗数据缺失值的问题,恢复了医疗数据集的完整性,并提高医疗数据集的可用性。
69.下面结合实施例和附图对本技术技术方案进行说明。
70.为方便理解,在介绍本技术公开的医疗数据补全方法之前,首先介绍临床医疗检测数据集中数据的特点和知识图谱的相关知识。
71.临床医疗检测数据集的数据具有种类繁多、关联性强、数据量大和结构复杂的特点。临床医疗检测数据包括患者标识、多种采样指标项和每种采样指标项下的指标值等信息;且由于临床医疗检测数据需要经过数据采集、数据记录和数据传输等多种环节才会被存储于医院信息采集数据库中,所以,难免会出现大量的医疗数据的缺失。本技术实施例中的临床医疗检测数据集,包括多组完整的临床医疗检测数据和多组有缺失值的临床医疗检测数据。
72.表1为从医院的数据采集系统中获得的临床医疗检测数据。需要说明的是,表1中仅是示例性的介绍临床医疗检测数据可能包含的采样指标项,其他更多的采样指标项如心脏收缩压、舒张压、血清甘油三脂测定、血清总胆固醇测定等采样指标,表1中没有逐一列出。同时,表1中没有列出各指标项下的指标值的单位;但是在实际使用过程中,各指标项下的指标值有各自对应的单位,如身高的单位是厘米,血压的单位是毫米汞柱,葡萄糖的单位是摩尔每升,体重的单位是千克。
73.表1临床医疗检测数据
74.患者标识年龄身高舒张压收缩压葡萄糖

体重patient_00016215278nan5.14

49.5patient_000270nan771775.65

50.5patient_000353166901398.81

nanpatient_000434181nan1244.98

88patient_000536167661205.1

105.5
……………………
patient_n4517310817516.55

117.5
75.如表1所示,临床医疗检测数据集中包括患者标识、年龄、身高、舒张压、收缩压、葡萄糖、体重等多种信息。其中,患者标识,如patient_0001,是患者在医院就医的唯一标识,医院采用不同的患者标识号码将病患区分开;年龄、身高、舒张压、收缩压、葡萄糖、体重等是患者在医院进行临床检查时的采样指标项,同时,表1中还包括每一患者的每一种采样指标项下的指标值,这些指标数值中有部分指标数值处于缺失状态。以患者patient_0002为例,其年龄是70岁,身高信息缺失(在表1中显示为nan),舒张压为77毫米水银柱,收缩压为177毫米水银柱,葡萄糖为6.65摩尔每升,体重为50.5千克。
76.综上可知,临床医疗检测数据包含多种具有不同特征或属性的数据,既包括患者在医院的唯一标识,如患者身份证号码;也可以包括患者在医院进行临床医疗检测的多种检测指标项,如年龄、身高、舒张压、收缩压、葡萄糖、体重等;还包括每种检测指标项下的指标值,且不同指标项下的指标值的量纲是不相同的。对于同一个患者而言,多种采样指标项下的指标值之间存在对应关系,综合反应患者的身体健康情况。
77.知识图谱是一个将现实问题映射成数学问题的数据处理方法,是一种特殊的图结构。知识图谱中包括节点和边,其中节点代表物理世界中的实体或概念,边代表实体与实体之间的关联关系。知识图谱一般采用三元组结构,包括头实体h,关系r,尾实体t进行数据存
储和表达。一般而言,当获得了一组数据的三元组结构,将三元组结构中的头实体h,尾实体t作为知识图谱中的节点,将三元组结构中的关系r作为知识图谱结构中的边,就可以获得该数据的知识图谱。
78.图1为本技术实施例提供的一种医疗数据补全方法的流程图。如图1所示的医疗数据补全方法包括:
79.步骤101:根据目标医疗数据集中数据的特征或属性,以及数据间关系,构建目标医疗数据集对应的医疗知识图谱。
80.本步骤中使用的目标医疗数据集取自上文所述的临床医疗检测数据集;是由临床医疗检测数据集中包含缺失值的数据组成的集合。所以,目标医疗数据集中的数据的特征或属性指的是临床医疗检测数据集中数据的特征或属性。
81.数据的特征或属性可以指代患者具体的某一方面的信息,如指代患者标识信息;或是指代患者的年龄、身高、舒张压、收缩压、葡萄糖、体重等采样指标项信息;或是指代患者在每种采样指标项下的指标值等信息。在一种可能的情况下,根据目标医疗数据集中数据的特征或属性,以及数据间关系,构建目标医疗数据集对应的医疗知识图谱,可以由如下步骤实现:
82.将目标医疗数据集中的数据依据数据的特征或属性,以及数据间关系结构化为以患者标识为头实体、以患者的指标项为实体关系并以患者在指标项下的指标值作为尾实体的三元组;对目标医疗数据集结构化的三元组中头实体、实体关系及尾实体分别编码,得到目标医疗数据集的编码三元组;根据目标医疗数据集的多个编码三元组构建目标医疗数据集对应的医疗知识图谱。
83.具体而言,即将目标医疗数据集中的患者标识,如表1中的patient_0001和patient_0002等数据作为头实体;将患者的指标项下的指标值,如表1中的62岁、152厘米、578毫米汞柱的指标数值作为尾实体;将患者的指标项,如年龄、身高、舒张压、收缩压、葡萄糖、体重等作为实体关系;将目标医疗数据集中的数据结构化为以患者标识为头实体、以患者的指标项为实体关系、以患者在指标项下的指标值作为尾实体的三元组。
84.然后对目标医疗数据集结构化的三元组中头实体、实体关系及尾实体分别编码,得到目标医疗数据集的编码三元组。
85.在另一种可能的情况下,可以采用下述步骤得到目标医疗数据集的编码三元组,具体包括:
86.获取目标医疗数据集中不同的患者标识,构建目标医疗数据集的头实体集合;获取目标医疗数据集中各患者在不同指标项下的指标值,构建目标医疗数据集的尾实体集合;根据头实体集合中的头实体数量和尾实体集合中的尾实体数量之和,得到实体编码范围;获取目标医疗数据集中不同的指标项,构建目标医疗数据集的关系集合;根据关系集合中关系的种类数量,得到关系编码范围;根据实体编码范围对三元组中的头实体和尾实体分别编码,并根据关系编码范围对三元组中的实体关系进行编码,得到三元组对应的编码三元组。
87.具体而言,获取多个患者标识,如表1中的patient_0001和patient_0002等数据,将上述多个患者标识作为头实体中的元素,构建头实体集合;获取多个患者的指标项下的指标值,如表1中的62岁、152厘米、578毫米汞柱等,将上述指标数值作为尾实体中的元素,
构建尾实体集合。
88.然后,将头实体集合中的头实体数量和尾实体集合中的尾实体数量相加,得到实体编码的范围。例如头实体中包含4080个头实体元素,尾实体集合中包含279987个尾实体元素,将二者相加,得到284067个实体元素;则按照从0开始,由小到大的编码规则,获得实体编码范围:0-284066。
89.获取多个患者的指标项,如年龄、身高、舒张压、收缩压、葡萄糖、体重等,将患者的指标项作为实体关系中的元素,构建实体关系集合。根据关系集合中关系的元素数量,得到关系编码范围。例如,实体关系集合中有70个指标项,按照从0开始,由小到大的编码规则,获得关系编码的范围:0-69。
90.利用实体编码范围0-284066对三元组中的头实体和尾实体进行编码;利用关系编码的范围0-69对实体关系进行编码,最终得到了三元组对应的编码三元组。如以(patient_5,年龄,36)这样一个三元组为例,其编码后的三元组为(5,0,4084)。
91.最后,根据目标医疗数据集的多个编码三元组构建目标医疗数据集对应的医疗知识图谱。
92.获得目标医疗数据集的多个编码三元组后,将三元组中的头实体数据和尾实体数据作为知识图谱中的节点,将三元组中的关系作为知识图谱的边,即得到了与目标医疗数据集对应的医疗知识图谱。
93.经过上文所述步骤构建的与目标医疗数据集对应的医疗知识图谱,是本技术实施例中医疗数据补全模型的输入数据,正因为将目标医疗数据集中的数据转换为医疗知识图谱的形式,才使得医疗数据补全模型可以处理种类繁多、关联性强、结构复杂的医疗数据。所以,生成与目标医疗数据集对应的医疗知识图谱对于本技术实施例的医疗数据补全方法有重要意义。
94.步骤102:将医疗知识图谱作为医疗数据补全模型的输入,通过医疗数据补全模型获得对医疗知识图谱中有待预测的尾实体的预测值;
95.其中,医疗数据补全模型包括至少一层图卷积层,图卷积层用于通过聚合医疗知识图谱中相邻的节点的信息以实现基于数据间关系的节点表示学习;相邻的两个节点包括头实体和尾实体,相邻的两个节点之间的边表示所连接的头实体与尾实体之间的关系,头实体与尾实体的数据的特征或属性不同。
96.本步骤的过程可以详细描述为:将步骤101中获得的医疗知识图谱输入到本技术中训练好的医疗数据补全模型中;利用医疗补全模型对医疗知识图谱中多个节点进行节点表示学习,使各节点聚集来自医疗知识图谱中其他节点的丰富信息;最终输出医疗知识图谱中有待预测的尾实体的预测值。
97.例如,将表1的临床医疗检测数据作为目标医疗数据集,利用步骤101中的方法,将表1的临床医疗检测数据结构化为目标医疗数据集的三元组结构后,使用上述三元组信息构建了表1的临床医疗检测数据的知识图谱,为方便介绍,简称表1的临床医疗检测数据的知识图谱为目标知识图谱。
98.该目标知识图谱中包括多个节点,每个节点有多个与之相邻的其他节点,相连的两个节点通过边连接。例如,目标知识图谱包括patient_0001、patient_0002等多个患者标识构成的头实体节点,还包括62岁、152厘米,78毫米水银柱等构成的尾实体节点,还包括年
龄、身高、舒张压等指标项构成的边。目标知识图谱中同时还存在由于记录不完全或传输不稳定导致的缺失值,如patient_0001的收缩压数值是缺失的。
99.将包含缺失值的目标知识图谱输入到医疗数据补全模型后,获得医疗知识图谱中有待预测的尾实体的预测值,如可以获得patient_0001的收缩压的具体数值。
100.需要说明的是,本步骤中只介绍运用医疗补全模型获得医疗知识图谱中有待预测的尾实体的预测值的过程,本技术实施例的后续部分将详细介绍运用医疗数据样本集训练待训练模型,最终获得医疗补全模型的详细过程。步骤103:将有待预测的尾实体的预测值补充至所述目标医疗数据集中对应的所缺失数据的位置。
101.将步骤102中预测出的尾实体的预测值补充到医疗数据集中对应的所缺失数据的位置,获得完整的医疗数据集。即将patient_0001的收缩压的具体数值,补充到表1的临床医疗检测数据集中,获得完整的表1的临床医疗检测数据集。
102.需要说明的是:采用步骤101中的方法构建的与目标医疗数据集对应的医疗知识图谱,是一个不完整的知识图谱,该知识图谱中的多个尾实体存在缺失值。将该知识图谱输入至医疗数据补全模型后,输出医疗知识图谱中所有尾实体的预测值;既包括有待预测的尾实体的预测值,也包括其他尾实体的预测值。而后,将有待预测的尾实体的预测值取出,并补全到目标医疗数据集中对应的所缺失数据的位置,即获得了完整的目标医疗数据集。
103.综上所述,在确定目标医疗数据集后,运用步骤101中的方法,将目标医疗数据集结构化为三元组信息,即将目标医疗数据集中的多种指标项、多种指标项下的指标值、患者信息等数据分别转化为边、尾实体和头实体,然后利用结构化的三元组信息构建医疗知识图谱;用医疗知识图谱来表达目标医疗数据集中的繁杂的数据信息以及数据信息之间的相互关系。
104.运用步骤102中的方法,将医疗知识图谱输入到医疗数据补全模型中,获得医疗知识图谱中有待预测的尾实体的预测值,即直接获得目标医疗数据集中缺失的指标项下的指标值。
105.将步骤102中获得的尾实体的预测值,即目标医疗数据集中缺失的指标项下的指标值补回到目标医疗数据集对应的所缺失数据的位置,获得完整的目标医疗数据集。
106.由此,使用本技术实施例所公开的医疗数据补全方法,可以简单高效的获得目标医疗数据集中缺失的指标项下的指标值,进而可以获得完整的目标医疗数据集。
107.同时,由于本技术实施例采用的医疗数据补全模型中包括至少一层的图卷积层,图卷积层可以聚合医疗知识图谱中的相邻节点的信息,充分考虑医疗数据集中数据的繁杂性和相关性,所以使用本技术的医疗数据补全方法可以获得较为准确的医疗数据缺失值。
108.所以,使用本技术中所公开的医疗数据补全方法可以简单高效的获取准确度较好的医疗数据缺失值,解决了传统医疗数据补全方法不能获得准确度较好的医疗数据缺失值的问题,恢复了医疗数据集的完整性并提高医疗数据集的可用性,为实际诊疗过程中诊断、治疗和疾病预防等提供有效的数据支撑,有利于减轻医生负担,提高诊疗质量。
109.图2为本技术实施例提供的一种训练医疗数据补全模型的流程图。如图2所示,医疗数据补全模型的训练步骤包括:
110.步骤201:根据医疗数据样本集中数据的特征或属性,以及数据间关系对所述医疗数据样本集中的数据进行结构化处理,构建所述医疗数据样本集对应的样本医疗知识图
谱。
111.医疗数据样本集和目标医疗数据集都取自临床医疗检测数据集。与目标医疗数据集一样,医疗数据样本集中也包括多种具有不同特征或属性的数据信息,如患者标识、多种指标项和指标项下的指标值;各数据信息之间存在相互关联。医疗数据样本集中具体的数据,参见表1以及步骤101中对目标医疗数据集的介绍,此处不再赘述。
112.医疗数据样本中既包含多组完整的临床医疗检测数据,又包括多组有缺失值的临床医疗检测数据。其中多组有缺失值的临床医疗检测数据,一部分可以通过追溯医院的数据流转过程寻回,一部分完全丢失,无法找回。
113.在一种可能的实现方式中,根据医疗数据样本集中数据的特征或属性,以及数据间关系对所述医疗数据样本集中的数据进行结构化处理,构建所述医疗数据样本集对应的样本医疗知识图谱,包括:
114.将医疗数据样本集中的数据依据数据的特征或属性,以及数据间关系结构化为初始三元组;其中,初始三元组中头实体为患者标识,实体关系为患者的指标项,尾实体为患者在指标项下的指标值;对所述初始三元组中的头实体、实体关系及尾实体分别编码,得到所述初始三元组对应的编码三元组;基于所述医疗数据样本集的多个编码三元组构建所述医疗数据样本集对应的样本医疗知识图谱。值得注意的是,样本医疗知识图谱是一种包含了诸多尾实体缺失值的不完整的知识图谱。
115.具体而言,即将医疗数据样本集中的患者标识,作为头实体;将患者的指标项下的指标值作为尾实体;将患者的指标项作为实体关系;将目标医疗数据集中的数据结构化为以患者标识为头实体、以患者的指标项为实体关系、以患者在指标项下的指标值作为尾实体的初始三元组。
116.然后按照步骤102中记载的编码规则分别获取实体编码范围和关系编码范围;利用实体编码范围对初始三元组中的头实体和尾实体进行编码,利用关系编码范围对初始三元组中的实体关系进行编码,最终得到与初始三元组对应的编码三元组。
117.需要说明的是,可以将初始三元组对应的编码三元组,分为三组,第一组是作为待训练模型的训练集、第二组作为待训练模型的测试集,第三组作为待训练模型的验证集。训练集用于训练待训练模型,验证集用于调节待训练模型中的参数,测试集用来验证待训练模型输出结果的精确程度。
118.最后,根据医疗数据样本集的多个编码三元组构建与医疗数据集对应的医疗知识图谱。即获得医疗数据样本集的多个编码三元组后,将三元组中的头实体数据和尾实体数据作为知识图谱中的节点,将三元组中的关系作为知识图谱的边,即得到了与医疗数据样本集对应的样本医疗知识图谱。
119.步骤202:将样本医疗知识图谱输入待训练模型中,通过待训练模型中至少一层图卷积层的学习,获得样本医疗知识图谱的特征向量表示矩阵。其中,所述特征向量表示矩阵包括样本医疗知识图谱中各节点经过至少一层图卷积层的信息聚合后形成的新的特征向量表示。
120.将样本医疗知识图谱输入待训练模型有两种选择,第一种选择是将样本医疗知识图谱中的全部数据输入到待训练模型中,待训练模型处理样本医疗知识图谱中的全部数据,获得包含样本医疗知识图谱全部数据的特征向量表示矩阵;第二种选择是从样本医疗
知识图谱中选择一部分数据作为训练集数据,将训练集对应的知识图谱输入到待训练模型中,待训练模型处理训练集中的数据,获得包含训练集全部数据的特征向量表示矩阵。采用第一种选择训练待训练模型,训练数据量大,训练耗时较长,得到的医疗数据补全模型精度较高;采用第二种选择训练待训练模型,数据训练量较小,训练耗时较短,得到的医疗数据补全模型精度较低。
121.本步骤中,将样本医疗知识图谱输入到待训练模型中,获得样本医疗知识图谱的特征向量表示矩阵,因为该特征向量表示矩阵由样本医疗知识图谱中的多个节点的新的特征向量表示组成;所以,可以从两个维度来理解本步骤中介绍的待训练模型处理医疗知识图谱的过程。
122.第一维度是从样本医疗知识图谱中的单个目标节点的角度出发,分析样本医疗知识图谱中单个目标节点是如何获得新的特征向量,然后将多个节点的新的特征向量组合获得样本医疗知识图谱的特征向量表示矩阵。
123.第二维度是从样本医疗知识图谱中所有节点的初始特征向量表示组成的初始特征向量表示矩阵出发,分析样本医疗知识图谱的特征向量表示矩阵的生成过程。
124.首先从第一维度,即从样本医疗知识图谱中的单个目标节点的角度出发,分析样本医疗知识图谱中单个目标节点是如何获得新的特征向量,然后将多个节点的新的特征向量组合获得样本医疗知识图谱的特征向量表示矩阵。
125.图3为本技术实施例提供的一种采用一层图卷积层获取样本医疗知识图谱的特征向量表示矩阵的流程图。从图3可知,在一种可能的实现方式中,待训练模型包括一层图卷积层;所述将所述样本医疗知识图谱输入待训练模型中,通过所述待训练模型中至少一层图卷积层的学习,获得所述样本医疗知识图谱的特征向量表示矩阵,包括:
126.步骤a1:从所述样本医疗知识图谱中提取得到各节点的初始特征向量表示并确定各节点的邻居节点集合;
127.获得样本医疗知识图谱后,将样本医疗知识图谱中的各节点,包括头实体和尾实体经过向量化处理,获得各节点的初始特征向量表示。
128.样本医疗知识图谱中的目标节点,通过边连着多个其他的节点。将这些与目标节点通过边连接的其他节点组合在一起,构成了目标节点的邻居节点集合。样本医疗知识图谱中的每个点都存在着各自的邻居节点集合。对于头实体节点,即患者标识来说,其邻居节点集合为指标项下的指标值;对于尾实体节点,其邻居节点是具有该指标项的患者标识。
129.步骤b1:对于所述样本医疗知识图谱中的目标节点,由所述待训练模型中的一层图卷积层,根据所述目标节点的邻居节点数量、所述目标节点的自相关权重、所述目标节点与所述目标节点的各邻居节点之间的关系权重、所述目标节点的初始特征向量表示和所述目标节点的各邻居节点的初始特征向量表示,得到所述目标节点的一阶特征向量表示。
130.在一种可能的实现方式中,对于样本医疗知识图谱中的目标节点,由待训练模型中的一层图卷积层中,根据公式(1),获得目标节点的一阶特征向量表示:
[0131][0132]
其中,i表示目标节点;r表示目标节点与目标邻居节点的关系集合;r表示目标节点与目标邻居节点间的一个关系;表示目标节点i的邻居节点集合;j表示中的一个节
点,即下文所述的目标邻居节点;是缩放系数,在一种可能的情况下,可以将目标节点i的邻居节点中包含的节点数量取倒数作为c
i,j
的数值;是目标邻居节点的初始特征向量表示;是目标节点与目标邻居节点之间的关系权重;是目标节点的自相关权重;是目标节点的初始特征向量表示;是目标节点的一阶特征向量表示;σ为激活函数。
[0133]
在确定公式(1)中的缩放系数c
i,j
、自相关权重关系权重等参数值后,将步骤a1中得到的样本医疗知识图谱的目标节点的初始特征向量表示以及目标节点的邻居节点集合中各邻居节点的初始特征向量表示输入到上述公式后,即可获得目标节点的一阶特征向量表示。
[0134]
结合公式(1)可知,在利用图卷积层获取目标节点的一阶特征向量表示时,样本医疗知识图谱中目标节点的所有的相邻节点的信息均会被考虑。即,图卷积层聚合了来自样本医疗知识图谱的目标节点的所有邻居节点的丰富信息后,才最终生成了目标节点的一阶特征向量表示。
[0135]
步骤c1:根据所述样本医疗知识图谱中各节点的一阶特征向量表示得到所述样本医疗知识图谱的特征向量表示矩阵。
[0136]
样本医疗知识图谱中各节点经过步骤b1中的运算后,得到各自的一阶特征向量表示;将样本医疗知识图谱中各节点的一阶特征向量表示结合,得到样本医疗知识图谱的特征向量表示矩阵。
[0137]
图4为本技术实施例提供的一种采用多层图卷积层获取样本医疗知识图谱的特征向量表示矩阵的流程图。如图4所示,在一种可能的实现方式中,所述待训练模型包括多层图卷积层,其中所述多层图卷层包括前后连接的第1层图卷积层至第n层图卷积层;n为所述待训练模型中图卷积层总层数;所述将所述样本医疗知识图谱输入待训练模型中,通过所述待训练模型中至少一层图卷积层的学习,获得所述样本医疗知识图谱的特征向量表示矩阵,包括
[0138]
步骤a2:从所述样本医疗知识图谱中提取得到各节点的初始特征向量表示并确定各节点的邻居节点集合。
[0139]
步骤a2与步骤a1相同,具体内容参见步骤a1中描述,此处不再赘述。
[0140]
步骤b2:对于所述样本医疗知识图谱中的目标节点,由所述待训练模型中的第1层图卷积层,根据所述目标节点的邻居节点数量、所述第1层图卷积层的权重矩阵、所述目标节点的初始特征向量表示和所述目标节点的各邻居节点的初始特征向量表示,得到所述目标节点的一阶特征向量表示;所述第1层图卷积层的权重矩阵包括所述第1层图卷积层为所述目标节点配置的自相关权重,还包括所述第1层图卷积层为所述目标节点配置的与各邻居节点间的关系权重。
[0141]
步骤b2与步骤b1中相同,具体内容参见步骤b1中描述,此处不再赘述。
[0142]
步骤c2:对于所述目标节点,由所述待训练模型中的第l层图卷积层,根据所述目标节点的邻居节点数量、所述第l层图卷积层的权重矩阵、所述目标节点的l-1阶特征向量
表示和所述目标节点的各邻居节点的l-1阶特征向量表示,得到所述目标节点的l阶特征向量表示;所述第l层图卷积层的权重矩阵包括所述第l层图卷积层为所述目标节点配置的自相关权重,还包括所述第l层图卷积层为所述目标节点配置的与各邻居节点间的关系权重;所述l为大于1,且小于或等于n的整数。
[0143]
由上文可知,将样本医疗知识图谱中的目标节点的初始特征向量表示输入到第1层的图卷积层后,经过第1层图卷积层的处理,获得目标节点的一阶特征向量表示,即如果待训练模型中包含多层图卷积层时,则目标节点的一阶特征向量表示作为第2层图卷积层的输入信息,经过第2层图卷积层的处理,将获得目标节点的二阶特征向量表示;以此类推,对于包含l层图卷积层的待训练模型而言,目标节点的l-1阶特征向量表示作为第l层图卷积层的输入,经过第l层图卷积层的处理后,最终获得目标节点的第l阶特征向量表示。
[0144]
上述过程可以用下述公式(2)表达:
[0145][0146]
其中,i表示目标节点;r表示目标节点与目标邻居节点的关系集合;r表示目标节点与目标邻居节点间的一个关系;表示目标节点i的邻居节点集合;j表示中的一个节点,即下文所述的目标邻居节点;是缩放系数;是目标邻居节点的第l-1层特征向量表示;是目标节点与目标邻居节点之间的第l-1层关系权重;是目标节点的第l-1层自相关权重;是目标节点的第l-1层特征向量表示;σ为激活函数。
[0147]
步骤d2:根据所述样本医疗知识图谱中各节点的n阶特征向量表示得到所述样本医疗知识图谱的特征向量表示矩阵。
[0148]
步骤d2与步骤c1中相同,具体内容参见步骤c1中描述,此处不再赘述。
[0149]
需要说明的是,医疗知识图谱中的每个节点获得特征向量表示的过程,都与目标节点获得特征向量表示的过程是一样的。
[0150]
图5为本技术实施例提供的一种多节点表示学习的示意图。图5形象化的阐述了医疗知识图谱中众多节点同时经历图卷积层的运算,获得特征向量表示的过程。
[0151]
图5中,圆形图点代表医疗知识图谱的多个节点的初始特征向量表示,方形图点代表医疗知识图谱的多个节点的第l阶特征向量表示,l是大于等于1的整数。
[0152]
样本医疗知识图谱的多个节点组成的特征向量输入到本技术中的医疗数据补全模型中后,多个节点同时经历医疗数据补全模型中l层图卷积层的聚合处理,最终输出样本医疗知识图谱的多个节点的第l阶特征向量表示。在这个过程中,多个节点同时聚合邻接节点的信息,并更新自身特征向量表示,最终获得多个节点的第l阶特征向量表示。
[0153]
下面从第二维度,即从样本医疗知识图谱中所有节点的初始向量表示组成的初始特征向量表示矩阵出发,分析样本医疗知识图谱的特征向量表示矩阵的生成过程。
[0154]
上述过程可以用公式(3)表达:
[0155][0156]
其中,a代表样本医疗知识图谱的初始特征向量表示的第l层中的邻接
矩阵;in代表单位矩阵;是的度矩阵;的对角线元素a
ij
表示节点i到节点j的边的权重,如果i=j,则a
ij
=1;w
(l)
代表初始特征向量矩阵的第l层的权重;h
(l)
代表样本医疗知识图谱的第l层的输出特征向量表示矩阵;h
(l-1)
代表样本医疗知识图谱的第l-1层的输出特征向量表示矩阵;h
(0)
代表样本医疗知识图谱的初始特征向量矩阵;σ是激活函数,本技术的实施例中使用relu作为激活函数,实际应用中,结合使用需求也可以选择其他公式作为激活函数。
[0157]
步骤203:将所述特征向量表示矩阵和所述样本医疗知识图谱的关系表示矩阵进行矩阵拼接,得到拼接后的矩阵。
[0158]
将步骤202中获得的样本医疗知识图谱的特征向量表示矩阵,与样本医疗知识图谱的表示矩阵进行拼接,得到拼接后的矩阵。其中,样本医疗知识图谱的关系表示矩阵是指对样本医疗数据中的代表各节点之间关系的指标项抽象、量化后得到的矩阵表达形式。
[0159]
步骤204:通过对所述拼接后的矩阵进行卷积、向量化及激活函数处理,得到尾实体矩阵求解结果。
[0160]
利用公式(4),对所述拼接后的矩阵进行卷积、向量化及激活函数处理,得到尾实体矩阵的求解结果。
[0161]youtput
=σ(vec(σ(y
all
*ω)))
ꢀꢀꢀꢀ
(4)
[0162]
其中,y
all
表示步骤203中得到的拼接后的矩阵;ω为卷积核,vec(
·
)为将矩阵展开成向量的操作,σ是激活函数;y
output
是尾实体矩阵的特征向量表示。
[0163]
对矩阵y
all
与卷积核ω求积结果进行第一次激活操作;然后用vec(
·
)将经过第一次激活的矩阵展开成向量,再用激活函数进行对该向量进行第二次激活操作(即公式(4)中最外层的激活),最终获得了y
output
,即获得了利用头实体矩阵与对应关系矩阵求解的尾实体矩阵的求解结果。
[0164]
需要说明的是,从上文中医疗数据样本集中选择包含完整数据信息的部分数据,作为样本尾实体;样本尾实体有真实值。可以用样本尾实体的真实值与样本尾实体的预测值作比较,判断当前待训练模型的训练程度,并根据真实值和预测值的差异,利用损失函数调整待训练模型的参数,最终获得检验医疗数据验证模型。
[0165]
步骤205:根据所述尾实体矩阵求解结果得到对所述样本医疗知识图谱中样本尾实体的预测值。
[0166]
在一种可能的情况下,所述待训练模型还包括多层感知机;所述根据所述尾实体矩阵求解结果得到对所述样本医疗知识图谱中样本尾实体的预测值,包括:
[0167]
将尾实体矩阵求解结果作为多层感知机的输入,通过多层感知机预测得到样本医疗知识图谱中样本尾实体的预测值。
[0168]
以尾实体矩阵中的多个尾实体中的一个尾实体j为例,其利用多层感知机求解尾实体矩阵中单个尾实体j的预测值的过程,可以用如下公式(5)表示:
[0169]yfinal,j
=f(wy
output,j
+b)
ꢀꢀꢀꢀ
(5)
[0170]
其中,w表示权重,b表示偏移量,y
output,j
代表尾实体矩阵中的尾实体j;f代表多层感知机求解尾实体矩阵中单个尾实体j的预测值的过程,y
final,j
代表尾实体j的预测值。
[0171]
步骤206:根据所述样本医疗知识图谱中样本尾实体的预测值与真实值的差异,对所述待训练模型的参数进行调整,直至训练结束得到所述医疗数据补全模型。
[0172]
将样本医疗知识图谱中尾实体的预测值与尾实体的真实值进行比较,利用均方差损失函数对待训练模型中的参数进行调整,当预测值和真实值的差异控制在预设范围内时,停止对待训练模型的训练,得到医疗数据补全模型。
[0173]
其中,均方差损失函数的表达式为公式(6):
[0174][0175]
其中,n代表用样本知识图谱中样本尾实体的数量;tj代表样本尾实体j的真实值;y
final,j
代表样本尾实体j的预测值;mseloss(t,y
final
)代表样本尾实体j的预测值和真实值的误差的平方和的均值。
[0176]
综上所述,步骤201到步骤206中详细记载了运用医疗数据样本集训练待训练模型,获得医疗数据补全模型的过程。该过程一方面将医疗数据样本集中的种类繁多、特征或属性不同、关联性强的医疗数据结构化为三元组数据,并用上述三元组数据构建样本医疗知识图谱,采用样本医疗知识图谱的方式处理繁杂的医疗数据样本集;另一方面本技术实施例最终得到的医疗数据补全模型中包含至少一层图卷积层;由于图卷积层能够对每个节点的邻居节点进行卷积操作,使得各节点聚集来自样本医疗知识图谱的其他节点的丰富信息;从而考虑到了医疗数据样本集中数据间的相互关系,最终能够输出准确度较高的有待预测的尾实体的预测值。
[0177]
所以,本技术中采用的医疗数据补全模型充分考虑了医疗数据集中数据的繁杂性和相关性,能够获得与有待预测的尾实体的真实值差异较小的预测值,最终解决了传统医疗数据补全方法不能获得准确度较好的医疗数据缺失值的问题,恢复了医疗数据集的完整性并提高医疗数据集的可用性,为实际诊疗过程中诊断、治疗和疾病预防等提供有效的数据支撑,有利于减轻医生负担,提高诊疗质量。
[0178]
基于前述实施例提供的方法,相应地,本技术还提供了一种医疗数据补全装置。以下结合实施例和附图对该装置的具体实现进行说明。
[0179]
参见图6,该图为本技术实施例提供的一种医疗数据补全装置的结构示意图。如图6所示的医疗数据补全装置600包括:
[0180]
数据获取模块601,用于根据目标医疗数据集中数据的特征或属性,以及数据间关系,构建所述目标医疗数据集对应的医疗知识图谱;所述目标医疗数据集中所缺失数据对应于所述医疗知识图谱中有待预测的尾实体;
[0181]
模型处理模块602,用于将所述医疗知识图谱作为医疗数据补全模型的输入,通过所述医疗数据补全模型获得所述医疗知识图谱中有待预测的尾实体的预测值;所述医疗数据补全模型包括至少一层图卷积层,所述图卷积层用于通过聚合所述医疗知识图谱中相邻的节点的信息以实现基于数据间关系的节点表示学习;相邻的两个节点包括头实体和尾实体,相邻的两个节点之间的边表示所连接的头实体与尾实体之间的关系,头实体与尾实体的数据的特征或属性不同;
[0182]
数值补全模块603,用于将有待预测的尾实体的预测值补充至所述目标医疗数据集中对应的所缺失数据的位置。
[0183]
在一种可能的实现方式中,获取医疗数据补全模型的装置,包括:
[0184]
样本数据获取模块,用于根据医疗数据样本集中数据的特征或属性,以及数据间
关系对所述医疗数据样本集中的数据进行结构化处理,构建所述医疗数据样本集对应的样本医疗知识图谱;
[0185]
特征向量生成模块,用于将所述样本医疗知识图谱输入待训练模型中,通过所述待训练模型中至少一层图卷积层的学习,获得所述样本医疗知识图谱的特征向量表示矩阵;所述特征向量表示矩阵包括所述样本医疗知识图谱中各节点经过至少一层图卷积层的信息聚合后形成的新的特征向量表示;
[0186]
矩阵拼接模块,用于将所述特征向量表示矩阵和所述样本医疗知识图谱的关系表示矩阵进行矩阵拼接,得到拼接后的矩阵;
[0187]
矩阵求解模块,用于通过对所述拼接后的矩阵进行卷积、向量化及激活函数处理,得到尾实体矩阵求解结果;
[0188]
预测值获取模块,用于根据所述尾实体矩阵求解结果得到对所述样本医疗知识图谱中样本尾实体的预测值;
[0189]
反传模块,用于根据所述样本医疗知识图谱中样本尾实体的预测值与真实值的差异,对所述待训练模型的参数进行调整,直至训练结束得到所述医疗数据补全模型。
[0190]
在一种可能的实现方式中,特征向量生成模块,可能包括:
[0191]
第一节点获取单元,用于从所述样本医疗知识图谱中提取得到各节点的初始特征向量表示并确定各节点的邻居节点集合;
[0192]
第一向量生成单元,用于对于所述样本医疗知识图谱中的目标节点,由所述待训练模型中的一层图卷积层,根据所述目标节点的邻居节点数量、所述目标节点的自相关权重、所述目标节点与所述目标节点的各邻居节点之间的关系权重、所述目标节点的初始特征向量表示和所述目标节点的各邻居节点的初始特征向量表示,得到所述目标节点的一阶特征向量表示;
[0193]
第一矩阵生成单元,用于根据所述样本医疗知识图谱中各节点的一阶特征向量表示得到所述样本医疗知识图谱的特征向量表示矩阵。
[0194]
在一种可能的实现方式中,第一向量生成单元,包括:
[0195]
系数获取子单元,用于将所述目标节点的邻居节点数量取倒数作为所述目标节点对应的缩放系数;
[0196]
互相关项生成子单元,用于将所述缩放系数、所述目标节点的目标邻居节点的初始特征向量表示以及所述目标节点与所述目标邻居节点之间的关系权重相乘,得到所述目标节点与所述目标邻居节点的互相关项;
[0197]
累加结果获取子单元,用于累计所述目标节点与所述目标节点的各邻居节点的互相关项,得到互相关项累加结果;
[0198]
自相关项生成子单元,用于将所述目标节点的自相关权重和所述目标节点的初始特征向量表示相乘,得到所述目标节点的自相关项;
[0199]
一阶向量生成子单元,用于对所述互相关项累加结果与所述自相关项之和,采用激活函数处理,得到所述目标节点的一阶特征向量表示。
[0200]
在一种可能的实现方式中,特征向量生成模块,可能包括:
[0201]
第二节点获取单元,用于从所述样本医疗知识图谱中提取得到各节点的初始特征向量表示并确定各节点的邻居节点集合;
[0202]
第二向量生成单元,用于对于所述样本医疗知识图谱中的目标节点,由所述待训练模型中的第1层图卷积层,根据所述目标节点的邻居节点数量、所述第1层图卷积层的权重矩阵、所述目标节点的初始特征向量表示和所述目标节点的各邻居节点的初始特征向量表示,得到所述目标节点的一阶特征向量表示;所述第1层图卷积层的权重矩阵包括所述第1层图卷积层为所述目标节点配置的自相关权重,还包括所述第1层图卷积层为所述目标节点配置的与各邻居节点间的关系权重;
[0203]
第三向量生成单元,用于对于所述目标节点,由所述待训练模型中的第l层图卷积层,根据所述目标节点的邻居节点数量、所述第l层图卷积层的权重矩阵、所述目标节点的l-1阶特征向量表示和所述目标节点的各邻居节点的l-1阶特征向量表示,得到所述目标节点的l阶特征向量表示;所述第l层图卷积层的权重矩阵包括所述第l层图卷积层为所述目标节点配置的自相关权重,还包括所述第l层图卷积层为所述目标节点配置的与各邻居节点间的关系权重;所述l为大于1,且小于或等于n的整数;
[0204]
第一矩阵获取单元,用于根据所述样本医疗知识图谱中各节点的n阶特征向量表示得到所述样本医疗知识图谱的特征向量表示矩阵。
[0205]
在一种可能的实现方式中,样本数据获取模块,包括:
[0206]
初始三元组获取单元,用于将所述医疗数据样本集中的数据依据数据的特征或属性,以及数据间关系结构化为初始三元组;其中,初始三元组中头实体为患者标识,实体关系为患者的指标项,尾实体为患者在指标项下的指标值;
[0207]
编码三元组获取单元,用于对所述初始三元组中的头实体、实体关系及尾实体分别编码,得到所述初始三元组对应的编码三元组;
[0208]
样本医疗图谱生成单元,用于基于所述医疗数据样本集的多个编码三元组构建所述医疗数据样本集对应的样本医疗知识图谱。
[0209]
在一种可能的实现方式中,数据获取模块601,包括:
[0210]
结构化处理单元,用于将所述目标医疗数据集中的数据依据数据的特征或属性,以及数据间关系结构化为以患者标识为头实体、以患者的指标项为实体关系并以患者在指标项下的指标值作为尾实体的三元组;
[0211]
实体号码编写单元,用于对所述目标医疗数据集结构化的三元组中头实体、实体关系及尾实体分别编码,得到所述目标医疗数据集的编码三元组;
[0212]
第一图谱生成单元,用于根据所述目标医疗数据集的多个编码三元组构建所述目标医疗数据集对应的医疗知识图谱。
[0213]
在一种可能的实现方式中,编码三元组获取单元,包括:
[0214]
头实体生成子单元,用于获取所述医疗数据样本集中不同的患者标识,构建所述医疗数据样本集的头实体集合;
[0215]
尾实体生成子单元,用于获取所述医疗数据样本集中各患者在不同指标项下的指标值,构建所述医疗数据样本集的尾实体集合;
[0216]
第一编码生成子单元,用于根据所述头实体集合中的头实体数量和所述尾实体集合中的尾实体数量之和,得到实体编码范围;
[0217]
关系集合生成子单元,用于获取所述医疗数据样本集中不同的指标项,构建所述医疗数据样本集的关系集合;
[0218]
第二编码生成子单元,用于根据所述关系集合中关系的种类数量,得到关系编码范围;
[0219]
三元组生成子单元,用于根据所述实体编码范围对所述初始三元组中的头实体和尾实体分别编码,并根据所述关系编码范围对所述初始三元组中的实体关系进行编码,得到所述初始三元组对应的编码三元组。
[0220]
基于前述实施例提供的医疗数据补全方法和装置,相应地,本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文提及的医疗数据补全方法中的部分或全部步骤。
[0221]
基于前述实施例提供的医疗数据补全方法和装置,本技术还提供了一种电子设备,包括:
[0222]
存储器,其上存储有计算机程序;
[0223]
处理器,用于执行所述存储器中的所述计算机程序,以实现前述实施例提供的与医疗数据补全方法和装置,
[0224]
以上所述,仅为本技术的一种具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。

技术特征:
1.一种医疗数据补全方法,其特征在于,包括:根据目标医疗数据集中数据的特征或属性,以及数据间关系,构建所述目标医疗数据集对应的医疗知识图谱;所述目标医疗数据集中所缺失数据对应于所述医疗知识图谱中有待预测的尾实体;将所述医疗知识图谱作为医疗数据补全模型的输入,通过所述医疗数据补全模型获得所述医疗知识图谱中有待预测的尾实体的预测值;所述医疗数据补全模型包括至少一层图卷积层,所述图卷积层用于通过聚合所述医疗知识图谱中相邻的节点的信息以实现基于数据间关系的节点表示学习;相邻的两个节点包括头实体和尾实体,相邻的两个节点之间的边表示所连接的头实体与尾实体之间的关系,头实体与尾实体的数据的特征或属性不同;将有待预测的尾实体的预测值补充至所述目标医疗数据集中对应的所缺失数据的位置。2.根据权利要求1所述的医疗数据补全方法,其特征在于,所述医疗数据补全模型的训练步骤包括:根据医疗数据样本集中数据的特征或属性,以及数据间关系对所述医疗数据样本集中的数据进行结构化处理,构建所述医疗数据样本集对应的样本医疗知识图谱;将所述样本医疗知识图谱输入待训练模型中,通过所述待训练模型中至少一层图卷积层的学习,获得所述样本医疗知识图谱的特征向量表示矩阵;所述特征向量表示矩阵包括所述样本医疗知识图谱中各节点经过至少一层图卷积层的信息聚合后形成的新的特征向量表示;将所述特征向量表示矩阵和所述样本医疗知识图谱的关系表示矩阵进行矩阵拼接,得到拼接后的矩阵;通过对所述拼接后的矩阵进行卷积、向量化及激活函数处理,得到尾实体矩阵求解结果;根据所述尾实体矩阵求解结果得到对所述样本医疗知识图谱中样本尾实体的预测值;根据所述样本医疗知识图谱中样本尾实体的预测值与真实值的差异,对所述待训练模型的参数进行调整,直至训练结束得到所述医疗数据补全模型。3.根据权利要求2所述的医疗数据补全方法,其特征在于,所述待训练模型包括一层图卷积层;所述将所述样本医疗知识图谱输入待训练模型中,通过所述待训练模型中至少一层图卷积层的学习,获得所述样本医疗知识图谱的特征向量表示矩阵,包括:从所述样本医疗知识图谱中提取得到各节点的初始特征向量表示并确定各节点的邻居节点集合;对于所述样本医疗知识图谱中的目标节点,由所述待训练模型中的一层图卷积层,根据所述目标节点的邻居节点数量、所述目标节点的自相关权重、所述目标节点与所述目标节点的各邻居节点之间的关系权重、所述目标节点的初始特征向量表示和所述目标节点的各邻居节点的初始特征向量表示,得到所述目标节点的一阶特征向量表示;根据所述样本医疗知识图谱中各节点的一阶特征向量表示得到所述样本医疗知识图谱的特征向量表示矩阵。4.根据权利要求3所述的医疗数据补全方法,其特征在于,所述根据所述目标节点的邻居节点数量、所述目标节点的自相关权重、所述目标节点与所述目标节点的各邻居节点之
间的关系权重、所述目标节点的初始特征向量表示和所述目标节点的各邻居节点的初始特征向量表示,得到所述目标节点的一阶特征向量表示,包括:将所述目标节点的邻居节点数量取倒数作为所述目标节点对应的缩放系数;将所述缩放系数、所述目标节点的目标邻居节点的初始特征向量表示以及所述目标节点与所述目标邻居节点之间的关系权重相乘,得到所述目标节点与所述目标邻居节点的互相关项;累计所述目标节点与所述目标节点的各邻居节点的互相关项,得到互相关项累加结果;将所述目标节点的自相关权重和所述目标节点的初始特征向量表示相乘,得到所述目标节点的自相关项;对所述互相关项累加结果与所述自相关项之和,采用激活函数处理,得到所述目标节点的一阶特征向量表示。5.根据权利要求2所述的医疗数据补全方法,其特征在于,所述待训练模型包括多层图卷积层,其中所述多层图卷层包括前后连接的第1层图卷积层至第n层图卷积层;n为所述待训练模型中图卷积层总层数;所述将所述样本医疗知识图谱输入待训练模型中,通过所述待训练模型中至少一层图卷积层的学习,获得所述样本医疗知识图谱的特征向量表示矩阵,包括:从所述样本医疗知识图谱中提取得到各节点的初始特征向量表示并确定各节点的邻居节点集合;对于所述样本医疗知识图谱中的目标节点,由所述待训练模型中的第1层图卷积层,根据所述目标节点的邻居节点数量、所述第1层图卷积层的权重矩阵、所述目标节点的初始特征向量表示和所述目标节点的各邻居节点的初始特征向量表示,得到所述目标节点的一阶特征向量表示;所述第1层图卷积层的权重矩阵包括所述第1层图卷积层为所述目标节点配置的自相关权重,还包括所述第1层图卷积层为所述目标节点配置的与各邻居节点间的关系权重;对于所述目标节点,由所述待训练模型中的第l层图卷积层,根据所述目标节点的邻居节点数量、所述第l层图卷积层的权重矩阵、所述目标节点的l-1阶特征向量表示和所述目标节点的各邻居节点的l-1阶特征向量表示,得到所述目标节点的l阶特征向量表示;所述第l层图卷积层的权重矩阵包括所述第l层图卷积层为所述目标节点配置的自相关权重,还包括所述第l层图卷积层为所述目标节点配置的与各邻居节点间的关系权重;所述l为大于1,且小于或等于n的整数;根据所述样本医疗知识图谱中各节点的n阶特征向量表示得到所述样本医疗知识图谱的特征向量表示矩阵。6.根据权利要求2所述的医疗数据补全方法,其特征在于,所述待训练模型还包括-多层感知机;所述根据所述尾实体矩阵求解结果得到对所述样本医疗知识图谱中样本尾实体的预测值,包括:将所述尾实体矩阵求解结果作为所述多层感知机的输入,通过所述多层感知机预测得到所述样本医疗知识图谱中样本尾实体的预测值。7.根据权利要求2所述的医疗数据补全方法,其特征在于,所述根据医疗数据样本集中
数据的特征或属性,以及数据间关系对所述医疗数据样本集中的数据进行结构化处理,构建所述医疗数据样本集对应的样本医疗知识图谱,包括:将所述医疗数据样本集中的数据依据数据的特征或属性,以及数据间关系结构化为初始三元组;其中,初始三元组中头实体为患者标识,实体关系为患者的指标项,尾实体为患者在指标项下的指标值;对所述初始三元组中的头实体、实体关系及尾实体分别编码,得到所述初始三元组对应的编码三元组;基于所述医疗数据样本集的多个编码三元组构建所述医疗数据样本集对应的样本医疗知识图谱。8.根据权利要求7所述的医疗数据补全方法,其特征在于,所述根据目标医疗数据集中数据的特征或属性,以及数据间关系,构建所述目标医疗数据集对应的医疗知识图谱,包括:将所述目标医疗数据集中的数据依据数据的特征或属性,以及数据间关系结构化为以患者标识为头实体、以患者的指标项为实体关系并以患者在指标项下的指标值作为尾实体的三元组;对所述目标医疗数据集结构化的三元组中头实体、实体关系及尾实体分别编码,得到所述目标医疗数据集的编码三元组;根据所述目标医疗数据集的多个编码三元组构建所述目标医疗数据集对应的医疗知识图谱。9.根据权利要求7或8所述的医疗数据补全方法,其特征在于,所述对所述初始三元组中的头实体、实体关系及尾实体分别编码,得到所述初始三元组对应的编码三元组,包括:获取所述医疗数据样本集中不同的患者标识,构建所述医疗数据样本集的头实体集合;获取所述医疗数据样本集中各患者在不同指标项下的指标值,构建所述医疗数据样本集的尾实体集合;根据所述头实体集合中的头实体数量和所述尾实体集合中的尾实体数量之和,得到实体编码范围;获取所述医疗数据样本集中不同的指标项,构建所述医疗数据样本集的关系集合;根据所述关系集合中关系的种类数量,得到关系编码范围;根据所述实体编码范围对所述初始三元组中的头实体和尾实体分别编码,并根据所述关系编码范围对所述初始三元组中的实体关系进行编码,得到所述初始三元组对应的编码三元组。10.一种医疗数据补全装置,其特征在于,包括:数据获取模块,用于根据目标医疗数据集中数据的特征或属性,以及数据间关系,构建所述目标医疗数据集对应的医疗知识图谱;所述目标医疗数据集中所缺失数据对应于所述医疗知识图谱中有待预测的尾实体;模型处理模块,用于将所述医疗知识图谱作为医疗数据补全模型的输入,通过所述医疗数据补全模型获得所述医疗知识图谱中有待预测的尾实体的预测值;所述医疗数据补全模型包括至少一层图卷积层,所述图卷积层用于通过聚合所述医疗知识图谱中相邻的节点
的信息以实现基于数据间关系的节点表示学习;相邻的两个节点包括头实体和尾实体,相邻的两个节点之间的边表示所连接的头实体与尾实体之间的关系,头实体与尾实体的数据的特征或属性不同;数值补全模块,用于将有待预测的尾实体的预测值补充至所述目标医疗数据集中对应的所缺失数据的位置。11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。12.一种电子设备,其特征在于,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-9中任一项所述方法的步骤。

技术总结
本申请公开一种医疗数据补全方法及相关产品,涉及数据处理技术领域。在本申请中根据目标医疗数据集中数据的特征或属性,以及数据间关系,构建目标医疗数据集对应的医疗知识图谱;将医疗知识图谱作为医疗数据补全模型的输入,通过医疗数据补全模型获得医疗知识图谱中有待预测的尾实体的预测值;将有待预测的尾实体的预测值补充至目标医疗数据集中对应的所缺失数据的位置。由于本申请中采用的医疗数据补全方法充分考虑了医疗数据集中数据的繁杂性和相关性,所以能够获得与有待预测的尾实体的真实值差异较小的预测值,最终解决了传统医疗数据补全方法不能获得准确度较好的医疗数据缺失值的问题,恢复医疗数据集的完整性,提高医疗数据集的可用性。高医疗数据集的可用性。高医疗数据集的可用性。


技术研发人员:闻英友 甄石 何涛 李志 李大鹏 王晨 孙士尧
受保护的技术使用者:东软集团股份有限公司
技术研发日:2023.07.19
技术公布日:2023/10/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐