医疗文本数据的数据增强方法、装置、设备及介质与流程
未命名
09-29
阅读:84
评论:0

1.本发明涉及人工智能及智慧医疗技术领域,尤其涉及一种医疗文本数据的数据增强方法、装置、设备及介质。
背景技术:
2.数据增强是一种在训练机器学习或者深度学习模型时使用的技术,通过对原始数据进行一系列变换、扰动或组合,生成新的训练数据,使模型可以学习到更多的不同情况和变化,目的是于增加训练数据的数量和多样性,从而提高模型的性能。在智慧医疗领域,数据增强技术在模型训练中应用广泛,原因是医疗数据普遍数据较少,而机器学习和深度学习模型训练需要一定量的数据,因此通常会使用数据增强技术对医疗数据集进行扩充。
3.现有技术对医疗文本进行数据扩充主要是根据文本形式对医疗文本数据进行简单复制以实现数据增强。然而,通过这种方式增加的医疗文本数据仅仅只是数量上面的增加,过于单调,并不能丰富医疗文本数据的多样性和丰富性。应用此方法得到的数据增强后的医疗文本数据也无法帮助不同任务的模型训练实现显著的模型性能提升。
技术实现要素:
4.本发明提供一种医疗文本数据的数据增强方法、装置、设备及介质,以解决现有技术中对于医疗文本的数据增强欠缺丰富性和多样性的技术问题。
5.第一方面,提供了一种医疗文本数据的数据增强方法,该方法包括:
6.对已有医疗文本进行聚类,得到聚类结果;
7.根据聚类结果,获取每个已有医疗文本的权重;
8.根据所有已有医疗文本的权重,建立抽样总体,从抽样总体中进行采样,得到采样医疗文本,其中,抽样总体中包含所有已有医疗文本,且抽样总体中所有已有医疗文本的数量按照权重配置;
9.生成采样医疗文本对应的相似医疗文本;
10.利用生成的相似医疗文本对已有医疗文本进行数据增强。
11.第二方面,提供了一种医疗文本数据的数据增强装置,该装置包括:
12.聚类模块,用于对已有医疗文本进行聚类,得到聚类结果;
13.权重计算模块,用于根据聚类结果,获取每个已有医疗文本的权重;
14.采样模块,用于根据所有已有医疗文本的权重,建立抽样总体,从抽样总体中进行采样,得到采样医疗文本,其中,抽样总体中包含所有已有医疗文本,且抽样总体中所有已有医疗文本的数量按照权重配置;
15.文本生成模块,用于生成采样医疗文本对应的相似医疗文本;
16.数据增强模块,用于利用生成的相似医疗文本对已有医疗文本进行数据增强。
17.第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述医疗文本数据的数据增
强方法的步骤。
18.第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述医疗文本数据的数据增强方法的步骤。
19.上述医疗文本数据的数据增强的方法、装置、设备及介质所实现的方案中,通过聚类获取到每个已有医疗文本的权重,根据权重构建由已有医疗文本构成的抽样总体,从抽样总体中进行采样,权重越高代表该已有医疗文本越具有代表性且在抽样总体中占比越大,越可能被抽样到,因此最终得到的采样医疗文本具有代表性和多样性,同理,根据采样医疗文本生成的相似医疗文本也具有代表性和多样性;另外,本技术并非通过简单复制来扩充数据,而是通过生成相似医疗文本来扩充数据,因此,得到的相似医疗文本相较于文本复制而言更具有多样性和丰富性,通过相似医疗文本来扩充已有医疗文本,得到的数据增强后的医疗文本可以帮助不同任务的模型训练实现显著的模型性能提升,增加模型的鲁棒性。
附图说明
20.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
21.图1是本发明一实施例中医疗文本数据的数据增强方法的一应用环境示意图;
22.图2是本发明一实施例中医疗文本数据的数据增强方法的流程示意图;
23.图3是本发明另一实施例中医疗文本数据的数据增强方法的流程示意图;
24.图4是本发明一实施例中医疗文本数据的数据增强的装置的结构示意图;
25.图5是本发明一实施例中医疗文本数据的数据增强的装置的结构示意图;
26.图6是本发明一实施例中计算机设备的结构示意图。
具体实施方式
27.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.本发明实施例提供的医疗文本数据的数据增强方法可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。服务端通过客户端接收用户指令,对用户指令所指示的已有医疗文本进行数据增强,服务端具体执行以下步骤:对已有医疗文本进行聚类,得到聚类结果;根据聚类结果,获取每个已有医疗文本的权重;根据所有已有医疗文本的权重,建立抽样总体,从抽样总体中进行采样,得到采样医疗文本,其中,抽样总体中包含所有已有医疗文本,且抽样总体中所有已有医疗文本的数量按照权重配置;生成采样医疗文本对应的相似医疗文本;利用生成的相似医疗文本对已有医疗文本进行数据增强。其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通
过具体的实施例对本发明进行详细的描述。
29.请参阅图2所示,图2为本发明实施例提供的医疗文本数据的数据增强方法的一个流程示意图,该医疗文本数据的数据增强方法包括:
30.s101:对已有医疗文本进行聚类,得到聚类结果。
31.具体地,聚类(clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。
32.在一个具体实施例中,可以利用基于密度的聚类算法,例如:dbscan(density-based spatial clustering of applications with noise,具有噪声的基于密度的聚类方法)等。通过该聚类方法对已有医疗文本进行聚类,得到聚类结果,此聚类结果即对应的多个聚类簇。每个聚类簇包括至少一个已有医疗文本,且不同聚类簇所包含的已有医疗文本不重叠。
33.更具体地,应用已有的sbert(sentence-bert)模型对已有医疗文本进行向量表示,根据向量表示计算每两个已有医疗文本之间的余弦距离或欧式距离,基于聚类算法,根据该余弦距离或欧式距离来进行聚类。
34.当然也可以利用其它聚类算法,例如,划分式聚类算法(k-means、k-means++等等),本技术对此不作限制。
35.s102:根据聚类结果,获取每个已有医疗文本的权重。
36.具体地,每个已有医疗文本对应一个权重,本实施例的权重代表了已有医疗文本所具有的代表性。权重越高,所具有的代表性越高。
37.已有医疗文本的权重是根据聚类结果中聚类簇之间的关系以及同一个聚类簇中已有医疗文本之间的关系确定的。
38.s103:根据所有已有医疗文本的权重,建立抽样总体,从抽样总体中进行采样,得到采样医疗文本,其中,抽样总体中包含所有已有医疗文本,且抽样总体中所有已有医疗文本的数量按照权重配置。
39.具体地,权重代表了已有医疗文本所具有的代表性,权重越高,代表性越高,因为我们的目的是抽取到具有代表性的已有医疗文本,因此,权重越高的已有医疗文本在构建的抽样总体中的分布越大,这样抽取到该权重高的已有医疗文本的概率越大。
40.基于此,根据所有已有医疗文本的权重,构建包含有所有已有医疗文本的抽样总体,且该抽样总体中所有已有医疗文本的数量按照权重配置,使得已有医疗文本在抽样总体中所占比例与权重成正比。
41.再根据预设采样方式从该抽样总体中进行采样,得到采样医疗文本。
42.预设采样方式可以是有放回的随机抽样,也可以是无放回的随机抽样。本技术对此不作限制。另外,抽样次数例如可以设置为50次等。具体抽样次数可以根据实际应用场景配置,本技术对此不做限制。
43.s104:生成采样医疗文本对应的相似医疗文本。
44.具体地,可以利用已训练的语言生成模型生成采样医疗文本对应的相似医疗文本。每个采样医疗文本可以对应生成有多个不同的相似医疗文本。
45.已训练的语言生成模型例如可以是gpt模型(generative pre-trained transformer,生成式预训练transformer模型)。
46.采样医疗文本+“相似文本生成”自然语言指令给到gpt模型,gpt模型可以自动生成该采样医疗文本对应的一个或多个相似医疗文本。
47.s105:利用生成的相似医疗文本对已有医疗文本进行数据增强。
48.具体地,可以通过预设筛选方式将部分或全部生成的相似医疗文本混合至已有医疗文本中,得到数据增强后的医疗文本。
49.本实施例通过聚类获取到每个已有医疗文本的权重,根据权重构建由已有医疗文本构成的抽样总体,从抽样总体中进行采样,权重越高代表该已有医疗文本越具有代表性且在抽样总体中占比越大,越可能被抽样到,因此最终得到的采样医疗文本具有代表性和多样性,同理,根据采样医疗文本生成的相似医疗文本也具有代表性和多样性;另外,本技术并非通过简单复制来扩充数据,而是通过生成相似医疗文本来扩充数据,因此,得到的相似医疗文本相较于文本复制而言更具有多样性和丰富性,通过相似医疗文本来扩充已有医疗文本,得到的数据增强后的医疗文本可以帮助不同任务的模型训练实现显著的模型性能提升,增加模型的鲁棒性。
50.请参阅图3所示,图3为本发明另一实施例提供的医疗文本数据的数据增强的方法的一个流程示意图,包括如下步骤:
51.s201:根据属性标签对已有医疗文本进行分组。
52.具体地,已有医疗文本有多个,每个已有医疗文本可能有多个不同的属性标签。例如,属性标签包括文本类型、诊断结果、业务类型、患者信息等。其中,文本类型具体包括主诉、现病史、既往史、住院小结等多种;诊断结果包括上呼吸道感染、腹泻、流行性感冒等多种;业务类型包括住院、门诊、急诊等多种;患者信息包括性别和年龄。
53.可以选择一个属性标签对所有已有医疗文本进行分组,也可以选择多个属性标签对所有已有医疗文本进行分组,得到多个分组,每个分组包括若干个已有医疗文本。
54.例如,已有医疗文本为描述诊断结果的文本,根据诊断结果这个属性标签对已有医疗文本进行分组,将诊断结果为上呼吸道感染的已有医疗文本分为一组,将诊断结果为腹泻的已有医疗文本分为一组,将诊断结果为流行性感冒的已有医疗文本分为一组。
55.当然,也可以根据多个属性标签的组合对已有医疗文本进行分组,本技术对此不做限制。
56.通过属性标签可以粗略的对已有医疗文本进行分组,以分组为单位有针对性地、均匀地对各类医疗文本进行数据增强,相对于盲目复制的方式,更能实现增强数据的多样性。
57.s202:对同一个分组中的已有医疗文本进行聚类,得到每个分组对应的聚类结果。
58.具体地,聚类(clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。
59.在一个具体实施例中,可以利用基于密度的聚类算法,例如:dbscan(density-based spatial clustering of applications with noise,具有噪声的基于密度的聚类
方法)等。通过该聚类方法对同一个分组的已有医疗文本进行聚类,得到该分组对应的聚类结果,此聚类结果即该分组对应的多个聚类簇。每个聚类簇包括该分组的至少一个已有医疗文本,且不同聚类簇所包含的已有医疗文本不重叠。
60.更具体地,应用已有的sbert(sentence-bert)模型对分组中的已有医疗文本进行向量表示,根据向量表示计算同一个分组中每两个已有医疗文本之间的余弦距离或欧式距离,基于聚类算法,根据该余弦距离或欧式距离来进行聚类。
61.当然也可以利用其它聚类算法,例如,划分式聚类算法(k-means、k-means++等等),本技术对此不作限制。
62.s203:根据目标分组的聚类结果,获取在目标分组中每个已有医疗文本的权重,其中,目标分组为所有分组中的任意一个分组。
63.具体地,任选一个分组作为目标分组,在该目标分组中每个已有医疗文本对应一个权重,本实施例的权重代表了已有医疗文本在分组中所具有的代表性。权重越高,所具有的代表性越高。
64.已有医疗文本的权重是根据聚类结果中聚类簇之间的关系以及同一个聚类簇中已有医疗文本之间的关系确定的。
65.任意一个分组都可以通过步骤s203获取到其所包含的每个已有医疗文本的权重。
66.s204:根据目标分组中所有已有医疗文本的权重,建立目标分组对应的抽样总体,从目标分组的抽样总体中进行采样,得到目标分组对应的采样医疗文本,其中,目标分组的抽样总体中包含目标分组的所有已有医疗文本,且目标分组的抽样总体中所有已有医疗文本的数量按照权重配置。
67.具体地,权重代表了已有医疗文本在所在分组中所具有的代表性,权重越高,代表性越高,因为我们的目的是抽取到具有代表性的已有医疗文本,因此,权重越高的已有医疗文本在构建的抽样总体中的分布越大,这样抽取到该权重高的已有医疗文本的概率越大。
68.基于此,从所有分组中任选一个分组作为目标分组,根据目标分组中所有已有医疗文本的权重,构建包含有该目标分组所有已有医疗文本的抽样总体,且该目标分组的抽样总体中所有已有医疗文本的数量按照权重配置,使得已有医疗文本在抽样总体中所占比例与权重成正比。
69.再根据预设采样方式从该目标分组对应的抽样总体中进行采样,得到目标分组对应的采样医疗文本。
70.预设采样方式可以是有放回的随机抽样,也可以是无放回的随机抽样。本技术对此不作限制。另外,抽样次数例如可以设置为50次等。具体抽样次数可以根据实际应用场景配置,本技术对此不做限制。
71.任意一个分组都可以通过步骤s204得到其对应的采样医疗文本。
72.s205:生成采样医疗文本对应的相似医疗文本。
73.具体地,可以利用已训练的语言生成模型生成采样医疗文本对应的相似医疗文本。每个采样医疗文本可以对应生成有多个不同的相似医疗文本。
74.已训练的语言生成模型例如可以是gpt模型(generative pre-trained transformer,生成式预训练transformer模型)。
75.采样医疗文本+“相似文本生成”自然语言指令给到gpt模型,gpt模型可以自动生
成该采样医疗文本对应的一个或多个相似医疗文本。
76.s206:利用生成的相似医疗文本对已有医疗文本进行数据增强。
77.具体地,可以通过预设筛选方式将部分或全部生成的相似医疗文本混合至已有医疗文本中,得到数据增强后的医疗文本。
78.本实施例通过聚类获取到每个已有医疗文本的权重,根据权重构建由已有医疗文本构成的抽样总体,从抽样总体中进行采样,权重越高代表该已有医疗文本越具有代表性且在抽样总体中占比越大,越可能被抽样到,因此最终得到的采样医疗文本具有代表性和多样性,同理,根据采样医疗文本生成的相似医疗文本也具有代表性和多样性;另外,本技术并非通过简单复制来扩充数据,而是通过生成相似医疗文本来扩充数据,因此,得到的相似医疗文本相较于文本复制而言更具有多样性和丰富性;再次,本实施例预先对已有医疗文本进行分组,按照分组分别进行数据增强,得到的相似医疗文本更贴近已有医疗文本,保证数据丰富性的同时还能保证生成的数据与已有医疗文本具有代表性和相似性,通过相似医疗文本来扩充已有医疗文本,得到的数据增强后的医疗文本可以帮助不同任务的模型训练实现显著的模型性能提升,增加模型的鲁棒性。
79.在一实施例中,在步骤s105或步骤s206之前,该方法还包括:
80.对相似医疗文本与对应的采样医疗文本进行语义相似度检查;
81.根据得到的检查结果,将指示语义相似度低于相似度阈值的相似医疗文本剔除。
82.具体地,为了确保用于数据增强的相似医疗文本与对应的采样医疗文本具有较高的相似度,本实施例会检查二者的语义相似度。
83.在一个具体实施例中,在对每句采样医疗文本生成多句相似医疗文本后,为了检查数据的一致性或相似性,将采样医疗文本和生成的相似医疗文本作为输入gpt模型的输入,同时给gpt模型下发“数据语义相似度检查”的自然语言指令,由gpt模型输出检查结果,检查结果能够明确指示二者二者的语义相似度高或低,语义相似度高表示二者的语义相似度高于相似度阈值,语义相似度低表示二者的语义相似度低于相似度阈值。
84.在另一个具体实施例中,分别获取相似医疗文本与对应的采样医疗文本的向量表示,根据向量表示计算相似医疗文本与对应的采样医疗文本之间的欧式距离或余弦距离,通过欧式距离或余弦距离表示二者的实际语义相似度。如果实际语义相似度超过相似度阈值,则判定二者满足相似度标准,保留该相似医疗文本。如果实际语义相似度低于相似度阈值,则判定二者不满足相似度标准,需要剔除该相似医疗文本,即该相似医疗文本不再用于数据增强。
85.通过检查采样医疗文本与其相似医疗文本之间的语义相似度,可以对生成的医疗文本数据的质量进行有效检测,移除数据质量低的相似医疗文本,一定程度上保证了用于数据增强的数据与原数据的相似性和一致性,进而保证了数据增强的可靠性。
86.在一实施例中,一个聚类结果包括多个聚类簇,步骤s203具体包括:
87.计算目标聚类簇所包含的已有医疗文本的数量与目标聚类簇对应的目标分组所包含的已有医疗文本的数量的比值,得到目标聚类簇的簇权重,其中,目标聚类簇为目标分组的聚类结果中的任意一个聚类簇;
88.计算目标已有医疗文本与所在的目标聚类簇的聚类中心的距离作为第一距离,计算在目标聚类簇中已有医疗文本到聚类中心的最远距离,计算第一距离的倒数与最远距离
的比值,得到目标已有医疗文本的文本权重,其中,所述目标已有医疗文本为目标聚类簇中的任意一个已有医疗文本;
89.将目标已有医疗文本对应的簇权重和文本权重相乘,得到目标已有医疗文本的权重。
90.具体地,例如一个分组包含的已有医疗文本的数量为m个,该分组的聚类结果包括n个聚类簇。以其中一个聚类簇作为目标聚类簇为例,该目标聚类簇所包含的已有医疗文本的数量为p,p小于m。
91.该目标聚类簇的簇权重=p/m。
92.该目标聚类簇包含p个已有医疗文本,分别计算这p个已有医疗文本中每个已有医疗文本与该目标聚类簇的聚类中心的距离,得到每个已有医疗文本对应的第一距离。计算该目标聚类簇中已有医疗文本到聚类中心的最远距离,最远距离即最大第一距离。从目标聚类簇中选取任意一个已有医疗文本作为目标已有医疗文本,计算该目标已有医疗文本的第一距离的倒数与该最远距离的比值,得到该目标已有医疗文本的文本权重。
93.同一个目标已有医疗文本的文本权重乘以该目标已有医疗文本所在目标聚类簇的簇权重,得到该目标已有医疗文本的权重。
94.任意一个分组的任意一个聚类簇中的任意一个已有医疗文本均可通过本实施例计算得到其权重。
95.本实施例通过计算聚类簇所包含的已有医疗文本的数量占所在分组所包含的已有医疗文本的总数量的比例,得到聚类簇的簇权重。通过计算同一个聚类簇中各个已有医疗文本与聚类中心的第一距离的倒数与已有医疗文本到聚类中心的最远距离的比例,得到各个已有医疗文本在聚类簇中文本权重,通过文本权重和簇权重得到已有医疗文本的权重。该权重可以较好的反映已有医疗文本在分组中所具有的代表性。权重越高的已有医疗文本越具有代表性,在抽样中所占比例越大,越可能被抽取到,使得得到的采样医疗文本尽可能具有代表性。
96.在另一个具体实施例中,还可以根据同一个分组中每个聚类簇中已有医疗文本到聚类中心的第一距离,筛选出预设数量的最短第一距离的已有医疗文本作为该聚类簇的采样医疗文本。每个聚类簇的预设数量根据其所包含的已有医疗文本占所有已有医疗文本的占比确定。
97.在一实施例中,聚类结果包括多个聚类簇,步骤s102具体包括:计算目标聚类簇所包含的已有医疗文本的数量与所有已有医疗文本的数量的比值,得到目标聚类簇的簇权重,其中,目标聚类簇为聚类结果中的任意一个聚类簇;
98.计算目标已有医疗文本与所在的目标聚类簇的聚类中心的距离作为第一距离,计算在目标聚类簇中已有医疗文本到聚类中心的最远距离,计算第一距离的倒数与最远距离的比值,得到目标已有医疗文本的文本权重,其中,目标已有医疗文本为目标聚类簇中的任意一个已有医疗文本;
99.将目标已有医疗文本对应的簇权重和文本权重相乘,得到目标已有医疗文本的权重。
100.本实施例通过计算聚类簇所包含的已有医疗文本的数量占所有已有医疗文本的总数量的比例,得到聚类簇的簇权重。通过计算同一个聚类簇中各个已有医疗文本与聚类
中心的第一距离的倒数与已有医疗文本到聚类中心的最远距离的比例,得到各个已有医疗文本在聚类簇中文本权重,通过文本权重和簇权重得到已有医疗文本的权重。该权重可以较好的反映已有医疗文本所具有的代表性。权重越高的已有医疗文本越具有代表性,在抽样中所占比例越大,越可能被抽取到,使得得到的采样医疗文本尽可能具有代表性。
101.在一实施例中,步骤s105或步骤s206具体包括:
102.将所有的相似医疗文本混合至所有的已有医疗文本中,得到数据增强后的医疗文本;
103.或者,
104.在保持已有医疗文本数量不变的情况下,按照预设混合比例,对相似医疗文本和已有医疗文本进行混合,得到数据增强后的医疗文本。
105.具体地,在一个具体实施例中,将得到的所有相似医疗文本与所有已有医疗文本混合,以对已有医疗文本进行数据增强。本技术的混合是指将相似医疗文本和已有医疗文本均作为一条独立的样本数据进行文本混合,得到数据集,数据集包括相似医疗文本和已有医疗文本。
106.或者,将相似度低的相似医疗文本剔除后,将保留的相似医疗文本与已有医疗文本混合,以对已有医疗文本进行数据增强。
107.在一个具体实施例中,在保持已有医疗文本数量不变的情况下,按照预设混合比例,对相似医疗文本和已有医疗文本进行混合,得到数据增强后的医疗文本。
108.或者,
109.在保持已有医疗文本数量不变的情况下,按照预设混合比例,对将相似度低的相似医疗文本剔除后保留的相似医疗文本和已有医疗文本进行混合,得到数据增强后的医疗文本。
110.其中,预设混合比例可以是相似医疗文本的占比小于或等于已有医疗文本的占比。如果相似医疗文本的数量不足,可以通过复制相似医疗文本的方式进行文本补足。
111.例如,相似医疗文本与已有医疗文本的比例为3:7或者4:6或者2:8等等,本技术对此不做限制。
112.本实施例通过不同混合方式实现了对原有医疗文本的数据增强。
113.在一实施例中,步骤s201具体包括:
114.基于模型任务目的,确定用于分类的目标属性标签组合,其中,目标属性标签组合包括至少一种属性标签;
115.根据目标属性标签组合,对已有医疗文本进行分组。
116.具体地,不同任务的模型训练可能使用不同的数据集,本实施例可以根据具体的模型任务目的,确定用于分组的目标属性标签组合。利用目标属性标签组合对已有医疗文本进行分组,以更贴合实际的模型训练任务。
117.例如,已有医疗文本为描述诊断结果的文本,根据诊断结果和患者信息中的年龄对已有医疗文本进行分组。
118.将诊断结果为上呼吸道感染且患者为1-5岁的已有医疗文本分为一组,将诊断结果为上呼吸道感染且患者为6-18岁的已有医疗文本分为一组,将诊断结果为上呼吸道感染且患者为19-40岁的已有医疗文本分为一组,将诊断结果为上呼吸道感染且患者为41-60岁
的已有医疗文本分为一组,将诊断结果为上呼吸道感染且患者为60岁以上的已有医疗文本分为一组。
119.将诊断结果为腹泻且患者为1-5岁的已有医疗文本分为一组,将诊断结果为腹泻且患者为6-18岁的已有医疗文本分为一组,将诊断结果为腹泻且患者为19-40岁的已有医疗文本分为一组,将诊断结果为腹泻且患者为41-60岁的已有医疗文本分为一组,将诊断结果为腹泻且患者为60岁以上的已有医疗文本分为一组。
120.将诊断结果为流行性感冒且患者为1-5岁的已有医疗文本分为一组,将诊断结果为流行性感冒且患者为6-18岁的已有医疗文本分为一组,将诊断结果为流行性感冒且患者为19-40岁的已有医疗文本分为一组,将诊断结果为流行性感冒且患者为41-60岁的已有医疗文本分为一组,将诊断结果为流行性感冒且患者为60岁以上的已有医疗文本分为一组。
121.通过属性标签可以粗略的对已有医疗文本进行分组,以分组为单位有针对性地、均匀地对各类医疗文本进行数据增强,相对于盲目复制的方式,更能实现增强数据的多样性。
122.在一实施例中,步骤206具体包括:
123.在保持目标分组已有医疗文本数量不变的情况下,按照目标分组对应已设定的数据分布比例,对目标分组的相似医疗文本和已有医疗文本进行混合,得到对目标分组进行数据增强后的医疗文本,其中,目标分组为所有分组中的任意一个分组。
124.具体地,以分组为单位,按照对应的数据分布比例,将一个分组中得到的所有相似医疗文本与该分组的所有已有医疗文本混合,以对已有医疗文本进行数据增强。
125.或者,以分组为单位,按照对应的数据分布比例,将相似度低的相似医疗文本剔除后,将一个分组中保留的相似医疗文本与所有已有医疗文本混合,以对已有医疗文本进行数据增强。
126.如果相似医疗文本的数量不足,可以通过复制相似医疗文本的方式进行文本补足。
127.不同分组对应的数据分布比例可以相同,也可以不同。
128.另外,对所有分组数据增强后的医疗文本进行混合,得到数据增强后的医疗文本。
129.本实施例可以根据分组对应的数据分布比例分别对不同分组进行不同比例的混合,实现有针对性的数据增强。
130.对数据增强后得到的医疗文本形成的数据集可以用于不同任务的模型训练,例如训练疾病诊断、药品推荐等模型。其中对于疾病诊断模型,对于某些疾病训练数据量较少的情况,应用本方案提出的数据增强的方法,可以获取额外的具有代表性和多样性的数据,应用数据增强后的数据进行模型训练,能够提升模型的诊断准确率。
131.本技术提出的一种医疗文本数据的数据增强方法,基于先进的语言生成模型以及句子语义相似度计算的方法建立了医疗文本数据增强的方法。相较于已有技术通过对医疗文本进行简单复制来进行数据增强,增加的医疗文本数据不具有代表性和多样性,本技术针对已有技术的不足,能够生成更具代表性并且更多样的数据,丰富数据的种类和数量,从而提高应用增强后的数据进行建模的模型的泛化能力和准确率。本技术提出的一种医疗文本数据的数据增强方法应用广泛,通过数据增强的得到数据集可以用不同任务例如疾病诊断、药品推荐、症状识别等模型的训练,相较于应用原有数据集进行模型提升了模型的性
能。
132.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
133.在一实施例中,提供一种医疗文本数据的数据增强装置,该医疗文本数据的数据增强装置与上述实施例中医疗文本数据的数据增强方法一一对应。如图4所示,该医疗文本数据的数据增强装置包括:聚类模块101、权重计算模块102、采样模块103、文本生成模块104和数据增强模块105。各功能模块详细说明如下:
134.聚类模块101,用于对已有医疗文本进行聚类,得到聚类结果;
135.权重计算模块102,用于根据聚类结果,获取每个已有医疗文本的权重;
136.采样模块103,用于根据所有已有医疗文本的权重,建立抽样总体,从抽样总体中进行采样,得到采样医疗文本,其中,抽样总体中包含所有已有医疗文本,且抽样总体中所有已有医疗文本的数量按照权重配置;
137.文本生成模块104,用于生成采样医疗文本对应的相似医疗文本;
138.数据增强模块105,用于利用生成的相似医疗文本对已有医疗文本进行数据增强。
139.在一实施例中,提供一种医疗文本数据的数据增强装置,该医疗文本数据的数据增强装置与上述实施例中医疗文本数据的数据增强方法一一对应。如图5所示,该医疗文本数据的数据增强装置包括:分组模块201、聚类模块202、权重计算模块203、采样模块204、文本生成模块205和数据增强模块206。各功能模块详细说明如下:
140.分组模块201,用于根据属性标签对已有医疗文本进行分组;
141.聚类模块202,用于对同一个分组中的已有医疗文本进行聚类,得到每个分组对应的聚类结果;
142.权重计算模块203,用于根据目标分组的聚类结果,获取在目标分组中每个已有医疗文本的权重,其中,目标分组为所有分组中的任意一个分组;
143.采样模块204,用于根据目标分组中所有已有医疗文本的权重,建立目标分组对应的抽样总体,从目标分组的抽样总体中进行采样,得到目标分组对应的采样医疗文本,其中,目标分组的抽样总体中包含目标分组的所有已有医疗文本,且目标分组的抽样总体中所有已有医疗文本的数量按照权重配置;
144.文本生成模块205,用于生成采样医疗文本对应的相似医疗文本;
145.数据增强模块206,用于利用生成的相似医疗文本对已有医疗文本进行数据增强。
146.在一实施例中,该装置还包括:
147.相似度检查模块,用于对相似医疗文本与对应的采样医疗文本进行语义相似度检查;
148.筛选模块,用于根据得到的检查结果,将指示语义相似度低于相似度阈值的相似医疗文本剔除。
149.在一实施例中,一个聚类结果包括多个聚类簇,权重计算模块203具体包括:
150.第一计算模块,用于计算目标聚类簇所包含的已有医疗文本的数量与目标聚类簇对应的目标分组所包含的已有医疗文本的数量的比值,得到目标聚类簇的簇权重,其中,目标聚类簇为目标分组的聚类结果中的任意一个聚类簇;
151.第二计算模块,用于计算目标已有医疗文本与所在的目标聚类簇的聚类中心的距离作为第一距离,计算在目标聚类簇中已有医疗文本到聚类中心的最远距离,计算第一距离的倒数与最远距离的比值,得到目标已有医疗文本的文本权重,其中,目标已有医疗文本为目标聚类簇中的任意一个已有医疗文本;
152.第三计算模块,用于将目标已有医疗文本对应的簇权重和文本权重相乘,得到目标已有医疗文本的权重。
153.在一实施例中,数据增强模块105或数据增强模块206具体包括:
154.第一数据增强模块,用于将所有的相似医疗文本混合至所有的已有医疗文本中,得到数据增强后的医疗文本;
155.或者,
156.第二数据增强模块,用于在保持已有医疗文本数量不变的情况下,按照预设混合比例,对相似医疗文本和已有医疗文本进行混合,得到数据增强后的医疗文本。
157.在一实施例中,分组模块201具体包括:
158.标签组合单元,用于基于模型任务目的,确定用于分类的目标属性标签组合,其中,目标属性标签组合包括至少一种属性标签;
159.分组单元,用于根据目标属性标签组合,对已有医疗文本进行分组。
160.在一实施例中,数据增强模块206,具体用于在保持目标分组已有医疗文本数量不变的情况下,按照目标分组对应已设定的数据分布比例,对目标分组的相似医疗文本和已有医疗文本进行混合,得到对目标分组进行数据增强后的医疗文本,其中,目标分组为所有分组中的任意一个分组。
161.关于医疗文本数据的数据增强装置的具体限定可以参见上文中对于医疗文本数据的数据增强方法的限定,在此不再赘述。上述医疗文本数据的数据增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
162.在一个实施例中,提供了一种计算机设备,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗文本数据的数据增强方法的功能或步骤。
163.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
164.对已有医疗文本进行聚类,得到聚类结果;
165.根据聚类结果,获取每个已有医疗文本的权重;
166.根据所有已有医疗文本的权重,建立抽样总体,从抽样总体中进行采样,得到采样医疗文本,其中,抽样总体中包含所有已有医疗文本,且抽样总体中所有已有医疗文本的数量按照权重配置;
167.生成采样医疗文本对应的相似医疗文本;
168.利用生成的相似医疗文本对已有医疗文本进行数据增强。
169.本实施例通过聚类获取到每个已有医疗文本的权重,根据权重构建由已有医疗文本构成的抽样总体,从抽样总体中进行采样,权重越高代表该已有医疗文本越具有代表性且在抽样总体中占比越大,越可能被抽样到,因此最终得到的采样医疗文本具有代表性和多样性,同理,根据采样医疗文本生成的相似医疗文本也具有代表性和多样性;另外,本技术并非通过简单复制来扩充数据,而是通过生成相似医疗文本来扩充数据,因此,得到的相似医疗文本相较于文本复制而言更具有多样性和丰富性,通过相似医疗文本来扩充已有医疗文本,得到的数据增强后的医疗文本可以帮助不同任务的模型训练实现显著的模型性能提升,增加模型的鲁棒性。
170.或者,
171.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
172.根据属性标签对已有医疗文本进行分组;
173.对同一个分组中的已有医疗文本进行聚类,得到每个分组对应的聚类结果;
174.根据目标分组的聚类结果,获取在目标分组中每个已有医疗文本的权重,其中,目标分组为所有分组中的任意一个分组;
175.根据目标分组中所有已有医疗文本的权重,建立目标分组对应的抽样总体,从目标分组的抽样总体中进行采样,得到目标分组对应的采样医疗文本,其中,目标分组的抽样总体中包含目标分组的所有已有医疗文本,且目标分组的抽样总体中所有已有医疗文本的数量按照权重配置;
176.生成采样医疗文本对应的相似医疗文本;
177.利用生成的相似医疗文本对已有医疗文本进行数据增强。
178.本实施例通过聚类获取到每个已有医疗文本的权重,根据权重构建由已有医疗文本构成的抽样总体,从抽样总体中进行采样,权重越高代表该已有医疗文本越具有代表性且在抽样总体中占比越大,越可能被抽样到,因此最终得到的采样医疗文本具有代表性和多样性,同理,根据采样医疗文本生成的相似医疗文本也具有代表性和多样性;另外,本技术并非通过简单复制来扩充数据,而是通过生成相似医疗文本来扩充数据,因此,得到的相似医疗文本相较于文本复制而言更具有多样性和丰富性;再次,本实施例预先对已有医疗文本进行分组,按照分组分别进行数据增强,得到的相似医疗文本更贴近已有医疗文本,保证数据丰富性的同时还能保证生成的数据与已有医疗文本具有代表性和相似性,通过相似医疗文本来扩充已有医疗文本,得到的数据增强后的医疗文本可以帮助不同任务的模型训练实现显著的模型性能提升,增加模型的鲁棒性。
179.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
180.对已有医疗文本进行聚类,得到对应的聚类结果;
181.根据聚类结果,获取每个已有医疗文本的权重;
182.根据所有已有医疗文本的权重,建立抽样总体,从抽样总体中进行采样,得到采样医疗文本,其中,抽样总体中包含所有已有医疗文本,且抽样总体中所有已有医疗文本的数
量按照权重配置;
183.生成采样医疗文本对应的相似医疗文本;
184.利用生成的相似医疗文本对已有医疗文本进行数据增强。
185.本实施例通过聚类获取到每个已有医疗文本的权重,根据权重构建由已有医疗文本构成的抽样总体,从抽样总体中进行采样,权重越高代表该已有医疗文本越具有代表性且在抽样总体中占比越大,越可能被抽样到,因此最终得到的采样医疗文本具有代表性和多样性,同理,根据采样医疗文本生成的相似医疗文本也具有代表性和多样性;另外,本技术并非通过简单复制来扩充数据,而是通过生成相似医疗文本来扩充数据,因此,得到的相似医疗文本相较于文本复制而言更具有多样性和丰富性,通过相似医疗文本来扩充已有医疗文本,得到的数据增强后的医疗文本可以帮助不同任务的模型训练实现显著的模型性能提升,增加模型的鲁棒性。
186.或者,
187.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
188.根据属性标签对已有医疗文本进行分组;
189.对同一个分组中的已有医疗文本进行聚类,得到每个分组对应的聚类结果;
190.根据目标分组的聚类结果,获取在目标分组中每个已有医疗文本的权重,其中,目标分组为所有分组中的任意一个分组;
191.根据目标分组中所有已有医疗文本的权重,建立目标分组对应的抽样总体,从目标分组的抽样总体中进行采样,得到目标分组对应的采样医疗文本,其中,目标分组的抽样总体中包含目标分组的所有已有医疗文本,且目标分组的抽样总体中所有已有医疗文本的数量按照权重配置;
192.生成采样医疗文本对应的相似医疗文本;
193.利用生成的相似医疗文本对已有医疗文本进行数据增强。
194.本实施例通过聚类获取到每个已有医疗文本的权重,根据权重构建由已有医疗文本构成的抽样总体,从抽样总体中进行采样,权重越高代表该已有医疗文本越具有代表性且在抽样总体中占比越大,越可能被抽样到,因此最终得到的采样医疗文本具有代表性和多样性,同理,根据采样医疗文本生成的相似医疗文本也具有代表性和多样性;另外,本技术并非通过简单复制来扩充数据,而是通过生成相似医疗文本来扩充数据,因此,得到的相似医疗文本相较于文本复制而言更具有多样性和丰富性;再次,本实施例预先对已有医疗文本进行分组,按照分组分别进行数据增强,得到的相似医疗文本更贴近已有医疗文本,保证数据丰富性的同时还能保证生成的数据与已有医疗文本具有代表性和相似性,通过相似医疗文本来扩充已有医疗文本,得到的数据增强后的医疗文本可以帮助不同任务的模型训练实现显著的模型性能提升,增加模型的鲁棒性。
195.需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧以及客户端侧的相关描述,为避免重复,这里不再一一描述。
196.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读
取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
197.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
198.以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
技术特征:
1.一种医疗文本数据的数据增强方法,其特征在于,所述方法包括:对已有医疗文本进行聚类,得到聚类结果;根据所述聚类结果,获取每个已有医疗文本的权重;根据所有已有医疗文本的权重,建立抽样总体,从所述抽样总体中进行采样,得到采样医疗文本,其中,所述抽样总体中包含所有已有医疗文本,且所述抽样总体中所有已有医疗文本的数量按照所述权重配置;生成所述采样医疗文本对应的相似医疗文本;利用生成的所述相似医疗文本对所述已有医疗文本进行数据增强。2.如权利要求1所述的医疗文本数据的数据增强方法,其特征在于,所述对已有医疗文本进行聚类,得到聚类结果,包括:根据属性标签对所述已有医疗文本进行分组,对同一个分组中的已有医疗文本进行聚类,得到每个所述分组对应的聚类结果;所述根据所述聚类结果,获取每个已有医疗文本的权重,包括:根据目标分组的聚类结果,获取在所述目标分组中每个已有医疗文本的权重,其中,所述目标分组为所有分组中的任意一个分组;所述根据所有已有医疗文本的权重,建立抽样总体,从所述抽样总体中进行采样,得到采样医疗文本,包括:根据目标分组中所有已有医疗文本的权重,建立所述目标分组对应的抽样总体,从所述目标分组的抽样总体中进行采样,得到所述目标分组对应的采样医疗文本,其中,所述目标分组的抽样总体中包含所述目标分组的所有已有医疗文本,且所述目标分组的抽样总体中所有已有医疗文本的数量按照所述权重配置。3.如权利要求1或2所述的医疗文本数据的数据增强方法,其特征在于,在利用生成的所述相似医疗文本对所述已有医疗文本进行数据增强之前,所述方法还包括:对所述相似医疗文本与对应的采样医疗文本进行语义相似度检查;根据得到的检查结果,将指示语义相似度低于相似度阈值的相似医疗文本剔除。4.如权利要求2所述的医疗文本数据的数据增强方法,其特征在于,一个聚类结果包括多个聚类簇,所述根据目标分组的聚类结果,获取在所述目标分组中每个已有医疗文本的权重,包括:计算目标聚类簇所包含的已有医疗文本的数量与所述目标聚类簇对应的目标分组所包含的已有医疗文本的数量的比值,得到所述目标聚类簇的簇权重,其中,所述目标聚类簇为所述目标分组的聚类结果中的任意一个聚类簇;计算目标已有医疗文本与所在的目标聚类簇的聚类中心的距离作为第一距离,计算在所述目标聚类簇中已有医疗文本到所述聚类中心的最远距离,计算所述第一距离的倒数与所述最远距离的比值,得到所述目标已有医疗文本的文本权重,其中,所述目标已有医疗文本为所述目标聚类簇中的任意一个已有医疗文本;将所述目标已有医疗文本对应的簇权重和文本权重相乘,得到所述目标已有医疗文本的权重。5.如权利要求1或2所述的医疗文本数据的数据增强方法,其特征在于,所述利用生成的所述相似医疗文本对所述已有医疗文本进行数据增强,包括:将所有的相似医疗文本混合至所有的已有医疗文本中,得到数据增强后的医疗文本;或者,
在保持已有医疗文本数量不变的情况下,按照预设混合比例,对相似医疗文本和已有医疗文本进行混合,得到数据增强后的医疗文本。6.如权利要求2所述的医疗文本数据的数据增强方法,其特征在于,所述根据属性标签对所述已有医疗文本进行分组,包括:基于模型任务目的,确定用于分类的目标属性标签组合,其中,所述目标属性标签组合包括至少一种属性标签;根据所述目标属性标签组合,对已有医疗文本进行分组。7.如权利要求6所述的医疗文本数据的数据增强方法,其特征在于,所述利用生成的所述相似医疗文本对所述已有医疗文本进行数据增强,包括:在保持目标分组已有医疗文本数量不变的情况下,按照所述目标分组对应已设定的数据分布比例,对所述目标分组的相似医疗文本和已有医疗文本进行混合,得到对所述目标分组进行数据增强后的医疗文本,其中,所述目标分组为所有分组中的任意一个分组。8.一种医疗文本数据的数据增强装置,其特征在于,所述装置包括:聚类模块,用于对已有医疗文本进行聚类,得到聚类结果;权重计算模块,用于根据所述聚类结果,获取每个已有医疗文本的权重;采样模块,用于根据所有已有医疗文本的权重,建立抽样总体,从所述抽样总体中进行采样,得到采样医疗文本,其中,所述抽样总体中包含所有已有医疗文本,且所述抽样总体中所有已有医疗文本的数量按照所述权重配置;文本生成模块,用于生成所述采样医疗文本对应的相似医疗文本;数据增强模块,用于利用生成的所述相似医疗文本对所述已有医疗文本进行数据增强。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述医疗文本数据的数据增强方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述医疗文本数据的数据增强方法的步骤。
技术总结
本发明涉及人工智能及智慧医疗技术领域,公开了一种医疗文本数据的数据增强方法、装置、设备及介质,包括:对已有医疗文本进行聚类,得到聚类结果;根据聚类结果,获取每个已有医疗文本的权重;根据所有已有医疗文本的权重,建立抽样总体,从抽样总体中进行采样,得到采样医疗文本;生成采样医疗文本对应的相似医疗文本;利用生成的相似医疗文本对已有医疗文本进行数据增强。本申请通过采样具有代表性的采样医疗文本,生成相似医疗文本,可以更丰富、更多样性地扩充数据,实现更多样化的数据增强。强。强。
技术研发人员:唐蕊
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.20
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/