一种基于多特征提取的医学实体关系方法
未命名
10-20
阅读:71
评论:0
1.本发明基于深度学习技术,研究了一种基于多特征提取的医学实体关系方法。首先,使用数据集对roberta模型进行微调来精化字符嵌入,提取文本重要特征。然后利用cnn模型补充模型训练过程中的局部语义特征。与此同时,利用bigru模型挖掘文本的全局语义特征,并通过注意力机制关注模型学习过程中的重要特征。最终将局部语义特征与全局语义特征融合,输送给crf模型。最后利用crf模型对语义特征提取层的输出序列进行处理,结合crf模型中的状态转移矩阵,完成标签序列的预测。
背景技术:
2.关系抽取作为自然语言处理(natural language processing,nlp)领域的基础性任务之一,同时对自然语言处理的发展也产生着一定的影响。关系抽取是从文本中挖掘数据的重要步骤,具有极高的研究价值和应用价值。特别是在医学领域中,医学关系抽取主要目的是识别电子病历中实体以及实体之间对应的关系,组成一个个关系三元组(头实体,关系,尾实体)。这些实体及实体关系能够被用于后续医疗电子病历信息的分析和研究中,比如构建临床信息决策系统、构建医疗领域的知识图谱等。
3.截至目前,基于深度学习的实体关系抽取方法已经被成功地应用到实体关系抽取中,该方法不需要耗费大量成本去构建字典、制定规则等。duan等人通过循环神经网络利用词向量和文档向量的方法提高实体和关系抽取的性能。岳琪等人将深度学习与知识图谱相结合,提出基于改进bert和双向rnn的模型,在关系抽取上采用bert-bigru-attention模型,模型准确率达到90%,在实体识别上采用bert-bilstm-crf模型,相比传统模型,准确率提高了2%。杨超男等人考虑到传统的实体关系模型不能充分考虑文档中不连续句子间的关系,导致模型抽取关系不精确,提出了融合bsru和胶囊网络的文档级实体关系抽取模型,该模型实现了多句子间关系融合,提高了并行化效率。刘柯等人考虑到样本间的关系分类不均衡、标注资料不足等问题,提出了chinese bert-bilstm-crf(cbbc)联合抽取模型,该模型利用bert模型来表示每个字符的向量表示,利用bilstm捕获文本句子的上下文信息,最后利用crf对标签进行预测。经过实验验证,该模型在精确率、召回率和f1值与主流的模型相比均有提高。
4.在电子病历关系抽取任务中,常常会遇到关系抽取任务中文本特征提取不充分及核心词表现弱等问题。本发明提出一种基于多特征提取的医学实体关系方法。首先,使用真实的中国医疗数据集预先对roberta模型进行了词嵌入精化,使其能够更精准的表示医学文本。然后在语义特征提取层,利用cnn模型补充训练过程中的局部语义特征,利用bigru模型挖掘文本的全局语义特征,并通过注意力机制关注模型训练过程中的重要特征。最后利用crf模型完成标签序列的预测。
技术实现要素:
5.本发明与已有的实体关系抽取方法不同,利用深度学习技术,从模型训练过程中,
学习局部特征和全局特征的角度出发,提出一种基于多特征提取的医学实体关系方法。本发明的模型架构如附图1所示,可分为以下四个部分:输入层、词嵌入层、语义特征提取层、crf层。
6.(1)输入层
7.数据集是由专业医学专家和团队的指导下手动标记的实体及其实体关系。
8.(2)词嵌入层
9.bert模型是近几年提出的一种新的语言表征模型,通过超大数据、巨大模型和极大的计算开销训练而成,在多项自然语言处理任务中取得了优异的效果。roberta和bert在结构上没有明显差异。通过使用数据集对roberta进行微调来精化字符嵌入,提取文本重要特征。
10.(3)语义特征提取层
11.利用cnn模型补充训练过程中的局部语义特征。因为bigru能够充分利用先验知识,获取有效的上下文信息。因此利用bigru模型挖掘文本的全局语义特征,并利用注意力机制关注重要特征。最终将局部语义特征与全局语义特征融合,输送到下一层。
12.(4)crf层
13.该层对语义特征提取层的输出序列进行处理,结合crf中的状态转移矩阵,完成标签序列的预测。
14.本发明与现有技术相比,具有以下明显的优势和有益效果:
15.首先,我们利用真实的中国医疗数据集预先对roberta模型进行了词嵌入精化,使其能够更精准的表示医学文本。其次,本发明提出了一种基于cnn-bigru多特征提取的方法,利用cnn模型补充训练过程中的局部语义特征,利用bigru模型挖掘文本的全局语义特征,并利用注意力机制关注重要特征。相比传统的实体关系抽取方法,本发明利用cnn来学习局部特征,bigru学习全局特征,丰富模型训练过程中的信息。通过一个真实中文医疗数据集进行实验验证,实验结果表明,本文提出方法优于其他先进模型,可以为医学领域的实体关系抽取技术提供新的技术支持。
附图说明:
16.图1、基于多特征提取实体关系架构图
17.图2、cnn模型局部特征提取架构图
18.图3、gru模型内部架构图
19.图4、bigru模型全局特征提取架构图
具体实施方式
20.根据上述描述,以下是一个具体的实施流程
21.步骤1:词嵌入层
22.我们使用真实的海量电子病历数据来对roberta模型进行微调。roberta模型输入由三部分组成:字嵌入、语义嵌入和位置嵌入,将它们求和得到一个输入序列。其中,字嵌入表示每个单词的字向量,语义嵌入表示每个单词在上下文中的向量表示,而位置嵌入则表示每个单词在句子中的位置。
23.由于roberta模型在词嵌入表示上具有强大的能力,因此,本文也将使用其构建词嵌入。句子通过roberta模型后的输出结果表示为x=[x1,x2,
…
xi,
…
,xn],其中x代表当前句子的特征表示。xi代表当前句子的第i个字符的特征表示,下标n是句子的长度。
[0024]
步骤2:语义特征提取层
[0025]
该层分为两个模块,cnn模块主要是提取句子中的局部语义特征。bigru-attention模块主要是通过bigru提取句子中的全局语义特征,并利用注意力机制来关注重要特征。
[0026]
步骤2.1:cnn模块(见附图2)
[0027]
cnn模型能有效地捕捉像素点与像素点间的局部依赖关系信息,因此最初被广泛的应用于计算机视觉。但后续研究发现,文本中字符或词语也能被建模成类似像素点一样的矩阵的形式,学者们也开始将cnn应用于自然语言处理领域,以提取字符间或词语间的局部依赖关系。在nlp领域中,cnn的输入是以矩阵表示的句子或者文档。矩阵的每一行对应一个字符或单词,即每行代表一个嵌入向量。
[0028]
我们设置卷积核大小来获取字符间的依赖信息。每一个字符的局部上下文表示如下:
[0029][0030]
其中,xi代表roberta层输出的第i字符嵌入式表示,zi表示第i个字符的局部上下文表示,we表示权重矩阵,它是一个可学习的参数,用于将输入向量映射到输出向量的空间。中的c表示表示上下文窗口的大小,它确定了在输入序列中要考虑的上下文范围。
[0031]
则对于当前文本,通过cnn提取局部特征之后的文本表示z如下公式所示:
[0032]
z=[z1,
…
,zi,
…zn
]
[0033]
其中z代表经过cnn模型后当前句子的特征表示。zi代表当前句子的第i个字符的特征表示,下标n是句子的长度。
[0034]
步骤2.2:bigru-attention
[0035]
步骤2.2.1:gru
[0036]
gru和lstm都是由rnn发展形成,lstm能够捕获长期依赖关系,适用于分析时间序列数据,lstm内部单元结构主要由遗忘门、输入门、输出门3个门结构和记忆细胞组成。而gru在lstm的基础上进行简化,得到只包含重置门和更新门的网络结构,减少网络复杂度的同时提高了计算效率。gru神经网络内部结构如附图3所示。
[0037]
附图3中z
t
和r
t
为更新门、重置门,h
t-1
为上一时刻的输入,h
t
为这一时刻的输出。
[0038]zt
=σ(w
zht-1
+wzx
t
+bz)
[0039]rt
=σ(w
rht-1
+wrx
t
+br)
[0040][0041][0042]
其中,z
t
和r
t
分别表示更新门和重置门,更新门控制前一时刻的状态信息被带入到当前状态中的程度,重置门控制前一状态有多少信息被写入到当前的候选集上;x
t
为t时刻的输入;h
t
为t时刻gru神经单元的输出;σ是sigmoid函数:wz、wr和w分别是更新门、重置门和候选隐层状态的权重矩阵;bz、br和bh分别是更新门、重置门和侯选隐层状态的偏置项。
[0043]
步骤2.2.2:bigru
[0044]
在时间序列中,为充分考虑数据正反向的信息规律,bigru由正向传播和反向传播的双向循环神经网络构成。
[0045]
对于正向捕捉,隐藏层输出a
t
计算公式如下:
[0046]
(1)计算遗忘门,选择要遗忘的信息。为前一时刻的正向隐藏层状态,v
t
为当前时刻输入词的特征向量,为遗忘门值,wf为正向传播的权重矩阵,bf为正向传播的偏置向量,σ()表示sigmoid函数,它是一种常用的激活函数,用于将输入值映射到0到1之间的范围。
[0047][0048]
(2)计算记忆门,选择要记忆的信息。为记忆门的值,为临时细胞状态,wi、wc为正向传播的权重矩阵,bi,bc为正向传播的偏置向量。
[0049][0050][0051]
(3)计算当前时刻细胞状态。为当前时刻细胞状态,为上一时刻细胞状态。
[0052][0053]
(4)计算输出门和当前时刻隐藏层状态。为输出门的值,a
t
为当前时刻正向隐藏层输出向量,维度为h。tanh()是双曲正切函数,用于将实数映射到区间(-1,1)之间的值。wo为正向传播的权重矩阵,bo为正向传播的偏置向量。
[0054][0055][0056]
对于反向捕捉,隐藏层输出b
t
的计算过程与此类似,不再赘述。bigru模型最终的输出结果v
t
由正向隐藏层输出a
t
和反向隐藏层输出b
t
的融合生成,计算公式如下:
[0057]vt
=q1a
t
+q2b
t
+θ
[0058]
其中q1,q2和θ是bigru模型在训练过程中需要学习的参数,q1,q2的维度为(h,k),k是待定维度,θ是一个维度为k的向量。u
t
为句子中第t个字的全局特征。bigru模型输出的句子表示为v=[v1,v2,...,vn],其中v代表经过bigru模型后当前句子的特征表示。vn代表当前句子的第n个字符的特征表示。
[0059]
步骤2.2.3:attention
[0060]
注意力机制是模仿人类注意力而提出的一种资源分配机制,其主要使用权重分配的方式突出各个节点之间的关键信息,通过保留神经网络的中间结果,用新的模型对其进行学习,并将其与输出进行关联,减少甚至忽略对其他区域的关注,从而达到信息筛选目的。因此,在对较长的时间数据序列和多维特征处理方面通常引入注意力机制来提高模型对相应特征的挖掘能力。
[0061]
注意力机制权重的计算如下:
[0062]
kj=tanh(w
wvi
+bw)
[0063][0064]
在上述第一个公式中,ki表示第j个注意力机制中的输出向量。vi表示当前句子的第i个字符的输入特征。ww表示权重矩阵,用于将输入向量vi转换为输出向量kj。是双曲正切函数,它将线性变换的结果映射到范围在[-1,1]之间的值。bw是注意力机制中的偏置向量,用于调整输出向量kj。在第二个公式中,t表示转置,αi表示归一化后为第i个字符分配的注意力权重。nw表示权重向量,用于计算注意力权重。exp(x)表示指数函数,计算e的x次幂。表示n个字符的注意力机制求和将其与bigru模型输出的v=[v1,v2,...,vn]中的每一个特征表示进行加权,具体的计算过程如下:
[0065]
e=[e1,e2,...,en]=[α1v1,α2v2,
…
,αnvn]
[0066]
即得到当前句子的最终表示e=[e1,e2,...,en],其中e代表经过bigru-attention模型后当前句子的特征表示。en代表当前句子的第n个字符的特征表示。
[0067]
步骤2.3:多特征融合
[0068]
语义特征提取层的最终输出o是由cnn模型提取的特征与bigru-attention模型提取的特征的融合得到,用数学表达式表示为:
[0069]
oi=zi+ei[0070]
其中,ei为句子中第i个字的全局特征,是bigru-attention的输出特征,zi为句子中第i个字的局部特征,是cnn模型的输出特征。则该层模型最终的输出序列为o=[o1,o2,...,on]。其中o代表经过bigru-attention模型与cnn模型特征融合后,当前句子的特征表示。on代表当前句子的第n个字符的特征表示。
[0071]
步骤3:crf层
[0072]
该层的主要作用是对标签进行预测。在训练数据的过程中,该层自动学习标签之间的约束,确保预测的标签是合法的。在crf中,特征函数表示观测序列和标签序列之间的关联,用于建模条件概率。特征函数可以根据任务需求和特征设计者的判断而定义,通常基于观测序列的局部特征。假设有k个特征函数,表示为fk(y|x),其中k=1,2,...,k。x为观测序列,y为标签序列。对于每个特征函数fk(y|x),都有一个对应的权重参数λk。权重参数表示了特征函数对标签序列的影响程度。标签序列的条件概率p(y|x)使用以下公式计算:
[0073][0074]
其中z(x)是归一化因子,用于保证所有可能的标签序列的概率和为1。它是一个规范化常数,可以通过对所有标签序列的得分进行求和来计算。sk(y|x)是特征函数fk(y|x)的加权和,用来表示观测序列和标签序列之间的相容度或相关度。
技术特征:
1.一种基于多特征提取的医学实体关系方法,其特征在于:首先,使用数据集对roberta模型进行微调来精化字符嵌入,提取文本重要特征;然后利用cnn模型补充模型训练过程中的局部语义特征;与此同时,利用bigru模型挖掘文本的全局语义特征,并通过注意力机制关注模型学习过程中的重要特征;最终将局部语义特征与全局语义特征融合,输送给crf模型;最后利用crf模型对语义特征提取层的输出序列进行处理,结合crf模型中的状态转移矩阵,完成标签序列的预测。2.根据权利要求1所述的检测方法,其特征在于:步骤1:词嵌入层使用真实的海量电子病历数据来对roberta模型进行微调;roberta模型的输入是电子病历中的句子,输出是句子中每个字符的特征向量;句子通过roberta模型后的输出结果表示为x=[x1,x2,
…
,x
n
],其中x代表当前句子的特征表示;x
n
代表当前句子的第n个字符的特征表示;步骤2:语义特征提取层该层分为两个模块,cnn模块提取句子中的局部语义特征;bigru-attention模块通过bigru提取句子中的全局语义特征,并利用注意力机制来关注重要特征;步骤2.1:cnn模块cnn模型的输入是roberta模型输出结果x=[x1,x2,
…
,x
n
];通过cnn提取局部特征之后的句子表示为z=[z1,
…
,z
i
,
…
z
n
],其中z代表经过cnn模型后当前句子的特征表示;z
n
代表当前句子的第n个字符的特征表示;步骤2.2:bigru-attention步骤2.2.1:bigru在时间序列中,为充分考虑数据正反向的信息规律,bigru由正向传播和反向传播的双向循环神经网络构成;bigru模型的输入是roberta模型输出结果x=[x1,x2,
…
,x
n
];bigru模型最终的输出结果为v=[v1,v2,...,v
n
],其中v代表经过bigru模型后当前句子的特征表示;v
n
代表当前句子的第n个字符的特征表示;步骤2.2.2:attentionα
i
表示归一化后为第i个字符分配的注意力权重;得到全部字符的注意力权重后,将其与bigru模型输出的v=[v1,v2,...,v
n
]中的每一个特征表示进行加权,具体的计算过程如下:e=[e1,e2,...,e
n
]=[α1v1,α2v2,
…
,α
n
v
n
]即得到当前句子的最终表示e=[e1,e2,...,e
n
],其中e代表经过bigru-attention模型后当前句子的特征表示;e
n
代表当前句子的第n个字符的特征表示;步骤2.3:多特征融合语义特征提取层的最终输出o是由cnn模型提取的特征与bigru-attention模型提取的特征的融合得到,用数学表达式表示为:o
i
=z
i
+e
i
其中,e
i
为句子中第i个字的全局特征,是bigru-attention的输出特征,z
i
为句子中第i个字的局部特征,是cnn模型的输出特征;则该层模型最终的输出序列为o=[o1,o2,...,o
n
];其中o代表经过bigru-attention模型与cnn模型特征融合后,当前句子的特征表示;o
n
代表当前句子的第n个字符的特征表示;步骤3:crfcrf层对语义特征提取层的输出序列o=[o1,o2,...,o
n
]进行处理,结合crf中的状态转移矩阵,完成标签序列的预测。
技术总结
一种基于多特征提取的医学实体关系方法属于深度学习技术领域。首先,使用数据集对RoBERTa模型进行微调来精化字符嵌入,提取文本重要特征。然后利用CNN模型补充模型训练过程中的局部语义特征。与此同时,利用BiGRU模型挖掘文本的全局语义特征,并通过注意力机制关注模型学习过程中的重要特征。最终将局部语义特征与全局语义特征融合,输送给CRF模型。最后利用CRF模型对语义特征提取层的输出序列进行处理,结合CRF模型中的状态转移矩阵,完成标签序列的预测。本发明准确的抽取电子病历中的实体关系。体关系。体关系。
技术研发人员:李建强 李大伟
受保护的技术使用者:北京工业大学
技术研发日:2023.07.11
技术公布日:2023/10/8
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/