使用域特定的自然语言处理模型对文档进行分类的制作方法

未命名 09-24 阅读:81 评论:0

使用域特定的自然语言处理模型对文档进行分类
相关申请的交叉引用
1.本技术要求2020年12月9日提交的美国临时申请号:63/123,336的优先权,其内容通过引用整体结合到本文。


背景技术:

2.诸如公司,政府机构,教育机构等的实体经常接收数千个文档,这些文档包括文本,图像,图表,表格和其它形式的数据/信息/知识表示的组合。这些文档可以是不同类型的,包括microsoft word,microsoft excel文档,png,tiff,jpg,raw,gif,pdf,电子邮件,txt文件,手写注释,html,xml扫描文档等。基于这些文档的内容对这些文档进行手动分类和优先级排序可能是一项繁重且容易出错的任务。实体已尝试使用某些机器学习算法(例如自然语言处理(nlp))来使该过程自动化。然而,传统的nlp模型常常缺少对文档的准确分类。例如,传统的nlp模型不能将域特定的标签分配给单词或短语以准确地对文档进行分类。
3.此外,手动提取信息或高度智能的第三方工具,以可接受的精确度(例如,光学字符识别(ocr))来提取每个pdf的文本内容、并且以机器可读的格式正确地提取这些数据并将这些数据拼凑回来,是繁重的、耗时的、并且容易出错的。此外,当试图从文档中提取文本时,实现传统机器学习模型的传统方法可能面临许多障碍,例如光学清晰度,字母数字字符,取向等。因此,对文档进行分类和优先级排序的传统方法可能是繁重的,昂贵的和容易出错的。


技术实现要素:

4.本文提供了用于使用域特定的nlp模型对文档进行分类的系统,装置,设备,方法和/或计算机程序产品实施例,和/或其组合和子组合。
5.在给定实施例中,一种用于对文档进行分类的方法包括以下步骤:由一个或多个计算设备接收一组文档和用于该组文档中的每个文档的元数据。一组文档对应于一个域。该方法还包括由一个或多个计算设备为该一组文档中的每个文档生成一组单词嵌入。每个单词嵌入包括来自相应文档的一个或多个单词。所述方法还包括由所述一个或多个计算设备将所述一组单词嵌入中的每个单词嵌入令牌化为一组段。每个段包括来自单词嵌入的单词。此外,所述方法包括由所述一个或多个计算设备训练学习模型以通过递归地进行以下步骤来对所述域的所述一组文档中的每个文档进行分类:由所述一个或多个计算设备将所述一组文档中的每个文档的所述一组段中的每个段分解为一组特征;由所述一个或多个计算设备基于分配给对应段的所述一组特征中的每个特征的预定权重,将词性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;由所述一个或多个计算设备基于分配给所述对应段的所述词性标注和分配给对应字符串的所述一组特征中的每个特征的预定权重,将依赖性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;由所述一个或多个计算设备,基于分配给所述对应段的所述词性标注和所述依赖性标注、以及分
配给所述对应段的所述一组特征中的每个特征的所述预定权重,将来自于对应于所述域的一组预定标签的命名实体识别(ner)标签分配给所述一组文档中的每个文档的所述一组段中的每个段;以及由所述一个或多个计算设备通过将每个文档的所述元数据与所述相应文档的所分配的所述ner标签进行比较来验证所分配的ner标签。
6.在给定实施例中,分类文档的系统包括存储器和耦合到存储器的处理器。处理器被配置为接收一组文档和所述一组文档中的每个文档的元数据。所述一组文档对应于域。所述处理器进一步经配置以为所述一组文档中的每个文档生成一组单词嵌入。每个单词嵌入包括来自相应文档的一个或多个单词。所述处理器进一步经配置以将所述一组单词嵌入中的每个单词嵌入令牌化为一组段。每个段包括来自所述单词嵌入的单词。此外,所述处理器还被配置为训练学习模型,以通过递归地进行以下步骤来对所述域的所述一组文档中的每个文档进行分类:将所述一组文档中的每个文档的所述一组段中的每个段分解为一组特征;基于分配给对应段的所述一组特征中的每个特征的预定权重,将词性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;基于分配给所述对应段的所述词性标注和分配给对应字符串的所述一组特征中的每个特征的预定权重,将依赖性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;基于分配给所述对应段的所述词性标注和所述依赖性标注、以及分配给所述对应段的所述一组特征中的每个特征的所述预定权重,将来自于对应于所述域的一组预定标签的命名实体识别(ner)标签分配给所述一组文档中的每个文档的所述一组段中的每个段;以及通过将每个文档的所述元数据与所述相应文档的所分配的所述ner标签进行比较来验证所分配的ner标签。
7.在给定实施例中,一种其上存储有指令的非暂时性计算机可读介质,所述指令被设备的一个或多个处理器执行时,使所述一个或多个处理器执行包括以下的操作:接收一组文档和所述一组文档中的每个文档的元数据。所述一组文档对应于域。该操作还包括为所述一组文档中的每个文档生成一组单词嵌入.每个单词嵌入包括来自相应文档的一个或多个单词。所述操作还包括将所述一组单词嵌入中的每个单词嵌入令牌化为一组段.每个段包括来自所述单词嵌入的单词。此外,所述操作包括训练学习模型,以通过递归地进行以下步骤来对所述域的所述一组文档中的每个文档进行分类:将所述一组文档中的每个文档的所述一组段中的每个段分解为一组特征;基于分配给对应段的所述一组特征中的每个特征的预定权重,将词性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;基于分配给所述对应段的所述词性标注和分配给对应字符串的所述一组特征中的每个特征的预定权重,将依赖性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;基于分配给所述对应段的所述词性标注和所述依赖性标注、以及分配给所述对应段的所述一组特征中的每个特征的所述预定权重,将来自对应于所述域的一组预定标签的命名实体识别(ner)标签分配给所述一组文档中的每个文档的所述一组段中的每个段;以及通过将每个文档的所述元数据与所述相应文档的所分配的所述ner标签进行比较来验证所分配的ner标签。
8.在给定实施例中,一种用于对文档进行分类的方法包括:由一个或多个计算设备接收对与域相对应的文档进行分类的请求;由所述一个或多个计算设备生成包括所述文档的一个或多个单词的单词嵌入;由所述一个或多个计算设备将与所述域相对应的所述单词嵌入令牌化为一组段;由所述一个或多个计算设备将所述文档的一个或多个字符串中的每
个字符串分解为一组新特征;由所述一个或多个计算设备使用经训练的学习模型,基于分配给对应段的所述一组特征中的每个特征的预定权重,将词性标注分配给所述新文档的所述一组段中的每个新段;由所述一个或多个计算设备使用所述经训练的学习模型,基于分配给所述对应段的所述词性标注和分配给所述对应段的所述一组特征中的每个特征的所述预定权重,将依赖性标注分配给所述文档的所述一组段中的每个段;由所述一个或多个计算设备使用所述经训练的学习模型,基于分配给所述对应段的所述词性标注和所述依赖性标注、以及分配给所述对应段的所述一组特征中的每个特征的所述预定权重,将来自与所述域相对应的一组预定标签的ner标签分配给所述文档的所述一组段中的每个段;和由所述一个或多个计算设备使用所述经训练的学习模型,基于分配的ner标签对与所述域相对应的所述文档进行分类。
9.在给定实施例中,一种用于训练nlp模型的方法包括以下步骤:由一个或多个计算设备接收一组文档和用于该组文档中的每个文档的元数据。该组文件对应于药物警戒。该方法还包括由一个或多个计算设备为该一组文档中的每个文档生成一组单词嵌入。每个单词嵌入包括来自相应文档的一个或多个单词。所述方法还包括由所述一个或多个计算设备将所述一组单词嵌入中的每个单词嵌入令牌化为一组段。每个段包括来自单词嵌入的单词。此外,所述方法包括由所述一个或多个计算设备训练学习模型,以通过递归地进行以下步骤来对所述一组文档中的每个文档进行分类:由所述一个或多个计算设备将所述一组文档中的每个文档的所述一组段中的每个段分解为一组特征;由所述一个或多个计算设备基于分配给对应段的所述一组特征中的每个特征的预定权重,将词性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;由所述一个或多个计算设备基于分配给所述对应段的所述词性标注和分配给对应字符串的所述一组特征中的每个特征的预定权重,将依赖性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;由所述一个或多个计算设备基于分配给所述对应段的所述词性标注和所述依赖性标注、以及分配给所述对应段的所述一组特征中的每个特征的所述预定权重,将来自对应于所述域的一组预定标签的命名实体识别(ner)标签分配给所述一组文档中的每个文档的所述一组段中的每个段;和由所述一个或多个计算设备通过将每个文档的所述元数据与所述相应文档的所分配的所述ner标签进行比较来验证所分配的ner标签。响应于完全训练所述学习模型,所述学习模型被配置为基于病例有效性,严重性,病死率和因果关系对药物警戒文档进行分类。
10.在给定的实施例中,一种使用自然语言处理(nlp)模型对药物警戒文档进行分类的方法包括:由一个或多个计算设备接收对药物警戒文档进行分类的请求;由所述一个或多个计算设备使用被配置为实现卷积神经网络(cnn)和双向长期短期(bilstm)算法的组合的学习模型,来生成输出,所述输出包括针对所述药物警戒文档中的一个或多个单词的命名实体识别(ner)标签;和由所述一个或多个计算设备使用所述ner标签,基于病例有效性,严重性,病死率和因果关系对所述药物警戒文档进行分类。
附图说明
11.结合于此并形成说明书的一部分的附图示出了本公开,并与说明书一起进一步用于解释本公开的原理,并使相关领域的技术人员能够制造和使用本公开。
12.图1是根据示例性实施例的用于使用域特定nlp模型对文档进行分类的系统的框
excel格式。
30.icsr可以来自各种报告者,例如药房,临床医生或患者。此外,每个文档可以包括报道的药物的副作用以及关于药物的其它信息。例如,公司可能需要基于文档的内容来确定文档是否是有效的icsr报告,在icsr文档中列出的副作用的严重性,以及在icsr文档中列出的副作用的严重性、相关性和预期性(sre)。考虑到数量的报告和各种类型的格式的报告,以这种方式对报告进行分类可以被证明是一个具有挑战性的任务。因此,传统的方法可能不能有效和高效地分类icsr报告。
31.例如,常规方法可以包括主题专家(sme)手动检查每个icsr文档并作出确定。个人可以手动地从icsr文档中提取相关信息,并将该信息输入到数据库中,该数据库随后由医学专业人员检查以对icsr文档进行分类。然而,公司可以在短时间内接收数以千计的icsr文档。考虑到公司可能接收的大量icsr文档,手工检查icsr文档可能是一项繁重的任务。此外,许多icsr文档可能是不相关的,因为它们可能不是有效的文档,可能不指示严重的效果,或者可能不指示严重的,相关的或预期的效果。这可以在处理相关和重要的icsr文档时创建大的积压和延迟。
32.常规方法还可以包括使用机器学习算法,该算法要求在操作之前将文档转换为文本(例如,通过光学字符识别(ocr))。然而,考虑到ocr和创建标准化模板的复杂性,传统的机器学习算法需要大量的时间和人力和财务资源来训练和实现和更新算法。这样,这些机器学习算法在操作上效率低下,并且训练和实现成本高。
33.在给定实施例中,服务器可以接收训练学习模型的请求,以对文档进行分类并识别域特定的文档内的实体。例如,学习模型可以识别文档内的实体以自动地汇总文档。文档的内容可以包括一个或多个字符串。此外,文档可以包括相应的元数据。元数据可以是标注文档中的一个或多个字符串的注释。注释可以是特定于该域的。
34.服务器可以训练学习模型,以通过为每个文档生成单词嵌入来对域特定的文档进行分类。服务器可以将每个单词嵌入令牌化为段,包括每个单词嵌入的一个或多个单词。服务器可以通过递归地进行以下步骤来训练学习模型:将每个文档的每个段分解为一组特征,基于分配给相应段的一组特征中的每个特征的预定权重,将词性标注分配给与每个相应文档的每个相应段相对应的一个或多个单词,以及基于分配给相对一个或多个单词的词性标注、以及分配给相应段的一组特征中的每个特征的预定权重,将依赖性标注分配给与每个相应文档的每个相应段相对应的一个或多个单词。训练学习模型还可以包括基于分配给相应一个或多个单词的词性标注和依赖性标注、以及分配给相应段的一组特征的每个特征的预定权重,将来自对应于该域的一组预定标签中的名称实体关系(ner)标签递归地分配给对应于每个相应文档的每个相应段的一个或多个单词,并且通过将每个文档的元数据与相应文档的所分配的标签进行比较来验证所分配的标签。
35.服务器可以接收使用训练过的学习模型对与域相对应的文档进行分类的请求,该训练过的学习模型被训练为对域特定的文档进行分类。服务器可以将文档令牌化成段,包括文档的一个或多个字符串的一个或多个单词。服务器可以将文档的每个段分解为一组特征。服务器可以基于分配给相应段的一组特征的每个特征的预定权重,将词性标注分配给与文档的每个相应段相对应的一个或多个单词。服务器可以基于分配给相应的一个或多个单词的词性标注和分配给相应段的一组特征的每个特征的预定权重,将依赖性标注分配给
与每个相应段相对应的一个或多个单词。此外,服务器可以基于分配给相应一个或多个单词的词性标注和依赖性标注、以及分配给相应段的一组特征的每个特征的预定权重,将来自对应于域的一组预定标签的名称实体关系(ner)标签分配给对应于每个相应段的一个或多个单词。服务器可以基于分配给文档中的单词的每个ner标签来对文档进行分类。
36.上述配置允许处理和分类多种文档格式和语言,而不需要从源文档中转录和检索数据。上述配置减少了用于病例处理的数据输入,并能够进行推理分析和搜索信号管理。因此,上述配置通过利用实现卷积神经网络(cnn)结合双向长短期存储器(bilstm)模型的域特定nlp来绕过文本处理,包括但不限于转录和翻译。这种方法提高了训练模型以理解pv域内的域概念的速度。此外,上述配置最小化了传统nlp模型的训练和维护的工作。
37.此外,上述配置允许使用域特定的nlp模型来标记文档中的一个或多个字符串,使得文档被更准确地分类。例如,nlp模型可以是pv专用的。因此,nlp模型可以成功地跨pv系统使用。
38.图1是使用域特定的nlp模型对文档进行分类的系统的框图。该系统可以包括服务器100,客户端设备110和数据库120。系统的设备可以通过网络连接。例如,系统的设备可以通过有线连接,无线连接或有线和无线连接的组合来连接。在示例实施例中,网络的一个或多个部分可以是自组织网络,内联网,外联网,虚拟专用网(vpn),局域网(lan),无线局域网(wlan),广域网(wan),无线广域网(wwan),城域网(man),因特网的一部分,公共交换电话网(pstn)的一部分,蜂窝电话网,无线网络,wifi网络,wimax网络,任何其它类型的网络,或两个或更多个这样的网络的组合。可选地,服务器100,客户端设备110和数据库120可以位于单个物理机或虚拟机上。
39.在一些实施例中,服务器100和数据库120可以驻留在云计算环境中。在其它实施例中,服务器100可以驻留在云计算环境中,而数据库120驻留在云计算环境之外。此外,在其它实施例中,服务器100可以驻留在云计算环境之外,而数据库120驻留在云计算环境中。
40.客户端设备110可以是由与服务器100的管理员相关联的个人(例如,程序员,用户等)操作的设备。客户端设备110可以包括训练应用112和分类应用114。云计算环境也可以托管训练应用112和分类应用114。或者,训练应用112和分类应用114中的一个或两个可安装在客户端设备110上。
41.训练应用112和分类应用114可以是被配置为与服务器100接口的可执行应用。训练应用112可以向服务器100发送请求,以训练学习模型,从而使用图像分析对文档进行分类。分类应用114可以被配置为向服务器100发送使用学习模型对文档进行分类的请求。分类应用114也可以安装在第三方用户设备上并由第三方用户设备执行。在这点上,经授权的第三方可以发送使用服务器100对文档进行分类的请求。文档可以存储在数据库120中。数据库120可以是被配置为存储各种类型和格式的文档的一个或多个数据存储设备。
42.学习引擎102可以包括学习模型104。学习模型104可以实现自然语言处理(nlp)框架,其被配置为递归地实现深度机器学习算法,诸如卷积神经网络(cnn)和bilstm,以对文档进行分类和优先级排序。学习模型104可以是被配置为对域特定的文档进行分类的域特定的学习模型。学习模型104可以向给定文档分配多个分类。此外,学习模型104可以被配置为概括给定文档。下面将更详细地解释每个分类。在一些实施例中,可以使用更少的或附加的学习模块来分类文档。
43.图2是示出根据示例性实施例的训练学习模型以对文档进行分类的过程的框图。将参照图1描述图2。在给定实施例中,客户端设备110可以接收训练学习模型104的请求,以对与域相对应的文档进行分类。学习模型104可以是被配置为实现cnn和双向长期-短期(bilstm)算法以分类文档的nlp框架。
44.训练应用112可以建立统计ner模型。统计ner模型可用于实现基于规则的识别系统。例如,统计ner模型可以提供域特定的关于如何标记文档中的字符串的规则。此外,统计ner模型可以是学习模型104用来识别文档中的词语或短语的词典或本体。统计ner模型可以具体地与特定的域相联系。例如,使用meddra建立的统计ner模型可以包括与pv域中的概念特别对应的术语或短语。训练应用112可以将统计ner模型加载到学习模型104中。统计ner模型可以与标准语言(例如,英语,西班牙语,法语等)结合使用。
45.该请求可以包括训练数据200。训练数据200可以包括对应于该域的文档(和概念)。文档可以包括文本202(例如,一个或多个字符串)和分配给文本202的标签204。标签204可以来自与域相对应的一组预定标签。此外,标签204中的每个标签可以被分配给文本202的一个或多个字符串(例如,单词或短语)。分配给一个或多个字符串的标签可以定义该字符串。例如,标签204可以与特定域的实体或字段相对应。这样,标签204中分配给给定字符串的给定标签指示了给定字符串对应于特定域的给定实体或字段。标签204可以被包括在每个文档的元数据中。
46.训练应用112可以将训练数据200、对应于训练数据200的标签(例如,元数据)204以及参数发送到用于训练学习模型104的学习引擎102。学习引擎102可以接收训练数据200和标签204。
47.学习模型104可以为训练数据200中的每个文档生成单词嵌入。单词嵌入可以是文档的单词的向量表示。向量可以是n维向量空间,其中共享公共上下文和语义的单词在向量空间中彼此靠近地定位。学习模型104可以为训练数据200中的每个文档使用布隆(bloom)嵌入。布隆嵌入是文档的单词的紧凑向量表示。可以使用统计ner模型生成单词嵌入或布隆嵌入。
48.学习模型104可以将单词嵌入(或布隆嵌入)令牌化为单词,字母,标点符号等的段。令牌化根据特定于语言和特定域的规则对每个文档进行分割。此外,学习模型104可以使用统计模型来分割每个文档。例如,如果给定文档包括短语“i live in the u.s.a..”,学习应用112可以确定在“u.s.a.”之后的第一句号对应于缩写“u.s.a.”,并且第二句号与句子的结尾相对应。因此,短语的令牌化可以被分割如下:[i][live][in][the][u.s.a.][.]每个段可以包括单个单词,部分单词或多于一个单词。
[0049]
学习模型104可以实现cnn算法,以将每个段分解为一组特征,并且使用每个相应段的一组特征来生成对应于每个段的向量(例如,一维向量)。学习模型104可以将权重分配给一组特征中的每一个。将参照图3更详细地描述cnn算法。
[0050]
学习模型104可以将权重应用于向量以生成结果向量。权重可以包括在从训练应用112接收的参数中。学习模型104可以基于结果向量和统计ner模型将词性标注分配给与向量相对应的段中的单词。词性标注可以指示单词是否是名词,动词,形容词等。学习模型104可以考虑上下文,预测段中单词的词性。例如,学习模型104可以基于英语语言规则来确定单词“the”之后的单词必须是名词。学习模型104可以使用预定义的规则来进行关于文档
中的单词和短语的推断,并且识别文档中的单词之间的关系。此外,学习模型104可以使用单词嵌入来识别单词之间的关系。此外,学习模型104可以使用包括域特定的词典和本体的统计ner模型来理解在文档中使用的词汇。
[0051]
学习模型104还可以基于与每个段相对应的结果向量、统计ner模型以及分配给每个段中的单词的词性标注,将依赖性标注分配给每个相应文档的每个段中的单词。依赖性标注可以定义两个以上单词之间的关系。例如,在短语“lazy dog”中,学习引擎104可以确定单词“lazy”修饰“dog”。这种依赖性可以由标注(例如,amod标注)来表示。学习模型104可以使用预定义的规则来进行关于文档中的单词和短语的推断,并且识别文档中的单词之间的关系。此外,学习模型104可以使用单词嵌入来识别单词之间的关系。此外,学习模型104可以使用包括域特定的词典和本体的统计ner模型来理解在文档中使用的词汇。
[0052]
学习模型104可以基于对应于每个段的结果向量、统计ner模型、以及分配给每个段中的相应单词的词性和依赖性标注,将ner标签分配给每个相应文档的每个段中的单词。ner标签可以从对应于域的一组预定标签中选择。ner标签指示该单词对应于域的字段或实体。学习模型104可以使用预定义的规则来进行关于文档中的单词和短语的推断,并且识别文档中的单词之间的关系。此外,学习模型104可以使用单词嵌入来识别单词之间的关系。此外,学习模型104可以使用包括域特定的词典和本体的统计ner模型来理解在文档中使用的词汇。
[0053]
学习模型104可以基于对应于每个文档的相应标签204来验证分配给每个文档的单词的ner标签。基于验证结果和梯度208,学习模型104可以修改分配给每个特征的权重,令牌化每个文档以为每个文档生成新的段,基于新段和新权重生成新向量,基于新向量向新段的单词分配词性标注,基于分配给单词的词性标注和新向量向新段的单词分配依赖性标注,基于分配给单词的词性和依赖性标注以及新向量,将ner标签分配给新段的单词,并基于标签204验证ner标签。学习模型104可以递归地修改权重并执行这些步骤,直到学习模型104以期望的精确度分配ner标签。在一些实施例中,词性标注和依赖性标注也可以被验证。
[0054]
一旦学习模型104以期望的精确度分配ner标签,学习模型104就可以变成完全训练的学习模型210。完全训练的学习模型210被示为学习模型104的不同部件。完全训练的学习模型210说明了训练学习模型104的过程。然而,应当理解,学习模型104即使在被完全训练之后也可以在系统中保持相同的部件。
[0055]
客户端设备110可以接收使用完全训练的学习模型210对文档进行分类的请求。该请求可以包括文档。分类应用114可以将文档和参数发送到完全训练的学习模型210。完全训练的学习模型210可以生成文档的单词嵌入(或布隆嵌入)。
[0056]
完全训练的学习模型210可以对单词嵌入(或布隆嵌入)进行令牌化以生成文档的段,基于段和包括在参数中的权重生成向量,基于统计ner模型和向量向段的单词分配词性标注,基于分配给单词的词性标注、统计ner模型和向量向段的单词分配依赖性标注,并且基于分配给单词的词性和依赖性标注、统计ner模型和向量,将ner标签分配给段的词。完全训练的学习模型210可以响应于分配ner标签而生成输出212。此外,完全训练的学习模型210可以基于ner标签对文档进行分类。
[0057]
在一些实施例中,完全训练的学习模型210可以从文档提取单词和短语及其相应
的ner标签。完全训练的学习模型210可以使用从文档中提取的单词和短语以及它们相应的ner标签,以及从其他文档中提取的单词和短语以及它们相应的ner标签,来构建知识库。知识库可以是基于图形的结构,包括使用边缘连接的节点。节点可以包含所提取的单词和短语以及它们相应的ner标签。完全训练的学习模型210可以使用基于识别节点之间的关系的边缘来连接节点。完全训练的学习模型210可以基于相应单词或短语的ner标签来确定存储单词或短语的节点之间的关系。知识库可以存储在数据库120中。
[0058]
作为非限制性示例,上述使用图像分析对文档进行分类的系统可用于对icsr文档进行分类。icsr文件还可以包括文献和临床报告。如上所述,icsr文档包括关于患者,地理,副作用,icsr质量和顺应性特征,利益风险特征,产品细节,研究细节和消费者投诉,法律概念或与fda规章产品的使用相关联的其它医学概念的信息。制药空间中的公司可能需要处理icsr文档以确定是否需要对特定产品进行任何动作。
[0059]
icsr工作流可以包括三个处理块:病例受理,病例处理和病例报告。在受理后,pv部门全球地接收来自不同来源的各种格式和语言的icsr。报告来自不同的报告者,保健专业人员和非保健专业人员,并通过各种介质,例如电子邮件,传真,邮件和电话。在受理病例时进行几项重要评估,鉴于病例的严重性,这些评估在路由病例时至关重要,以满足预定义的监管准则。
[0060]
遵守管理当局是基于在各自规定的时间表内向国家特定的管理当局报告的能力来确定的。因此,提前优先化应该是准确的,以限制在不太紧迫的报告上执行的工作量的传播。用于优先化的评估可以包括以下关键特征:病例有效性(有效或无效),病例严重性(严重或非严重),相关性(与可疑产品相关或不相关),以及副作用的sre(标记或未标记)。病例有效性可以指示icsr文档是否是有效文档。病例严重性可以指示icsr文档中列出的副作用是严重的还是非严重的。sre可以指示副作用是否是严重的、相关的和预期的(例如,在产品上标记)作用。
[0061]
如果在有效的icsr文档中列出的副作用是严重的和出乎意料的,则公司可能需要对特定产品采取行动。结果,可以训练学习模型104来分类给定icsr文档的病例有效性,严重性,病死率和因果关系。学习模型104还可以被训练以识别fda批准的预期性药物的结构化产品标签(spl)中的副作用,并识别潜在的标签外产品使用。此外,学习模型104可以被训练以识别文档内的实体。学习模型104可用于基于所识别的实体生成文档的概要。学习模型104可以被训练以理解文档的上下文,从而可以生成文档的准确概要。
[0062]
例如,客户端设备110可以接收训练学习模型104的请求,以对与pv域相对应的icsr文档进行分类。学习模型104可以是被配置为实现cnn和bilstm算法以分类文档的nlp框架。
[0063]
作为非限制性示例,学习模型104可以实现spacy,spacy(v2.0)或medspacy。spacy(v2.0)是用于高级nlp的开源软件库,其利用具有残余连接和层归一化maxout非线性的现有技术的卷积神经网络(cnn)模型。spacy为标注、分析、命名实体识别和深度学习集成提供了比标准bilstm解决方案更好的效率。此外,spacy在英语模型中具有glove(全局向量)支持功能。对于glove.840b.300d common crawl(840b tokens,2.2m vocab,cased,300d vectors),向量的最大尺寸为2.2百万。使用子单词特征的内部实现的布隆嵌入策略被用于支持对大量meddra词汇的有效处理。
[0064]
训练应用112可以建立统计ner模型。例如,训练应用112可以嵌入81,900meddra实体以创建统计ner模型。训练应用112还可以使用统一医疗语言系统(umls)来建立统计ner模型。统计ner模型可以被合并为spacyentityruler搜索模式属性。统计ner模型可以是学习模型104用来识别icsr文档中的单词或短语的词典或本体。训练应用112可以将统计ner模型加载到学习模型104中。统计ner模型可以与标准语言(例如,英语,西班牙语,法语等)结合使用。
[0065]
该请求可以包括训练数据200。训练数据200可以包括icsr文档。文档可以包括文本202(例如,一个或多个字符串)和分配给文本202的标签204。标签204可以来自对应于pv域的一组预定标签。此外,标签204中的每个标签可以被分配给文本202中的一个或多个字符串(例如,单词或短语)。分配给一个或多个字符串的标签可以定义该字符串。例如,标签204可以与pv域的实体或字段相对应。这样,在实施例中,标签204中分配给给定字符串的给定标签指示给定字符串对应于pv域的给定实体或字段。标签204可以被包括在每个文档的元数据中。
[0066]
作为示例,标签204可以包括以下实体(entity):
[0067]
标签204可以对应于109个pv实体。f1得分表示完全训练的学习模型210能够识别给定实体的精确度水平。下面将更详细地描述f1得分。
[0068]
训练应用112可以将训练数据200,对应于训练数据200的标签(例如,元数据)204以及参数发送到学习引擎102用于训练学习模型104。学习引擎102可以接收训练数据200和标签204。在非限制性示例实现中,训练数据200包括20,000个机器可读icsr。这些icsr在2年期间(2015年1月-2016年12月)通过celgene(新基公司)drug safety(药物安全性)接收。关于icsr的特征和采样的进一步细节先前已公开(abatemarco等人,2018;mockute等人,2019)。对于超参数,可用的最佳实践值由spacy使用。
[0069]
学习模型104可以为训练数据200中的每个文档生成单词嵌入(或布隆嵌入)。学习
模型104可以为训练数据200中的每个文档令牌化单词嵌入(或布隆嵌入)。更具体地,学习模型104可以将每个文档令牌化成单词,字母,标点等的段。令牌化基于特定于语言和特定域的规则来分割每个文档。此外,学习模型104可以使用统计模型来分割每个文档。
[0070]
学习模型104可以实现cnn算法,以将每个段分解为一组特征,并且使用每个相应段的该组特征来生成对应于每个段的向量(例如,一维向量)。
[0071]
学习模型104可以将分配给一组特征中的每个特征的权重应用到向量以生成结果向量。权重可以包括在从训练应用112接收的参数中。学习模型104可以基于结果向量和统计ner模型将词性标注分配给与向量相对应的段中的单词。
[0072]
学习模型104还可以基于与每个段相对应的结果向量、统计ner模型以及分配给每个段中的单词的词性标注,将依赖性标注分配给每个相应文档的每个段中的单词。
[0073]
学习模型104可以基于对应于每个段的结果向量,统计ner模型,以及分配给每个段中的相应单词的词性和依赖性标注,将ner标签分配给每个相应文档的每个段中的单词。ner标签可以从对应于该域的一组预定标签中选择。ner标签指示单词对应于域的字段或实体。例如,可以将ner标签分配给对pv事件检测至关重要的单词或短语,以准确地对文档进行分类。
[0074]
学习模型104可以基于对应于每个文档的相应标签204来验证分配给每个文档的单词的ner标签。基于验证结果和梯度208,学习模型104可以修改分配给每个特征的权重,为每个文档令牌化单词(或布隆)嵌入以为每个文档生成新的段,基于新段和新权重生成新向量,基于新向量向新段的单词分配词性标注,基于分配给单词的词性标注和新向量向新段的单词分配依赖性标注,基于分配给单词的词性和依赖性标注以及新向量,将ner标签分配给新段的单词,并基于标签204验证ner标签。学习模型104可以递归地修改权重并执行这些步骤,直到学习模型104以期望的精确度分配ner标签。梯度208可以是梯度损失函数,其被配置为优化训练学习模型104的权重。
[0075]
在非限制性示例实现中,基于使用20,000个注释的icsr文档来训练学习模型104,使用75%的阈值f1得分来确定学习模型104是否被完全训练。使用以下等式来产生f1得分:precision=真正/(真正+假正)recall=真正/(真正+假负)f1=2
×
(precision
×
recall)/(precision+recall)
[0076]
一旦学习模型104以期望的精确度分配ner标签,学习模型104可以是完全训练的学习模型210。客户端设备110可以接收使用完全训练的学习模型210对icsr文档进行分类的请求。该请求可以包括icsr文档。分类应用114可以将icsr文档和参数发送到完全训练的学习模型210。完全训练的学习模型210可以为icsr文档生成单词(布隆)嵌入。完全训练的学习模型210可以令牌化单词嵌入以生成文档的段,基于段和包括在参数中的权重生成向量,基于统计ner模型和向量向段的单词分配词性标注,基于分配给单词的词性标注、统计ner模型和向量向段的单词分配依赖性标注,基于分配给单词的词性和依赖性标注、统计ner模型和向量,将ner标签分配给段的词。完全训练的学习模型210可以响应于分配ner标签而生成输出212。
[0077]
输出212可以包括用于分类icsr文档所必需的关键词或短语的ner标签。例如,输出212可以包括单词“admitted”的ner标签,如“reportersserioushospitalization”,并且
单词“melanoma”可以包括ner标签,如ae10053571。
[0078]
完全训练的学习模型210可以基于ner标签对icsr文档进行分类。例如,完全训练的学习模型210可以针对病例有效性,严重性,病死率和因果关系对icsr文档进行分类,识别fda批准的预期性药物的结构化产品标签(spl)中的副作用,并识别潜在的标签外产品使用。
[0079]
完全训练的学习模型210可以生成包括未覆盖实体的输出,以及产品指示和相关联的ae之间的任何检测到的关系。作为示例,streamlit可用于生成网页界面以呈现输出。完全训练的学习模型210可以导致在客户端设备110上显示输出。
[0080]
在一些实施例中,完全训练的学习模型210可以从icsr文档提取单词和短语及其相应的ner标签。完全训练的学习模型210可以使用从icsr文档中提取的单词和短语以及它们各自的ner标签,以及从其他文档(icsr或其他)中提取的单词和短语以及它们各自的ner标签,来构建知识库。知识库可能与药物,药物类型,疾病,患者人口统计等有关。
[0081]
知识库可以是基于图形的结构,包括使用边缘连接的节点。节点可以包含所提取的单词和短语以及它们各自的ner标签。完全训练的学习模型210可以使用基于识别节点之间的关系的边缘来连接节点。完全训练的学习模型210可以基于相应单词或短语的ner标签来确定存储单词或短语的节点之间的关系。知识库可以存储在数据库120中。
[0082]
知识库可跨不同行业使用以确定关于药物,药物类型,疾病,患者人口统计等的不同方面。行业可以包括技术,管理,医疗等。例如,诸如fda的管理行业可以使用知识库来识别药物的各种效果。在另一个示例中,药物的制造商可以使用知识库来识别引起副作用的药物的成分。在又一个示例中,医学专业人员或研究者可以使用知识库来识别药物或疾病疗法。
[0083]
图3是根据示例性实施例的实现cnn算法的学习模型的示例的框图。将参照图1-2描述图3。
[0084]
如上所述,学习模型104可以实现监督深度学习算法,例如cnn,以基于文档的相应图像文件对文档进行分类。cnn算法300可用于生成表示文档的每个令牌化段的向量,使得该向量可用于分配词性标注,依赖性标注和ner标签。
[0085]
cnn算法300可以在两个阶段中训练,即正向阶段和反向阶段。正向阶段包括卷积层304和308,池化层306和310,以及完全连接层312和314。卷积层304和308可以将滤波器应用于输入段302以生成特征图。池化层306和310可以生成简约的特征图。然后,完全连接层312和314可以使用权重和偏移对图像的特征进行分类,以生成输出316。输出316可以是所分配的词性标注,依赖性标注和ner标签。滤波器,权重和偏置的值可以是由cnn算法300(例如,从客户端设备110)接收的参数。
[0086]
在反向阶段,cnn算法300可以使用反向传播来确定cnn算法是否可以正确地分配词性标注,依赖性标注和ner标签。cnn算法可以使用梯度下降算法来更新滤波器、权重和偏置的值,并且在输入段302上重新执行正向阶段。
[0087]
作为例子,可以使用文档的单词嵌入的令牌化的段(包括输入段302)来训练cnn算法300。输入段302可以对应于文档中的一个或多个单词。作为非限制性实例,输入段302可具有160
×
160像素的大小,从而使其成为160
×
160维阵列。160
×
160维阵列可以被压平成25600维向量。向量的每个分量可以包括在0和1之间的值。该值可以描述像素的强度。输入
段302可以包括灰度级格式的唯一jpeg“指纹”。
[0088]
在卷积层304中,cnn算法300可以对输入段302执行特征提取。特征可以包括输入段302的部分。例如,特征可以是输入段302的不同边缘或形状。cnn算法可以提取不同类型的特征以生成不同类型的特征图。例如,cnn算法300可以在输入段302的不同部分上应用数字(例如,内核)阵列。内核也可以被称为滤波器。如上所述,可以将不同类型的滤波器应用于输入段302以生成不同的特征图。例如,用于识别输入段302中的形状的滤波器可以不同于用于边缘检测的滤波器。因此,与边缘检测相比,可以应用不同的内核来识别输入段302中的形状。每个内核可以包括不同的数字阵列。可以随时间随机地分配和优化滤波器或内核的值(例如,使用梯度下降算法)。内核可以作为跨输入段302的不同部分的滑动窗口来应用。内核可以与输入段302的给定部分相加,以生成输出值。输出值可以被包括在特征图中。特征图可以包括来自应用于输入段302的每个部分的不同内核的输出值。所生成的特征图可以是二维阵列。
[0089]
在池化层306中,cnn算法300可以减少卷积层304中生成的每个特征图的维数。特别地,cnn算法300可以提取给定特征图的部分并丢弃其余部分。池化图像保留了重要的功能。例如,特征图可以包括激活区域和非激活区域。激活区域可以包括检测到的特征,而非激活区域可以指示段的部分不包括特征。池化可以删除非激活区域。这样,减少了图像的尺寸。cnn算法300可以使用池化层中的最大或平均池化来执行这些操作。在丢弃剩余值的同时,最大池化保持特征图的部分的较高值。平均池化保持特征图的不同部分的平均值。因此,cnn算法300可以为卷积层304中生成的每个特征图生成简约的特征图。
[0090]
在卷积层308中,cnn算法300可以基于在池化层306中生成的简约的特征图来生成附加特征图。此外,在池化层310中,cnn算法300可以基于在卷积层308中生成的特征图来生成进一步简约的特征图。可以将多个不同的卷积层和池化层添加到cnn算法300。
[0091]
卷积层304和308还可以将校正线性单元(relu)函数应用于输入段302。relu函数被应用于输入段302以从输入段302去除线性。例如,relu函数可以从输入段302中去除所有的黑色元素,并且只保持灰色和白色。这使得输入段302中的颜色更突然地改变,这从输入段302中去除了线性。
[0092]
卷积层304和308以及池化层306和310可用于特征学习。特征学习允许cnn算法300识别输入段302中的期望特征,并因此精确地分类输入段302。因此,通过优化卷积层304和308以及池化层306和310,cnn算法300可以对输入段302应用正确的滤波器,以提取分类输入段302所需的必要特征。
[0093]
在完全连接层312中,cnn算法300可以将池化层310中生成的简约的特征图平坦化为一维阵列(或向量)。完全连接层是神经网络。cnn算法300可以对完全连接层312中的一维阵列执行线性变换。cnn算法300可以通过对一维阵列应用权重和偏置来执行线性变换,以生成完全连接层314。最初,权重和偏置被随机初始化,并且可以随时间优化。
[0094]
在完全连接层314中,cnn算法300可以执行非线性变换,例如激活层函数(例如,softmax或sigmoid),以将词性标注、依赖性标注和ner标签分配给输入段302的相应单词。
[0095]
cnn算法300可以使用反向传播来验证其对输入段302的分类。如图2所示,在训练模式中,cnn算法300可以接收文档和对应文档的元数据。元数据可以包括分配给文档的不同单词或短语的标签204。cnn算法300可以将分配给文档的单词或短语的ner标签与对应于
该文档的标签204进行比较。如果cnn算法300分配给文档的ner标签与对应于文档的标签204匹配,则cnn算法300可以确定ner标签被正确分配。或者,如果由cnn算法300分配给文档的分类与包括在文档的元数据中的分类不匹配,则cnn算法300可以确定ner标签被错误地分配。在一些实施例中,词性标注和依赖性标注也可以被验证。
[0096]
反向传播还可以包括优化输入参数,使得词性和依赖性标注以及ner标签被更准确地分配给文档的单词或短语。输入参数可以包括内核,权重,偏移等的值。梯度下降(例如,梯度208)可用于优化参数。
[0097]
梯度下降是优化cnn算法300的迭代过程。梯度下降可以更新cnn算法300的参数,并使学习模型104将词性和依赖性标注以及ner标签分配给每个文档的单词或短语,并验证词性和依赖性标注以及ner标签。在执行cnn算法300的每次迭代之后,可以进一步更新(或优化)参数。cnn算法300的每次迭代可以被称为一个时期。cnn算法300可以执行被认为是完全训练的预定数量的时期。可以基于分配词性和依赖性标注以及ner标签的期望的精确度来选择预定数量的时期。
[0098]
作为非限制性示例,cnn算法300可以由学习模型104来实现,以对icsr文档进行分类。学习模型104可以使用cnn算法300来识别icsr文档中的单词或短语,使得学习模型104可以确定病例有效性,严重性,病死率和因果关系,识别fda批准的预期性药物的结构化产品标签(spl)中存在的副作用,并识别潜在的标签外产品使用。
[0099]
如上所述,cnn算法300可以执行被认为是完全训练的预定数量的时期。用户(例如,开发者)可以基于cnn算法300的f-1得分和曲线下面积(auc)得分来确定cnn算法被完全训练。f-1得分和曲线下面积(auc)曲线可以指示将词性和依赖性标注以及ner标记分配给相应文档的单词或短语的准确度。
[0100]
图4示出了根据示例实施例的用于训练学习模型的示例文档。文档400可以是icsr文档,并且可以包括分类icsr文档所需的关键词或短语402。文档400可用于训练学习模型(例如,学习模型104,如图1所示)以分类icsr文档。文档400可以包括注释404(例如,标签204,如图2所示)。注释404可以是分配给分类icsr文档所需的关键词或短语402的标签。例如,单词“name”可以被分配标签“reportertypehcp”。注释204可用于验证将ner标签分配给文档400的结果。
[0101]
图5是示出根据示例性实施例的学习模型的模型设计框架的框图。模型设计框架500可以由学习模型(例如,学习模型104或完全训练的学习模型210)来实现。模型设计框架500可用于使用训练数据200来训练学习模型。词典或本体可以被加载到模型设计框架500上。例如,词典或本体可以是medrna或umls。
[0102]
如上所述,一旦学习模型被训练,模型设计框架500可以使用定制统计ner模型和现有语言统计模型来构建词汇。模型设计框架500可以接收用于分类的文档。模型设计框架500可令牌化文档并实现cnn算法,以使用词汇来识别文档的单词或短语。模型设计框架500可以向文档中的单词或短语分配词性和依赖性标注,并且向文档的单词或短语分配ner标签。模型设计框架500可以生成输出212,包括对文档分类所必需的给文档的单词或短语的ner标签。模型设计框架500能够在分配ner标签时理解文档的上下文。例如,即使gastritis(胃炎)被包括在输出212的文本中,完整的短语读取“我们排除了gastritis...”。这表明gastritis不需要被标记,因为它在分类文档中不是重要的。
[0103]
图6是根据示例性实施例的模型批准流程的框图。模型批准流程600可用于确定学习模型是否以可接受的精确度水平分配词性和依赖性标注以及ner标签。在操作602中,可以创建训练语料库(例如,训练数据)。更具体地,主题物质专家(sme)可以用分配给文档的单词或短语的标签来注释文档,标签是对文档进行分类所必需的。sme可以执行注释的质量检查。注释的文档可以是训练语料库的一部分,并且训练语料库可以存储在训练数据储存库(例如,数据库120,如图1所示)中。
[0104]
在操作604中,可以使用存储在训练数据储存库中的训练语料库来训练学习模型(例如,如图1所示的学习模型104)。开发者或sme可以发送使用训练语料库训练学习的请求。可以使用如上所述的训练语料库来训练学习模型。基于对所分配的词性和依赖性标注以及ner标签的验证,学习模型可以确定学习模型对所分配的词性和依赖性标注以及ner标签的分配的准确度是否满足阈值。阈值可以是预编程的或者可以在训练学习模型的请求中提供。如果不满足学习模型的阈值的准确度,则可以发送请求以用一组相同的文档或一组不同的文档重新训练学习模型。
[0105]
如果学习模型的分类的准确度满足阈值,则模型批准流程600可以进行到操作606。在操作606中,sme可以手动确认学习模型对所分配的词性和依赖性标注以及ner标签的分配。在一些实施例中,sme可以验证与学习模型相同的文档子集的分类。或者,sme可以验证不同文档子集的分类。文档子集可以是一组文档的10%。
[0106]
sme可以基于文档的元数据来确认学习模型是否准确地分类文档子集中的每个文档。此外,sme还可以确认元数据是否准确。响应于验证学习模型对所分配的文档子集的词性和依赖性标注以及ner标签的分配,sme可以确定是否已经实现可接受质量限制(aql)。aql可以是与学习模型的期望准确度水平相关联的值。在一些实施例中,aql可以与阈值相同。在其它实施例中,aql可以不同于阈值。如果sme确定尚未满足aql,则可以发送重新训练学习模型的请求。响应于sme确定已经满足aql,sme可以批准学习模型。学习模型可以被认为是完全训练的并且准备分类文档。
[0107]
图7是示出根据示例性实施例的使用训练的学习模型来识别文档中的实体(例如,单词或短语)的f1得分的图。图700指示经训练的学习模型(例如,如图2所示的完全训练的学习模型210)可以以0-50%准确度的f1得分来准确地识别109个实体中的54.13%。此外,经训练的学习模型可以以51-74%准确度f1得分来准确地识别109个实体中的22.02%。此外,经训练的学习模型可以以大于75%的准确度的f1得分来准确地识别出109个实体中的23.85%。
[0108]
图8是示出根据示例性实施例的学习模型的损失函数的图800。图800的y轴表示预测值和实际值之间的差;x轴表示学习模型(例如,学习模型104)已被训练的迭代次数。每次迭代可以被称为一个时期。图800可以示出x轴上的100个时期。图800示出,随着训练模型的迭代次数的增加,预测值和实际值之间的差减小。这样,预测的实体和标记的实体之间的误差在100个时期内被最小化。图800中的损失函数说明损失的平滑减少,结果在训练过程中损失减少约74%。
[0109]
图9示出了根据示例实施例的汇总文档的完全训练的学习模型。内部汇总器实现这里描述的完全训练的学习模型(例如,学习模型104或完全训练的学习模型210)。nltk实现传统的nlp模型。nltk汇总器可以生成文档900的摘要902,并且内部汇总器可以生成文档
900的摘要904。如摘要904所示,与摘要902相比,内部汇总器在摘要904中提供了文档900的更广泛的覆盖范围。nltk汇总器在生成摘要902时集中于文档900的有限部分。这样,与实现传统nlp模型的传统汇总器相比,实现这里描述的完全训练的学习模型的内部汇总器通过在生成摘要时提供文档的更广泛的覆盖范围来提供优势。
[0110]
图10是示出根据实施例的用于训练学习模型的过程的流程图。方法1000可由可包括硬件(例如,电路,专用逻辑,可编程逻辑,微代码等)、软件(例如,在处理装置上执行的指令)或其组合的处理逻辑来执行。应当理解,不是所有的步骤都需要执行本文提供的公开内容。此外,如本领域普通技术人员将理解的,可以同时或以与图10中所示不同的顺序来执行一些步骤。
[0111]
方法1000将参照图1进行描述。然而,方法1000不限于该示例实施例。
[0112]
在操作1002中,学习引擎102接收训练学习模型104以对域的文档进行分类的请求。该请求包括一组文档和用于每个文档的元数据。元数据可以是标注每个文档中的某些单词或短语的注释。学习模型104可以是使用cnn和bilstm的nlp框架。
[0113]
在操作1004中,学习模型104为一组文档中的每个文档生成一组单词嵌入。单词嵌入可以是每个文档中的单词的向量表示。单词可以位于向量空间中。单词可以位于在上下文和语义上更接近的其他单词的附近。单词嵌入可以包括来自每个相应文档的单词。单词嵌入可以是布隆嵌入。
[0114]
在操作1006中,学习模型104将在一组单词嵌入中的每个单词嵌入令牌化为一组段。每个段包括来自单词嵌入的单词。学习模型104可以使用统计ner模型和通用语言规则来从单词嵌入中分割单词。
[0115]
在操作1008中,训练学习模型104,以通过将一组文档中的每个文档的一组段中的每个段分解为一组特征来对域中的一组文档中的每个文档进行分类。cnn算法可用于生成一组特征。
[0116]
在操作1010中,学习模型104基于分配给对应段的一组特征中的每个特征的预定权重,为一组文档中的每个文档的一组段中的每个段分配词性标注。词性标注定义单词是否是名词,动词,形容词等。
[0117]
在操作1012中,学习模型104基于分配给对应段的词性标注和分配给对应字符串的一组特征中的每个特征的预定权重,将依赖性标注分配给一组文档中的每个文档的一组段中的每个段。依赖性标注指示单词与文档中的其他单词的关系。例如,短语“lazy dog”表示单词“lazy”修饰名词“dog”。
[0118]
在操作1014中,学习模型104基于分配给对应段的词性标注和依赖性标注、以及分配给对应段的一组特征中的每个特征的预定权重,将命名实体识别(ner)标签从与域相对应的一组预定义标签中分配给一组文档中的每个文档的一组段中的每个段。学习模型104可以生成包括每个相应单词旁边的ner标签的输出。学习模型104可以为对文档进行分类所必需的单词生成ner标签。
[0119]
在操作1016中,学习模型104通过将每个文档的元数据与相应文档的所分配的ner标签进行比较来验证所分配的ner标签。可以递归地执行操作1008-1016以训练学习模型。对于每次训练迭代,可以基于梯度损失函数来优化分配给特征的权重。
[0120]
图11是示出根据实施例的使用经训练的学习模型对文档进行分类的过程的流程
图。方法1100可由可包含硬件(例如,电路,专用逻辑,可编程逻辑,微码等)、软件(例如,在处理装置上执行的指令)或其组合的处理逻辑来执行。应当理解,不是所有的步骤都需要执行本文提供的公开内容。此外,如本领域普通技术人员将理解的,可以同时或以与图11中所示不同的顺序来执行一些步骤。
[0121]
将参考图1描述方法1100。然而,方法1100不限于该示例实施例。
[0122]
在操作1102中,学习引擎102接收使用经训练的学习模型对新文档进行分类的请求。经训练的学习模型可经配置以对与文档的域相对应的文档进行分类。经训练的学习模型可以实现使用cnn和bilstm的nlp框架。学习模型104可以是完全训练的学习模型。
[0123]
在操作1104中,学习模型104生成文档的单词嵌入。单词嵌入可以包括来自文档的单词。单词嵌入可以是布隆嵌入。
[0124]
在操作1106中,学习模型104将单词嵌入令牌化为一组段。每个段包括来自单词嵌入的单词。学习模型104可以使用统计ner模型和通用语言规则来从单词嵌入中分割单词。
[0125]
在操作1108中,学习模型104将文档的一组段中的每个段分解为一组特征。cnn算法可用于生成一组特征。
[0126]
在操作1110中,学习模型104基于分配给对应段的一组特征中的每个特征的预定权重,将词性标注分配给一组段中的每个段。词性标注定义单词是否是名词,动词,形容词等。
[0127]
在操作1112中,学习模型104基于分配给对应段的词性标注和分配给对应字符串的一组特征中的每个特征的预定权重,将依赖性标注分配给一组段中的每个段。依赖性标注指示单词与文档中的其他单词的关系。
[0128]
在操作1114中,学习模型104基于分配给对应段的词性标注和依赖性标注、以及分配给对应段的一组特征中的每个特征的预定权重,将来自于对应于域的一组预定标签中的命名实体识别(ner)标签分配给一组段中的每个段。学习模型104可以生成包括每个相应单词旁边的ner标签的输出。学习模型104可以为对文档进行分类所必需的单词生成ner标签。
[0129]
在操作1116中,学习模型104使用经训练的学习模型基于所分配的ner标签对与域相对应的新文档进行分类。在一个示例中,学习模型被配置为基于病例有效性,严重性,病死率和因果关系来分类药物警戒文档。学习模型还可以被配置为识别fda批准的预期性药物的结构化产品标签(spl)中的副作用,并识别潜在的标签外产品使用。
[0130]
图12是计算机系统1200的示例性组件的框图。例如,可以使用一个或多个计算机系统1200来实现这里讨论的任何实施例,以及它们的组合和子组合。计算机系统1200可包括一个或多个处理器(也称为中央处理单元或cpu),例如处理器1204。处理器1204可以连接到通信基础设施或总线1206。
[0131]
计算机系统1200还可以包括用户输入/输出接口1202,例如监视器,键盘,定点设备等,其可以通过用户输入/输出设备1203与通信基础设施1206通信。
[0132]
一个或多个处理器1204可以是图形处理单元(gpu)。在一个实施例中,gpu可以是被设计成处理数学上密集的应用的专用电子电路的处理器。gpu可以具有并行结构,该并行结构对于大数据块的并行处理是有效的,例如计算机图形应用,图像,视频等常见的数学密集数据。
[0133]
计算机系统1200还可以包括主存储器或一级存储器1208,例如随机存取存储器
(ram)。主存储器1208可包括一个或多个层级的高速缓冲存储器。主存储器1208可以在其中存储控制逻辑(即,计算机软件)和/或数据。
[0134]
计算机系统1200还可以包括一个或多个辅助存储设备或存储器1210。辅助存储器1210可以包括例如硬盘驱动器1212和/或可移动存储驱动器1214。
[0135]
可移动存储驱动器1214可以与可移动存储单元1218交互。可移动存储单元1218可以包括其上存储有计算机软件(控制逻辑)和/或数据的计算机可用或可读存储设备。可移除存储单元1218可以是程序盒和盒接口(例如在视频游戏设备中发现的),可移除存储芯片(例如eprom或prom)和相关联的插座,存储棒和usb端口,存储卡和相关联的存储卡插槽,和/或任何其它可移除存储单元和相关联的接口。可移动存储驱动器1214可以从可移动存储单元1218读取和/或向可移动存储单元1218写入。
[0136]
辅助存储器1210可以包括允许计算机程序和/或其它指令和/或数据被计算机系统1200访问的其它装置,设备,组件,工具或其它方法。这种装置,设备,组件,工具或其它方法可以包括,例如,可移动存储单元1222和接口1220。可移除存储单元1222和接口1220的示例可以包括程序盒和盒接口(例如在视频游戏设备中发现的),可移除存储芯片(例如eprom或prom)和相关联的插座,存储棒和usb端口,存储卡和相关联的存储卡插槽,和/或任何其它可移除存储单元和相关联的接口。
[0137]
计算机系统1200还可以包括通信或网络接口1224。通信接口1224可以使计算机系统1200能够与外部设备,外部网络,外部实体等的任何组合进行通信和交互(单独地和共同地由附图标记1228表示)。例如,通信接口1224可以允许计算机系统1200通过通信路径1226与外部或远程设备1228通信,通信路径1226可以是有线的和/或无线的(或其组合),并且可以包括lan,wan,因特网等的任何组合。控制逻辑和/或数据可以经由通信路径1226发送到计算机系统1200和从计算机系统1200发送。
[0138]
计算机系统1200还可以是个人数字助理(pda),桌面工作站,膝上型或笔记本计算机,网络书,书写板,智能电话,智能写板或其它织带,电器,物联网的一部分,和/或嵌入式系统中的任何一种,仅举几个非限制性示例,或其任何组合。
[0139]
计算机系统1200可以是客户端或服务器,其通过任何递送范例来访问或托管任何应用和/或数据,所述递送范例包括但不限于远程或分布式云计算解决方案;本地或驻地软件(“驻地”基于云的解决方案);作为服务“模型”(例如,内容作为服务(caas),数字内容作为服务(dcaas),软件作为服务(saas),被管理的软件作为服务(msaas),平台作为服务(paas),桌面作为服务(daas),框架作为服务(faas),后端作为服务(baas),移动后端作为服务(mbaas),基础设施作为服务(iaas)等;和/或包括前述示例或其它服务或递送范例的任何组合的混合模型。
[0140]
计算机系统1200中的任何可应用的数据结构,文件格式和模式可以从包括但不限于以下的标准导出:javascript object notation(json),extensible markup language(xml),yet ather markup language(yaml),extensible hypertext markup language(xhtml),wireless markup language(wml),messagepack,xml用户界面语言(xul),或任何其他功能类似的单独或组合表示。或者,可以使用专有数据结构,格式或模式,或者独占地或者与已知的或开放的标准相结合地使用。
[0141]
在一些实施例中,包括其上存储有控制逻辑(软件)的有形、非暂时性计算机可用
machine-learning algorithm to optimise automated adverse drug reaction detectionfrom clinical coding.drug saf.2019 jun;42(6):721-725。
[0151]
mockute r,desai s,perera s,assuncao b,danysz k,tetarenko n,gaddam d,abatemarco d,widdowson m,beauchamp s,cicirello s,mingle e.artificial intelligence within pharmacovigilance:a means to identify cognitive services and the framework for their validation.pharmaceut med.2019 apr;33(2):109-120。
[0152]
pharmacovigilance.world health organization website.updated 2020。accessed november 6,2020。https://www.who.int/teams/regulation-prequalification/pharmacovigilance。
[0153]
schmider j,kumar k,laforest c,swankoski b,naim k,caubel pm.innovation in pharmacovigilance:use of artificial intelligence in adverse event case processing.clin pharmacol ther.2019 apr;105(4):954-961。
[0154]
stergiopoulos s,fehrle m,caubel p,tan l,jebson l.adverse drug reaction case safety practices in large biopharmaceutical organizations from 2007 to 2017:an industry survey.pharmaceut med.2019 dec;33(6):499-510。

技术特征:
1.一种方法,其特征在于,包括:由一个或多个计算设备接收一组文档和所述一组文档中的每个文档的元数据,其中,所述一组文档对应于域;由所述一个或多个计算设备为所述一组文档中的每个文档生成一组单词嵌入,每个单词嵌入包括来自相应文档的一个或多个单词;由所述一个或多个计算设备将所述一组单词嵌入中的每个单词嵌入令牌化为一组段,每个段包括来自所述单词嵌入的单词;由所述一个或多个计算设备训练学习模型,以通过递归地进行以下步骤来对所述域的所述一组文档中的每个文档进行分类:由所述一个或多个计算设备将所述一组文档中的每个文档的所述一组段中的每个段分解为一组特征;由所述一个或多个计算设备基于分配给对应段的所述一组特征中的每个特征的预定权重,将词性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;由所述一个或多个计算设备基于分配给所述对应段的所述词性标注和分配给对应字符串的所述一组特征中的每个特征的预定权重,将依赖性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;由所述一个或多个计算设备,基于分配给所述对应段的所述词性标注和所述依赖性标注、以及分配给所述对应段的所述一组特征中的每个特征的所述预定权重,将来自于对应于所述域的一组预定标签中的命名实体识别(ner)标签分配给所述一组文档中的每个文档的所述一组段中的每个段;和由所述一个或多个计算设备通过将每个文档的所述元数据与所述相应文档的所分配的所述ner标签进行比较来验证所分配的ner标签。2.根据权利要求1所述的方法,其特征在于,还包括:由所述一个或多个计算设备接收对与所述域相对应的新文档进行分类的请求;由所述一个或多个计算设备生成包括新文档的一个或多个单词的新单词嵌入;由所述一个或多个计算设备将与所述域相对应的所述新单词嵌入令牌化为一组新段;由所述一个或多个计算设备将所述新文档的一个或多个字符串中的每一个字符串分解为一组新特征;由所述一个或多个计算设备使用经训练的学习模型,基于分配给对应的新段的所述一组新特征中的每个特征的预定权重,将新词性标注分配给所述新文档的所述一组新段中的每个新段;由一个或多个计算设备使用所述经训练的学习模型,基于分配给对应的新段的所述词性标注和分配给对应的新段的所述一组新特征的每个特征的所述预定权重,将新依赖性标注分配给所述新文档的一组新段中的每个新段;由所述一个或多个计算设备使用所述经训练的学习模型,基于分配给所述新的对应段的所述词性标注和所述依赖性标注、以及分配给所述对应的新段的所述一组新特征中的每个特征的所述预定权重,将来自对应于所述域的所述一组预定标签的新ner标签分配给所述新文档的所述一组新段中的每个段;和由一个或多个计算设备使用所述经训练的学习模型,基于分配的ner标签对与所述域
相对应的所述新文档进行分类。3.根据权利要求2所述的方法,其特征在于,还包括:由所述一个或多个计算设备提取所述一组新段和所分配的ner标签;和由所述一个或多个计算设备生成知识库,其中:所述知识库包括多个节点和多个边缘,边缘基于关系将所述多个节点中的每个节点连接到所述多个节点中的至少一个其他节点,以及所述多个节点中的每个节点包括所述一组新段中的至少一个段和所分配的ner标签中的对应的ner标签。4.根据权利要求3所述的方法,其特征在于,还包括由所述一个或多个计算设备基于所述节点中所分配的ner标签中的第一ner标签以及存储在不同节点中的所分配的ner标签中的第二ner标签,来识别所述多个节点中的一个节点与所述多个节点中的不同节点之间的所述关系。5.根据权利要求1所述的方法,其特征在于,还包括在训练所述学习模型的每次迭代之后,迭代地修改分配给所述一组文档中的每个文档的所述一组特征中的所述特征的所述权重。6.根据权利要求1所述的方法,其特征在于,所述学习模型使用统计模型,以将所述词性标注给所述一组文档中的每个文档的所述一个或多个字符串中的每一个字符串,将所述依赖性标注给所述一组文档中的每个文档的所述一组段中的每个段,以及将来自对应于所述域的一组预定标签的所述ner标签给所述一组文档中的每个文档的所述一组段中的每个段。7.根据权利要求1所述的方法,其特征在于,所述经训练的学习模型实现监督学习算法。8.根据权利要求1所述的方法,其特征在于,还包括:由所述一个或多个计算设备基于每个对应文档的每个对应段的所述一组特征来生成所述一组文档中的每个文档的特征图;由所述一个或多个计算设备通过减少每个对应文档的每个对应段的所述特征图的维度特征,生成所述一组文档中的每个文档的简约的特征图;由一个或多个计算设备将每个对应文档的每个对应段的所述简约的特征图变换为向量;和由所述一个或多个计算设备将分配给所述一组特征中的每个特征的所述预定权重应用到每个对应的向量。9.一种系统,其特征在于,包括:存储器;耦接到所述存储器的处理器,其中所述处理器被配置为:接收一组文档和所述一组文档中的每个文档的元数据,其中,所述一组文档对应于域;为所述一组文档中的每个文档生成一组单词嵌入,每个单词嵌入包括来自相应文档的一个或多个单词;将所述一组单词嵌入中的每个单词嵌入令牌化为一组段,每个段包括来自所述单词嵌
入的单词;训练学习模型,以通过递归地进行以下步骤来对所述域的所述一组文档中的每个文档进行分类:将所述一组文档中的每个文档的所述一组段中的每个段分解为一组特征;基于分配给对应段的所述一组特征中的每个特征的预定权重,将词性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;基于分配给所述对应段的所述词性标注和分配给对应字符串的所述一组特征中的每个特征的预定权重,将依赖性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;基于分配给所述对应段的所述词性标注和所述依赖性标注、以及分配给所述对应段的所述一组特征中的每个特征的所述预定权重,将来自于对应于所述域的一组预定标签的命名实体识别(ner)标签分配给所述一组文档中的每个文档的所述一组段中的每个段;和通过将每个文档的所述元数据与所述相应文档的所分配的所述ner标签进行比较来验证所分配的ner标签。10.根据权利要求9所述的系统,其特征在于,所述处理器还被配置成:接收对与所述域相对应的新文档进行分类的请求;生成包括新文档的一个或多个单词的新单词嵌入;将与所述域相对应的所述新单词嵌入令牌化为一组新段;将所述新文档的一个或多个字符串中的每一个字符串分解为一组新特征;使用经训练的学习模型,基于分配给对应的新段的所述一组新特征中的每个特征的预定权重,将新词性标注分配给所述新文档的所述一组新段中的每个新段;使用所述经训练的学习模型,基于分配给对应的新段的所述词性标注和分配给对应的新段的所述一组新特征的每个特征的所述预定权重,将新依赖性标注分配给所述新文档的一组新段中的每个新段;使用所述经训练的学习模型,基于分配给所述新的对应段的所述词性标注和所述依赖性标注、以及分配给所述对应的新段的所述一组新特征中的每个特征的所述预定权重,将来自对应于所述域的所述一组预定标签的新ner标签分配给所述新文档的所述一组新段中的每个段;和使用所述经训练的学习模型,基于分配的ner标签对与所述域相对应的所述新文档进行分类。11.根据权利要求10所述的系统,其特征在于,所述处理器还被配置成:提取所述一组新段和所分配的ner标签;和生成知识库,其中:所述知识库包括多个节点和多个边缘,边缘基于关系将所述多个节点中的每个节点连接到所述多个节点中的至少一个其他节点,以及所述多个节点中的每个节点包括所述一组新段中的至少一个段和所分配的ner标签中的对应的ner标签。12.根据权利要求11所述的系统,其特征在于,所述处理器还被配置成基于所述节点中
所分配的ner标签中的第一ner标签以及存储在不同节点中的所分配的ner标签中的第二ner标签,来识别所述多个节点中的一个节点与所述多个节点中的不同节点之间的所述关系。13.根据权利要求9所述的系统,其特征在于,所述处理器还被配置成在训练所述学习模型的每次迭代之后,迭代地修改分配给所述一组文档中的每个文档的所述一组特征中的所述特征的所述权重。14.根据权利要求9所述的系统,其特征在于,所述学习模型使用统计模型,以将所述词性标注给所述一组文档中的每个文档的所述一个或多个字符串中的每一个字符串,将所述依赖性标注给所述一组文档中的每个文档的所述一组段中的每个段,以及将来自对应于所述域的一组预定标签的所述ner标签给所述一组文档中的每个文档的所述一组段中的每个段。15.根据权利要求9所述的系统,其特征在于,所述经训练的学习模型实现监督学习算法。16.根据权利要求9所述的系统,其特征在于,所述处理器还被配置成:基于每个对应文档的每个对应段的所述一组特征来生成所述一组文档中的每个文档的特征图;通过减少每个对应文档的每个对应段的所述特征图的维度特征,生成所述一组文档中的每个文档的简约的特征图;将每个对应文档的每个对应段的所述简约的特征图变换为向量;和将分配给所述一组特征中的每个特征的所述预定权重应用到每个对应的向量。17.一种其上存储有指令的非暂时性计算机可读介质,其特征在于,所述指令被设备的一个或多个处理器执行时,使所述一个或多个处理器执行包括以下的操作:接收一组文档和所述一组文档中的每个文档的元数据,其中,所述一组文档对应于域;为所述一组文档中的每个文档生成一组单词嵌入,每个单词嵌入包括来自相应文档的一个或多个单词;将所述一组单词嵌入中的每个单词嵌入令牌化为一组段,每个段包括来自所述单词嵌入的单词;训练学习模型,以通过递归地进行以下步骤来对所述域的所述一组文档中的每个文档进行分类:将所述一组文档中的每个文档的所述一组段中的每个段分解为一组特征;基于分配给对应段的所述一组特征中的每个特征的预定权重,将词性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;基于分配给所述对应段的所述词性标注和分配给对应字符串的所述一组特征中的每个特征的预定权重,将依赖性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;基于分配给所述对应段的所述词性标注和所述依赖性标注、以及分配给所述对应段的所述一组特征中的每个特征的所述预定权重,将来自对应于所述域的一组预定标签的命名实体识别(ner)标签分配给所述一组文档中的每个文档的所述一组段中的每个段;和通过将每个文档的所述元数据与所述相应文档的所分配的所述ner标签进行比较来验
证所分配的ner标签。18.根据权利要求17所述的非暂时性计算机可读介质,其特征在于,所述操作还包括:接收对与所述域相对应的新文档进行分类的请求;生成包括新文档的一个或多个单词的新单词嵌入;将与所述域相对应的所述新单词嵌入令牌化为一组新段;将所述新文档的一个或多个字符串中的每一个字符串分解为一组新特征;使用经训练的学习模型,基于分配给对应的新段的所述一组新特征中的每个特征的预定权重,将新词性标注分配给所述新文档的所述一组新段中的每个新段;使用所述经训练的学习模型,基于分配给对应的新段的所述词性标注和分配给对应的新段的所述一组新特征的每个特征的所述预定权重,将新依赖性标注分配给所述新文档的一组新段中的每个新段;使用所述经训练的学习模型,基于分配给所述新的对应段的所述词性标注和所述依赖性标注、以及分配给所述对应的新段的所述一组新特征中的每个特征的所述预定权重,将来自对应于所述域的所述一组预定标签的新ner标签分配给所述新文档的所述一组新段中的每个段;和使用所述经训练的学习模型,基于分配的ner标签对与所述域相对应的所述新文档进行分类。19.根据权利要求17所述的非暂时性计算机可读介质,其特征在于,所述操作还包括在训练所述学习模型的每次迭代之后,迭代地修改分配给所述一组文档中的每个文档的所述一组特征中的所述特征的所述权重。20.根据权利要求17所述的非暂时性计算机可读介质,其特征在于,所述学习模型使用统计模型,以将所述词性标注给所述一组文档中的每个文档的所述一个或多个字符串中的每一个字符串,将所述依赖性标注给所述一组文档中的每个文档的所述一组段中的每个段,以及将来自对应于所述域的一组预定标签的所述ner标签给所述一组文档中的每个文档的所述一组段中的每个段。21.根据权利要求17所述的非暂时性计算机可读介质,其特征在于,所述经训练的学习模型实现监督学习算法。22.根据权利要求17所述的非暂时性计算机可读介质,其特征在于,所述操作还包括:基于每个对应文档的每个对应段的所述一组特征来生成所述一组文档中的每个文档的特征图;通过减少每个对应文档的每个对应段的所述特征图的维度特征,生成所述一组文档中的每个文档的简约的特征图;将每个对应文档的每个对应段的所述简约的特征图变换为向量;和将分配给所述一组特征中的每个特征的所述预定权重应用到每个对应的向量。23.一种用于对文档进行分类的方法,其特征在于,所述方法包括:由一个或多个计算设备接收对与域相对应的文档进行分类的请求;由所述一个或多个计算设备生成包括所述文档的一个或多个单词的单词嵌入;由所述一个或多个计算设备将与所述域相对应的所述单词嵌入令牌化为一组段;由所述一个或多个计算设备将所述文档的一个或多个字符串中的每个字符串分解为
一组新特征;由所述一个或多个计算设备使用经训练的学习模型,基于分配给对应段的所述一组特征中的每个特征的预定权重,将词性标注分配给所述新文档的所述一组段中的每个新段;由所述一个或多个计算设备使用所述经训练的学习模型,基于分配给所述对应段的所述词性标注和分配给所述对应段的所述一组特征中的每个特征的所述预定权重,将依赖性标注分配给所述文档的所述一组段中的每个段;由所述一个或多个计算设备使用所述经训练的学习模型,基于分配给所述对应段的所述词性标注和所述依赖性标注、以及分配给所述对应段的所述一组特征中的每个特征的所述预定权重,将来自与所述域相对应的一组预定标签的ner标签分配给所述文档的所述一组段中的每个段;和由所述一个或多个计算设备使用所述经训练的学习模型,基于分配的ner标签对与所述域相对应的所述文档进行分类。24.一种用于训练自然语言处理(nlp)模型以分类药物警戒文档的方法,其特征在于,所述方法包括:由一个或多个计算设备接收一组文档和所述一组文档中的每个文档的元数据,其中所述一组文档对应于药物警戒;由所述一个或多个计算设备为所述一组文档中的每个文档生成一组单词嵌入,每个单词嵌入包括来自相应文档的一个或多个单词;由所述一个或多个计算设备将所述一组单词嵌入中的每个单词嵌入令牌化为一组段,每个段包括来自所述单词嵌入的单词;由所述一个或多个计算设备训练学习模型,以通过递归地进行以下步骤来对所述一组文档中的每个文档进行分类:由所述一个或多个计算设备将所述一组文档中的每个文档的所述一组段中的每个段分解为一组特征;由所述一个或多个计算设备基于分配给对应段的所述一组特征中的每个特征的预定权重,将词性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;由所述一个或多个计算设备基于分配给所述对应段的所述词性标注和分配给对应字符串的所述一组特征中的每个特征的预定权重,将依赖性标注分配给所述一组文档中的每个文档的所述一组段中的每个段;由所述一个或多个计算设备基于分配给所述对应段的所述词性标注和所述依赖性标注、以及分配给所述对应段的所述一组特征中的每个特征的所述预定权重,将来自对应于所述域的一组预定标签的命名实体识别(ner)标签分配给所述一组文档中的每个文档的所述一组段中的每个段;和由所述一个或多个计算设备通过将每个文档的所述元数据与所述相应文档的所分配的所述ner标签进行比较来验证所分配的ner标签,其中,响应于完全训练所述学习模型,所述学习模型被配置为基于病例有效性,严重性,病死率和因果关系对药物警戒文档进行分类,识别fda批准的预期性药物的结构化产品标签(spl)中的副作用,并识别潜在的标签外产品使用。25.一种使用自然语言处理(nlp)模型对药物警戒文档进行分类的方法,其特征在于,
所述方法包括:由一个或多个计算设备接收对药物警戒文档进行分类的请求;由所述一个或多个计算设备使用被配置为实现卷积神经网络(cnn)和双向长期短期(bilstm)算法的组合的学习模型,来生成输出,所述输出包括针对所述药物警戒文档中的一个或多个单词的命名实体识别(ner)标签;和由所述一个或多个计算设备使用所述ner标签,基于病例有效性,严重性,病死率和因果关系对所述药物警戒文档进行分类。26.根据权利要求25所述的方法,其特征在于,还包括:由所述一个或多个计算设备使用所述ner标签,识别fda批准的预期性药物的结构化产品标签(spl)中的副作用,以及由所述一个或多个计算设备识别潜在的标签外产品使用。

技术总结
本文提供了用于使用CNN和BiLSTM对文档进行分类的系统,装置,设备,方法和/或计算机程序产品实施例,和/或其组合和子组合。和/或其组合和子组合。和/或其组合和子组合。


技术研发人员:萨敏
受保护的技术使用者:百时美施贵宝公司
技术研发日:2021.12.09
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐