靶点信息分析方法和靶点信息查询方法与流程

未命名 10-22 阅读:60 评论:0


1.本发明涉及计算机技术领域,尤其涉及一种靶点信息分析方法和靶点信息查询方法。


背景技术:

2.药物研究的核心在于研发新药以治疗疾病,而药物靶点的发现是新药研发的关键步骤之一。靶点则是疾病发生和发展的关键环节或分子机制,其可用于设计并选择药物。一般而言,一旦新的药物靶点被发现,往往会成为一系列新药发现的突破口,因此,新的药物靶点对于药物研究、制药企业至关重要。
3.目前,药物靶点研发的重要依据是生物信息学数据和文献数据,但是,基于生物信息学数据的靶点分析存在样本选择偏倚的问题,即由于个体异质性广泛存在,因而测序样本的选择直接影响最终的分析结果。而基于文献数据进行靶点分析时,由于文献所描述的靶点与疾病之间的关系非常复杂,并且非结构化的文本数据不易利用,因而据其进行靶点获取的难度较大。此外,由于科研工作的复杂性,以及文献质量的参差不齐,据其分析而得的靶点的可靠性往往不高。


技术实现要素:

4.本发明提供一种靶点信息分析方法和靶点信息查询方法,用以解决现有技术中靶点获取难度大,分析而得的靶点的可靠性不高的缺陷,通过全面准确的信息梳理实现了与疾病相关的靶点信息的高效分析。
5.本发明提供一种靶点信息分析方法,包括:
6.获取与目标疾病关联的生物信息学数据、基础研究文献,以及药品临床信息和/或药品上市信息;
7.基于所述生物信息学数据中各靶点的突变率,确定与所述目标疾病关联的第一靶点信息;
8.基于所述基础研究文献所包含的实体对,确定与所述目标疾病关联的第二靶点信息,所述实体对包括疾病实体、靶点实体和实体关系;
9.基于所述药品临床信息和/或所述药品上市信息,确定与所述目标疾病关联的第三靶点信息;
10.基于所述第一靶点信息、所述第二靶点信息和所述第三靶点信息,构建靶点信息数据库。
11.根据本发明提供的一种靶点信息分析方法,所述方法还包括:
12.基于所述第二靶点信息和所述第三靶点信息,确定潜力靶点;
13.所述潜力靶点的信息存在于所述第二靶点信息中,且不存在于所述第三靶点信息中;或者,
14.在目标疾病为多个的情况下,所述潜力靶点的信息存在于与多个目标疾病中任一
疾病关联的第二靶点信息和第三靶点信息中,且存在于与多个目标疾病中任一其他疾病关联的第二靶点信息中,但不存在于与所述任一其他疾病关联的第三靶点信息中。
15.根据本发明提供的一种靶点信息分析方法,所述基础研究文献基于如下步骤确定:
16.获取与所述目标疾病关联的初始文献集合;
17.基于所述初始文献集合中各初始文献的出版类型,从所述初始文献集合中筛除二次加工文献和临床研究文献,得到候选文献集合;
18.从所述候选文献集合中筛选得到与所述目标疾病关联的基础研究文献。
19.根据本发明提供的一种靶点信息分析方法,所述基于所述初始文献集合中各初始文献的出版类型,从所述初始文献集合中筛除二次加工文献和临床研究文献,得到候选文献集合,包括:
20.基于所述初始文献集合中各初始文献的出版类型,从所述初始文献集合中筛除二次加工文献和临床研究文献,得到第一文献集合;
21.基于所述第一文献集合中各第一文献的出版类型和出版时间,从所述第一文献集合中筛选第二文献,所述第二文献为所述出版类型待更新的第一文献;
22.将所述第二文献输入文献分类器,得到所述文献分类器输出的所述第二文献的文献类型;
23.将所述文献类型为非基础研究文献的第二文献从所述第一文献集合中删除,得到所述候选文献集合。
24.根据本发明提供的一种靶点信息分析方法,所述基于所述基础研究文献所包含的实体对,确定与所述目标疾病关联的第二靶点信息,包括:
25.基于所述基础研究文献所包含的实验技术实体的类型,确定所述基础研究文献所包含的实体对的实体关系的因果强度;
26.基于所述实体对的实体关系的因果强度,从所述实体对中确定与所述目标疾病关联的第二靶点信息,所述因果强度表征所述实体对中所述疾病实体和所述靶点实体之间的实体关系的关系强度。
27.根据本发明提供的一种靶点信息分析方法,所述基础研究文献所包含的实体对基于如下步骤确定:
28.获取所述基础研究文献的标题文本和摘要文本;
29.将所述标题文本和摘要文本输入至语句分类器,得到所述语句分类器输出的所述标题文本和摘要文本中各语句的语句类型;
30.对所述语句类型为待识别的语句进行实体识别,得到所述基础研究文献所包含的实体对。
31.根据本发明提供的一种靶点信息分析方法,所述对所述语句类型为待识别的语句进行实体识别,得到所述基础研究文献所包含的实体对,包括:
32.对所述待识别的语句进行实体识别,得到所述语句中的实体和代词,所述实体包括疾病实体和靶点实体;
33.将所述语句、所述实体和所述代词输入至指代关系分类器,得到所述指代关系分类器输出的所述实体与所述代词之间的指代关系;
34.若所述指代关系为是,则将所述语句中的代词替换为对应实体,得到优化语句,并将所述优化语句,以及所述优化语句中的实体输入至实体关系分类器,得到所述实体关系分类器输出的所述实体关系。
35.根据本发明提供的一种靶点信息分析方法,所述将所述语句中的代词替换为对应的疾病实体或靶点实体,得到优化语句,之后还包括:
36.将所述优化语句,以及所述优化语句中的实体,填充至关系问询模板,得到关系问询语句;
37.将所述关系问询语句输入问答语言模型,得到所述问答语言模型输出的所述实体关系。
38.根据本发明提供的一种靶点信息分析方法,所述基于所述药品临床信息和/或所述药品上市信息,确定与所述目标疾病关联的第三靶点信息,包括:
39.基于所述药品临床信息和/或所述药品上市信息,确定所述目标疾病关联的疾病信息和药品信息;
40.基于预设的药品靶点关联关系,以及所述疾病信息和所述药品信息,确定所述目标疾病关联的各靶点对应的目标药品及药品数量;
41.基于所述目标药品及药品数量,从所述目标疾病关联的各靶点中,确定与所述目标疾病关联的第三靶点信息。
42.本发明还提供一种靶点信息查询方法,包括:
43.获取待查询的目标疾病和/或目标靶点;
44.基于靶点信息数据库,确定所述目标疾病和/或所述目标靶点的相关靶点信息,所述靶点信息数据库是基于如上述任一项所述的靶点信息分析方法确定的;
45.对所述相关靶点信息进行展示。
46.本发明提供的靶点信息分析方法和靶点信息查询方法,在生物信息学数据的基础上,聚焦于基础研究文献,对疾病发病机制等海量生物医学进行高效、全面、准确地梳理,以筛选出与疾病高度相关的靶点信息,并进一步结合药品临床信息和/或药品上市信息,以分析多维度的靶点信息,从而构建得到完整全面的靶点信息数据库,不仅提高了靶点信息分析、提炼的效率,还提升了分析而得的靶点信息的可靠性,同时还降低了信息分析所需消耗的时间和成本,从而在时间层面和经济层面加快了潜力靶点的分析进程,进而有效的助力了新药研发。
附图说明
47.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
48.图1是本发明提供的靶点信息分析方法的流程示意图;
49.图2是本发明提供的靶点信息查询方法的流程示意图;
50.图3是本发明提供的靶点信息分析装置的结构示意图;
51.图4是本发明提供的靶点信息查询装置的流程示意图;
52.图5是本发明提供的电子设备的结构示意图。
具体实施方式
53.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
54.当下,生物信息学数据和文献数据是药物靶点发现的重要依据。通过对基因组、转录组、蛋白质组等大规模生物信息学数据进行分析,可以筛选得出与疾病相关的基因、蛋白质等分子,这些分子则极有可能是潜在的药物靶点。另外,由于各地的科研工作揭开了新的分子途径、基因和蛋白的功能,因而文献数据也是靶点分析的重要依据之一。
55.然而,基于生物信息学数据的靶点分析存在样本选择偏倚的问题,即由于个体异质性广泛存在,测序样本的选择不可避免会影响到最终的分析结果。此外,由于基于生物信息学数据分析而得的因果关系也较弱,因而,据其而得的靶点的可靠性不高。
56.另外,pubmed收录了3000余万篇论文,描述了靶点、药物、疾病之间的关系,但是这些靶点与靶点之间、靶点与疾病之间关系非常复杂,并且考虑到非结构化的文本数据不易被利用,因而,基于文献数据的靶点分析的难度较大。此外,由于科研工作的复杂性,以及论文质量的参差不齐,据其分析而得的实体关系并不完全可信。
57.对此,本发明提供一种靶点信息分析方法,旨在生物信息学数据和基础研究文献的基础上,对疾病发病机制等海量生物医学信息进行高效、全面、准确地梳理,以筛选出与疾病高度相关的靶点信息,并进一步结合药品临床信息和/或药品上市信息,以分析多维度的靶点信息,从而构建完整全面的靶点信息数据库,进而助力新药研发。
58.图1是本发明提供的靶点信息分析方法的流程示意图,如图1所示,该方法通过构建系统性、结构化的靶点信息数据库,能够帮助研究人员进行潜力靶点分析,进而助力新药研发。
59.步骤110,获取与目标疾病关联的生物信息学数据、基础研究文献,以及药品临床信息和/或药品上市信息;
60.具体地,考虑到通过生物信息学数据进行靶点分析的可靠性不强,因果关系较弱,通过文献数据进行靶点分析的难度较大,分析而得的实体关系的可信度不高的情况,本发明实施例中,选择结合生物信息学数据和基础研究文献进行靶点分析,即在生物信息学数据的基础上,聚焦基础研究文献,以提取出其中与疾病高度相关的靶点信息。进一步地,考虑到新药研发时潜力靶点的评断与当前药品的临床研发信息和上市信息息息相关,因而,为保证靶点信息分析的完整全面,构建的靶点信息数据库的系统完备,本发明实施例中在进行靶点分析时,还对药品的临床研究信息和/或上市信息予以考虑。
61.可以理解的是,在进行靶点信息分析之前,首先需要确定的是分析对象,此处可以是与目标疾病相关的靶点信息。目标疾病可以是具体的某类疾病,也可以是一类疾病的统称,还可以是多类疾病的并称;目标疾病可以是一个也可以是多个,还可以是所有疾病,本发明实施例对此不做具体限定。而在确定目标疾病之后,即需获取与目标疾病关联的用以进行靶点分析的各类数据,即生物信息学数据、基础研究文献,以及药品临床信息和/或药
品上市信息。
62.此处,生物信息学数据是与目标疾病相关的生物信息学上的数据,例如,基因组、转录组、蛋白质组等。通过对与目标疾病关联的大规模的生物信息学数据进行分析,可以得出与目标疾病高度相关的基因、蛋白质等分子,由于此类分子中可能包含潜在的药物靶点,即,潜力靶点,因而可以据其得到与目标疾病关联的靶点信息。
63.基础研究文献是文献内容与基础研究相关的文献,基础研究则是对人体正常生理机制和病理机制的基础性科学研究,其具有高因果关系强度的优势,并且可以为临床医学的诊断、治疗、预后等提供理论基础和科学支持。此处,基础研究文献可以是从包括有大量医学、生物学、健康学或护理学等相关文献的文献检索数据库中获取得到的,例如,可以从pubmed、web of science、medpeer等文献检索数据库中获取得到基础研究文献,本发明实施例对此不做具体限定。
64.具体而言,在获取基础研究文献时,可以基于目标特征对文献检索数据库中的所有文献进行筛选,从中筛选出涉及基础研究的文献,从而得到基础研究文献。此处,目标特征为与文献检索数据库中的文献相关,并且能够判断文献是否属于基础研究文献的特征,例如,文献所属类别、文献的出版类型(publication type)等。此处对文献检索数据库中的所有文献的筛选,可以通过规则匹配的方式实现,也可以通过文本二分类的方式实现,还可以通过规则匹配结合文本二分类的方式实现。本发明实施例对此不做具体限定。
65.药品临床信息则是与目标疾病相关的药品的临床研究信息,例如,临床试验文本、临床研究报告、临床实验成果、临床研究阶段等,其可以从clinicaltrial(临床试验)、isrctn(国际标准随机对照试验注册库)、eudract(欧洲临床试验注册中心)、chinese clinical trial(中国临床试验注册中心)、chinadrugtrials(药物临床试验登记与信息公示平台)、医药相关论文等中获取得到。
66.药品上市信息是与目标疾病相关的药品的上市信息,例如,药品上市时间、药品上市名称、药品对应适应症等,其可以从各个信息源中获取得到,此处的信息源可以是不同地域的药品监管官方网站,例如,nmpa(national medical products administration,药品监督管理局)、fda(food and drug administration,食品药品监督管理局)、pmda(pharmaceuticals and medical devices agency,药品与医疗器械管理局)、ema(european medicines agency,欧洲药品管理局)、hma(heads of medicines agency,欧盟药品注册数据库)等;还可以是临床试验登记平台,例如,ctr(clinical trial registry,临床试验注册)、临床试验注册库和资料库等、医药相关论文、医药企业的公开年报及医药相关公告、药监机构公布的药品注册审评信息等。
67.步骤120,基于生物信息学数据中各靶点的突变率,确定与目标疾病关联的第一靶点信息;
68.具体地,在获取到与目标疾病关联的生物信息学数据之后,即可据此生物信息学数据进行靶点分析,以得到与目标疾病关联的靶点信息,此处具体可以通过生物信息学数据中各靶点的突变率,确定与目标疾病关联的靶点信息,为便于与其他数据分析而得的靶点信息进行区别,此处将得到的靶点信息称之为第一靶点信息。
69.可以理解的是,在得到生物信息学数据之后,可以通过此生物信息学数据分析获知目标疾病下各靶点的变异发生率,此处的变异发生率即靶点发生变异的概率,亦可以称
之为靶点的突变率,即可以对与目标疾病关联的生物信息学数据进行数据分析,以得到目标疾病关联的各靶点的突变率,此处针对于生物信息学数据的分析可以通过r语言、python或其他相关分析工具实现。
70.在这之后,即可依据目标疾病关联的各靶点的突变率,确定与目标疾病关联的第一靶点信息,即可以参照目标疾病关联的各靶点的突变率,从目标疾病关联的各靶点中确定目标疾病-靶点信息,即与目标疾病关联的第一靶点信息,这一过程实质上是以目标疾病关联的各靶点的突变率为基准,对各靶点进行筛选从而得到第一靶点信息。
71.具体而言,可以在目标疾病关联的各靶点的突变率的基础上,借助突变率阈值以从目标疾病关联的各靶点中确定第一靶点信息。此处突变率阈值可以是预先根据实际需求、实际情况等设定的分子突变率的数值,例如,0.8%、1%、1.2%等,也可以是根据目标疾病的具体类型、所属范畴等设定的分子突变率的数值。例如,可以从目标疾病关联的各靶点中选取突变率大于等于1%,或者小于1%的靶点,从而据此靶点生成与目标疾病关联的第一靶点信息。
72.也可以是按照突变率,对目标疾病关联的各靶点的进行排序,从排序而得的靶点序列中选取若干个靶点,以与目标疾病共同组建形成与目标疾病关联的第一靶点信息。例如,可以从按照突变率从高到低或从低到高排列的靶点序列中,选取前10个或后10个靶点,从而生成与目标疾病关联的第一靶点信息。
73.步骤130,基于基础研究文献所包含的实体对,确定与目标疾病关联的第二靶点信息,实体对包括疾病实体、靶点实体和实体关系;
74.具体地,在得到目标疾病关联的基础研究文献后,即可据此基础研究文献进行靶点分析,以得到与目标疾病关联的第二靶点信息,此处具体可以通过基础研究文献所包含的实体对,提取与目标疾病关联的靶点信息,即第二靶点信息。其中实体对包含疾病实体、靶点实体,以及疾病实体和靶点实体之间的实体关系。
75.可以理解的是,在获取得到基础研究文献之后,首先可以从基础研究文献中确定其所包含的实体对,而由于该实体对中包含有疾病实体和靶点实体,因而其也可以称之为疾病靶点实体对;此处可以通过对基础研究文献中的语句进行实体识别、实体抽取等得到其所包含的疾病实体和靶点实体,由此疾病实体和靶点实体,以及此两者之间的实体关系即可构建得到疾病靶点实体对。
76.而在确定基础文献所包含的实体对之前,为能从基础研究文献中对疾病发病机制的相关生物实体以及实体之间的实体关系进行高效、全面、准确的分析,可以预先对实体进行定义,例如,实体可以包括疾病实体、靶点实体、实验技术实体;其中,疾病实体和靶点实体用于生成与目标疾病关联的靶点信息,进而构建形成靶点信息数据库,实验技术实体则用于判别实体对的实体关系的因果强度。
77.对于上述预先定义的疾病实体和靶点实体,可以预先构建得到标准字典,即标准的疾病字典和靶点字典,以作实体的抽取和归一化。而标准字典可以基于mesh(medical subject headings,医学主题词表)、hgnc(hugo gene nomenclature committee,人类基因命名数据库)、企业自主积累的内部数据等构建得到。例如,从mesh中获取标准字典的相关实体时,可以基于目标需求,预设相适应的纳入和排除规则,从mesh树状结构中进行过滤;此处,以预先构建标准字典中的疾病实体为例,mesh包含了各种疾病的主题词汇,在从mesh
中获取疾病相关实体时,可以预设与疾病实体相适应的纳入和排除规则,对mesh树状结构中的疾病词汇进行过滤,从而构建得到标准字典中的疾病实体。
78.之后,即可根据预先构建的标准字典中的众多实体,对基础研究文献中的语句进行实体识别,从而得到基础研究文献中所包含的所有实体。而在获得众多的实体后,还需要判别实体之间的关系,以将这些实体关联起来,从而得到实体之间的实体关系,进而构建得到实体对。而为了对实体之间的实体关系进行准确判别,提高最终得到的实体关系的可靠性,本发明实施例中还可以预先基于专家经验对实体关系进行定义,此处预定义的实体关系包括但不限于:正向(上调、激活、促进)、负向(下调、失活、抑制)、等于、包含等;例如,实体a和实体b的实体关系可以是实体a促进了实体b的功能、实体a抑制了实体b的功能、实体a等于实体b、实体a包含实体b等。
79.而后,即可据此预定义的实体关系,对基础研究文献所包含的实体进行实体关系判别,从而得到实体之间的实体关系,并结合对应实体以构建得到实体对,此处实体对中包含的疾病实体和靶点实体之间的实体关系亦可以简称为实体对的实体关系。即通过实体识别抽取得到基础研究文献所包含的所有实体后,可以基于预定义的实体关系,以及基础研究文献中的语句,对语句中包含的疾病实体和靶点实体之间的实体关系进行判别,从而得到实体关系,进而获得若干实体对。
80.进一步地,在获得基础研究文献所包含的实体对之后,即可据此实体对确定与目标疾病关联的第二靶点信息,即可以从基础研究文献所包含的实体对中确定与目标疾病关联的第二靶点信息。此处,具体可以是依据实体对的实体关系的关系强弱,从基础研究文献所包含的实体对中确定与目标疾病关联的第二靶点信息,这一过程实质上是以实体对的实体关系的关系强度为基准,对基础文献所包含的实体对进行筛选从而得到第二靶点信息。
81.具体而言,可以先获知实体对的实体关系的关系强度,即实体对中疾病实体和靶点实体之间的实体关系的关系强度,然后可在此关系强度的基础上,借助关系强度阈值以从基础研究文献所包含的实体对中确定第二靶点信息,或者可以照此关系强度,对基础研究文献所包含的实体对进行排序,从排序而得的实体对序列中选取若干个实体对,以得到与目标疾病关联的第二靶点信息。
82.此处,关系强度阈值可以是预先根据实际需求、实际情况等设定的强度关系,例如,强相关、弱相关等,也可以是表征强度关系的具体数值,例如,80%、75%、60%等,也可以是根据目标疾病的具体类型、所属范畴等设定的强度关系或表征强度关系的具体数值。
83.例如,可以从基础研究文献所包含的实体对中选取实体关系的关系强度为强相关的实体对,或者选取实体关系的关系强度达到80%的实体对,从而据此生成与目标疾病关联的第二靶点信息。又例如,可以从按照关系强度从强到弱或从弱到强排列的实体对序列中,选取前15个或后15个靶点,从而生成与目标疾病关联的第二靶点信息。
84.步骤140,基于药品临床信息和/或药品上市信息,确定与目标疾病关联的第三靶点信息;
85.具体地,在得到目标疾病关联的药品临床信息和/或药品上市信息后,即可据此药品临床信息和/或药品上市信息进行靶点分析,以得到与目标疾病关联的第三靶点信息,此处具体可以通过药品临床信息和/或药品上市信息中与目标疾病关联的疾病信息和药品信息,确定与目标疾病关联的靶点信息,即第三靶点信息。
86.可以理解的是,在获取得到药品临床信息和/或药品上市信息之后,可以据此药品临床信息和/或药品上市信息确定目标疾病关联的各靶点的竞争力(包含临床竞争力和/或上市竞争力),从而生成与目标疾病关联的第三靶点信息;此处的竞争力可以通过各靶点对应的临床试验药品及其药品数量,和/或已上市药品及其药品数量进行反映。
87.具体而言,首先可以通过药品临床信息和/或药品上市信息,获取与目标疾病关联的疾病信息和药品信息;接着,可以在此基础上利用预先构建好的药品靶点关联关系,获取目标疾病关联的各靶点,以及各靶点对应的目标药品信息,此处的目标药品信息包括各靶点对应的临床试验药品及其药品数量,和/或已上市药品及其药品数量;之后,即可据此目标药品信息,确定与目标疾病关联的第三靶点信息,即可以参照目标药品信息,从目标疾病关联的各靶点中确定目标疾病-靶点信息,即第三靶点信息,这一过程实质上是以目标药品信息为基准,对目标疾病关联的各靶点进行筛选,从而得到第三靶点信息。
88.此处,可以在目标药品信息的基础上,通过临床试验药品的药品种类,和/或已上市药品的药品种类,从目标疾病关联的各靶点中确定第三靶点信息;或者可以通过临床试验药品的药品数量,和/或已上市药品的药品数量,从目标疾病关联的各靶点中确定第三靶点信息;又或者可以通过临床试验药品和/或已上市药品的药品种类和药品数量,从目标疾病关联的各靶点中确定第三靶点信息。
89.步骤150,基于第一靶点信息、第二靶点信息和第三靶点信息,构建靶点信息数据库。
90.具体地,经过上述过程得到与目标疾病关联的第一靶点信息、第二靶点信息,以及第三靶点信息之后,即可据此第一靶点信息、第二靶点信息和第三靶点信息,构建得到靶点信息数据库。
91.可以理解的是,在通过与目标疾病关联的生物信息学数据得到第一靶点信息,通过基础研究文献获得第二靶点信息,通过药品信息和/或药品上市信息得到第三靶点信息之后,可以据此三者共同构建有关于目标疾病下靶点的信息库,即目标疾病关联的靶点信息数据库,而由此构建而成的靶点信息数据库中则包含多个维度的靶点信息,从而使得研究人员据此进行靶点信息查询,以及潜力靶点分析时,能够获取系统性、结构化的靶点信息,不仅节省了信息获取时间,还使得相关靶点信息更加完整规范,能够帮助研究人员进行潜力靶点分析,进而助力新药研发。
92.进一步地,为了使构建的靶点信息数据库更加清楚、全面、准确,本发明实施例中,还可以在第一靶点信息、第二靶点信息,以及第三靶点信息的基础上,结合基础研究文献所包含的实体对的实体关系的关系强度(因果强度)和实体对的热度,以构建得到靶点信息数据库。例如,可以通过标签、附注、批示等标注实体对的关系强度和热度,通过字体的颜色和字体的粗细以区分不同的因果强度和热度,以便于据此进行靶点信息查询时能够快速准确的获知相关靶点信息。
93.本发明实施例中,通过在与目标疾病关联的生物信息学数据、基础研究文献,以及药品临床信息和/或药品上市信息的基础上,分析而得与目标疾病关联的第一靶点信息、第二靶点信息和第三靶点信息,构建得到靶点信息数据库,克服了传统方案中靶点获取难度大,分析而得的靶点的可靠性不高的缺陷,通过构建系统性、结构化的靶点信息数据库,能够帮助研究人员进行潜力靶点分析,进而助力新药研发。
94.本发明提供的靶点信息分析方法,在生物信息学数据的基础上,聚焦于基础研究文献,对疾病发病机制等海量生物医学进行高效、全面、准确地梳理,以筛选出与疾病高度相关的靶点信息,并进一步结合药品临床信息和/或药品上市信息,以分析多维度的靶点信息,从而构建得到完整全面的靶点信息数据库,不仅提高了靶点信息分析、提炼的效率,还提升了分析而得的靶点信息的可靠性,同时还降低了信息分析所需消耗的时间和成本,从而在时间层面和经济层面加快了潜力靶点的分析进程,进而有效的助力了新药研发。
95.基于上述实施例,该方法还包括:
96.基于第二靶点信息和第三靶点信息,确定潜力靶点;
97.潜力靶点的信息存在于第二靶点信息中,且不存在于第三靶点信息中;或者,
98.在目标疾病为多个的情况下,潜力靶点的信息存在于与多个目标疾病中任一疾病关联的第二靶点信息和第三靶点信息中,且存在于与多个目标疾病中任一其他疾病关联的第二靶点信息中,但不存在于与该其他疾病关联的第三靶点信息中。
99.具体地,在通过与目标疾病关联的各类信息,进行靶点信息分析,得到与目标疾病关联的第二靶点信息和第三靶点信息之后,还可据此第二靶点信息和第三靶点信息进行潜力靶点分析,以得到潜力靶点。
100.可以理解的是,此处的潜力靶点可以是新靶点,即目标疾病下该靶点在生物信息学及基础研究文献中已被证明,但是针对于目标疾病该靶点既无对应的已上市药品,也无对应的临床试验药品。
101.即,由于目标疾病下该靶点在生物信息学及基础研究文献中已被证明,因而,其信息必然存在于与目标疾病关联的第一靶点信息和第二靶点信息中,又由于本发明实施例中,通过生物信息学数据获取到的第一靶点信息,与通过基础研究文献分析得到第二靶点信息之间存在包含关系,即第二靶点信息包含于第一靶点信息中,因而,若任一信息存在于第二靶点信息中则其必然也存在于第一靶点信息中,因此此处可确定该靶点的信息存在于与目标疾病关联的第二靶点信息中。
102.进一步地,由于目标疾病该靶点既无对应的已上市药品,也无对应的临床试验药品,因而,可以确定其信息必定不存在于第三靶点信息中;由此可以确定,潜力靶点的信息存在于第二靶点信息中,且不存在于第三靶点信息中。换而言之,若目标疾病下的任一靶点的信息存在于第二靶点信息中,且不存在于第三靶点信息中,则可以将该靶点确定为针对于目标疾病的潜力靶点。
103.另外,潜力靶点还可以是能够治疗其他疾病的已知靶点,即在基于基础研究文献进行靶点信息分析时,确定该靶点除目标疾病外还存在新的适应症,对于目标疾病该靶点存在对应的临床试验药品或已上市药品,对于新的适应症该靶点无对应的已上市药品和临床试验药品。具体而言,此处可以将该靶点关联的目标疾病以及新的适应症,统一视为目标疾病,即此处的目标疾病可以是多个,针对于目标疾病中的任一疾病该靶点已存在对应的临床试验药品或已上市药品,但是针对于目标疾病中的任一其他疾病,该靶点并无对应的已上市药品,也无对应的临床试验药品。
104.即,由于该靶点是基于基础研究文献进行分析得到的,且针对目标疾病中的任一疾病该靶点存在对应的临床试验药品或已上市药品,因而,其信息必定存在于与该疾病关联的第二靶点信息和第三靶点信息中;又由于针对于目标疾病中的任一其他疾病(其他疾
病中的任一疾病),该靶点并无对应的已上市药品,也无对应的临床试验药品,因而,可以确定其信息必定存在于与该其他疾病关联的第二靶点信息中,但必定不存在于与该其他疾病关联的第三靶点信息中;由此可以确定,在目标疾病为多个的情况下,潜力靶点的信息存在于与多个目标疾病中任一疾病关联的第三靶点信息中,以及存在于与多个目标疾病中任一其他疾病关联的第二靶点信息中,但不存在于与该其他疾病关联的第三靶点信息中。
105.而值得注意的是,在通过第二靶点信息和第三靶点信息分析得到潜力靶点之后,还可以对潜力靶点进行展示,即可以通过高亮、加粗、倾斜、加重、下划线等方式对靶点信息数据库中的潜力靶点进行突出显示,以使研究人员能够清楚获知到潜力靶点,进而助力新药研发。
106.基于上述实施例,基础研究文献基于如下步骤确定:
107.获取与目标疾病关联的初始文献集合;
108.基于初始文献集合中各初始文献的出版类型,从初始文献集合中筛除二次加工文献和临床研究文献,得到候选文献集合;
109.从候选文献集合中筛选得到与目标疾病关联的基础研究文献。
110.具体地,与目标疾病关联的基础研究文献的确定过程,可以包括:
111.首先,需获取与目标疾病关联的初始文献集合,此处初始文献集合可以是文献检索数据库中与目标疾病关联的所有文献的汇总,初始文献集合可以从不同来源的文献检索数据库中获取得到,如pubmed、web of science、medpeer等,本发明实施例对此不做具体限定。
112.可以理解的是,可以将不同来源获得的初始文献集合进行合并,再筛选得到基础研究文献;也可以先对不同来源获得的初始文献集合进行筛选,基于得到的基础研究文献提取与目标疾病关联的第二靶点信息,再将不同来源的第二靶点信息进行合并,例如,在从pubmed获取得到初始文献集合后,对该初始文献集合进行筛选,得到多个基础研究文献,基于该基础研究文献可以分析得到与目标疾病关联的第二靶点信息1;在从web of science获取得到初始文献集合后,对该初始文献集合进行筛选,得到多个基础研究文献,基于该基础研究文献可以分析得到与目标疾病关联的第二靶点信息2,之后即可将第二靶点信息1和第二靶点信息2进行合并,得到完整的第二靶点信息。
113.随后,可以对与目标疾病关联的初始文献集合中的各初始文献进行筛选,以得到候选文献集合,即可以以初始文献集合中各初始文献的出版类型为基准,从初始文献集合中筛除二次加工文献和临床研究文献,从而得到候选文献集合。
114.此处,一次文献是人们直接以自己的生产、科研、社会活动等实践经验为依据生产出来的文献,又称为原始文献;二次加工文献则是对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行著录,或将其内容压缩成间接、提要或文摘,并加以有序化而形成的文献形式,如目录、综述、指南等。
115.临床研究是以疾病的诊断、治疗、预后、病因和预防为主要研究内容,以患者为主要研究对象,以医疗服务机构为主要研究基地,由多学科人员共同参与组织实施的科学研究活动。临床研究文献是指文献内容与上述科学研究活动相关的文献。
116.较之二次加工文献和临床研究文献,基础研究文献中的内容与人体正常生理机制和病理机制的基础性科学研究相关,具有高因果关系强度的优势,因此,在对初始文献集合
进行筛选时,可以基于出版类型进行初筛,从初始文献集合中过滤掉二次加工文献和临床研究文献,从而得到涉及基础研究的文献集合,即候选文献集合。
117.此处,基于出版类型对初始文献集合的筛选可以通过规则匹配的方式实现,初始文献集合中的每个初始文献至少对应一个出版类型,因此,具体的规则匹配方式可以为:若初始文献的出版类型包含第一出版类型中的至少一个且不包含第二出版类型中的任意一个,则认为该初始文献为涉及基础研究的文献;否则认为该初始文献为二次加工文献或临床研究文献,并将其从初始文献集合中删除。
118.其中,第一出版类型可以包括“journal article(期刊文章)”、“letter(快报)”。第二出版类型可以包括"randomized controlled trial(随机对照试验)"、"controlled clinical trial(对照临床试验)"、"clinical trial,phase i(一期临床试验)"、"clinical trial,phase ii(二期临床试验)"、"clinical trial,phase iii(三期临床试验)"、"clinical trial,phase iv(四期临床试验)"、"randomized controlled trial,veterinary(兽医随机对照试验)"、"systematic review(系统综述)"、"meta-analysis(荟萃分析)"、"practice guideline(实践指南)"、"guideline(指导方针)"。
119.另外,基于出版类型对初始文献集合的筛选,也可以通过文本二分类模型实现,文本二分类模型为常用的文本分类模型,可以依据出版类型将初始文献集合中的所有初始文献划分为两个类别,即基础研究文献和非基础研究文献,将初始文献集合中的各初始文献输入至文本二分类模型,可以得到文本二分类模型输出的该初始文献“是”“否”为基础研究文献,若该初始文献不是基础研究文献,则将其从初始文献集合中删除。此外,基于出版类型对初始文献集合的筛选,还可以通过规则匹配结合文本二分类的方式的实现。
120.进一步地,考虑到文献检索数据库中提供的出版类型具有一定的时间滞后性,因而,本发明实施例中为能精确筛选出最新出版的基础研究文献,可以在对初始文献集合进行初筛得到候选文献集合后,再对候选文献集合进行精确筛选,从而确保得到的所有文献均为研究基础研究文献,有益于后续从基础研究文献中高效、准确地抽取得到实体和实体关系,进而提高了靶点信息数据库构建的效率和准确度。
121.具体而言,在对候选文献集合进行精确筛选时,可以基于预训练模型加微调的文献分类器进行筛选,首先对候选文献集合中各候选文献的文本数据进行预处理,将其转换为可以输入模型的形式,将经过转换后的文本数据输入至文献分类器,通过文献分类器进行分类,判断该候选文献是否属于基础研究文献,若该候选文献不属于基础研究文献,则将其从候选文献集合中删除,从而基于最终得到的候选文献集合确定基础基础研究文献。
122.例如,在初始文献集合是从pubmed中获取得到的情况下,上述预训练模型可以选用pubmedbert预训练模型,该模型是在医学领域训练的bert模型,其预训练数据来自于pubmed的摘要和全文文章,因此该模型能够理解医学领域的专业术语和语言。在获取预训练模型时,可以从hugging face网站的模型库中下载并导入pubmedbert预训练模型,其包括预训练的权重和相应的配置文件,在导入模型时需要指定使用的模型和配置文件。
123.在获取到pubmedbert预训练模型后,使用该预训练模型作为基础,在目标数据集上进行微调。此处的目标数据集是基于上述规则匹配的方式自动构造的训练数据,将满足上述规则的文献数据加入正例,不满足的加入负例,无需人工标注训练数据,从而节省大量时间和资源。为了使模型能够对训练样本进行分类并输出训练样本是否属于基础研究文
献,需要在模型的预训练层之上添加一个全连接输出层,用于对训练样本进行分类并判断该训练样本是否属于基础研究文献,此处的训练样本是指训练数据中的样本文献。在微调训练期间,先对目标数据集中的数据进行预处理,将其转换为可以输入模型的形式,得到转换后的文本数据,然后将文本数据输入至预训练模型,文本数据经过预训练模型的输入层和transformer编码器处理,并在预训练层上提取特征,然后将提取得到的特征输入到全连接层进行分类判断。全连接层的权重和偏置根据训练数据进行更新,以最小化目标数据集上的损失函数,从而得到基于预训练模型加微调的文献分类器。可理解的是,微调训练期间,可以使用相应的训练策略和超参数来优化模型性能。
124.本发明实施例中,先基于出版类型对初始文献集合进行初筛,得到候选文献集合,后通过基于预训练模型加微调的文献分类器对候选文献集合进行精确筛选,可以确保两次筛选后得到的所有文献均为基础研究文献,从而有利于后续从基础研究文献中高效、准确地抽取得到实体和实体关系,进而提高了靶点信息数据库构建的效率和准确度。
125.基于上述实施例,基于初始文献集合中各初始文献的出版类型,从初始文献集合中筛除二次加工文献和临床研究文献,得到候选文献集合,包括:
126.基于初始文献集合中各初始文献的出版类型,从初始文献集合中筛除二次加工文献和临床研究文献,得到第一文献集合;
127.基于第一文献集合中各第一文献的出版类型和出版时间,从第一文献集合中筛选第二文献,第二文献为出版类型待更新的第一文献;
128.将第二文献输入文献分类器,得到文献分类器输出的第二文献的文献类型;
129.将文献类型为非基础研究文献的第二文献从第一文献集合中删除,得到候选文献集合。
130.此处,二次加工文献是对一次文献进行加工整理后的产物,其文献内容没有一次文献全面,若在获取到与目标疾病关联的初始文献集合后,根据初始文献集合中的二次加工文献进行实体识别,则易导致依据文献数据获取的第二靶点信息不够全面。另外,由于临床研究文献中的内容与人体正常生理机制和病理机制的基础性科学研究无关,对于与疾病相关的靶点信息的获取作用不大,因此,在对初始文献集合中的各初始文献进行筛选时,需要将二次加工文献和临床研究文献从初始文献集合中删除,从而得到涉及基础研究的第一文献集合。
131.针对初始文献集合的筛选以得到第一文献集合的过程,可以基于规则匹配的方式实现,也可以通过文本二分类的方式实现,还可以通过规则匹配结合文本二分类的方式实现,本发明实施例对此不做具体限定,具体实现过程上文已详细说明,此处不再赘述。
132.进一步地,考虑到文献检索数据库中提供的出版类型具有一定的时间滞后性,例如,对于pubmed提供的出版类型仅为“journal article”且出版时间在12个月以内的文献,通常认为该文献的出版类型仍待更新,因此,本发明实施例中,为了避免对此类型的文献筛选错误,在得到第一文献集合后,还可以基于出版类型和出版时间,对第一文献集合中的各第一文献进行筛选,以得到出版类型待更新的第一文献。
133.具体而言,在对初始文献集合进行筛选得到第一文献集合后,由于第一文献集合中可能存在有出版类型待更新的第一文献,由于此类第一文献的出版类型仍待更新,因而其当前的出版类型并不完全准确,因此,为了对此类第一文献进行精确筛选,本发明实施例
中可以依据第一文献集合中各第一文献的出版类型和出版时间,对各第一文献进行筛选,以从中筛选出出版类型和出版时间满足预设条件的第一文献,视作第二文献。可以理解的是,此处的出版类型和出版时间满足预设条件的第一文献,即为出版类型待更新的第一文献,也即第二文献。需要说明的是,此处预设条件可以是出版类型仅为“journal article”且出版时间在12个月以内。
134.此处,在根据出版时间和出版类型对第一文献集合进行筛选时,可以获取第一文献集合中每个第一文献的出版时间和出版类型,将每个第一文献的出版时间和出版类型与预设条件进行匹配,若满足预设条件,则认为该第一文献的出版类型待更新,可以将其作为第二文献。
135.之后,即可对第二文献的文本数据进行预处理,将其转换为可以输入模型的形式,将经过转换后的文本数据输入至文献分类器,以通过文献分类器进行分类,最终得到文献分类器输出的第二文献的文献类型。此处的文献分类器可以是为上述实施例中的基于预训练模型加微调的文献分类器。
136.此处,文献类型可以用于判断第二文献是否属于基础研究文献。文献类型可以包括若干种,文献分类器可以基于第二文献的内容对第二文献进行分类,输出得到第二文献的文献类型,该文献类型可能为一个或多个。
137.而在得到第二文献的文献类型后,可以根据文献类型确定对应第二文献是否为基础研究文献,即可以根据文献分类器输出得到的第二文献的文献类型,判断第二文献为基础研究文献或非基础研究文献,此处可以是在第二文献的文献类型包含第一文献类型中的至少一个且不包含第二文献类型中的任意一个的情况下,认为该第二文献为基础研究文献;否则,认为该第二文献为非基础研究文献。进一步地,在确定第二文献为非基础研究文献的情况下,可以将该第二文献从第一文献集合中删除,从而得到候选文献集合。
138.此处的第一文献类型可以包括“journal article”、“letter”。第二文献类型可以包括"randomized controlled trial"、"controlled clinical trial"、"clinical trial,phase i"、"clinical trial,phase ii"、"clinical trial,phase iii"、"clinical trial,phase iv"、"randomized controlled trial,veterinary"、"systematic review"、"meta-analysis"、"practice guideline"、"guideline"。
139.本发明实施例中,先基于出版类型对初始文献集合进行筛选,将初始文献集合中的二次加工文献和临床研究文献删除,得到第一文献集合,然后基于出版类型和出版时间对第一文献集合进行筛选,从中筛选得到出版类型待更新的第一文献,将此类第一文献作为第二文献,最后通过文献分类器对第二文献进行分类判断,可以避免对此类出版类型待更新的文献筛选错误,不仅可以避免遗漏其中的基础研究文献,还可以避免误将其中的非基础研究文献作为基础研究文献,从而确保后续从基础研究文献中抽取得到的实体及实体关系更加准确、全面。
140.基于上述实施例,基于基础研究文献所包含的实体对,确定与目标疾病关联的第二靶点信息,包括:
141.基于基础研究文献所包含的实验技术实体的类型,确定基础研究文献所包含的实体对的实体关系的因果强度;
142.基于实体对的实体关系的因果强度,从实体对中确定与目标疾病关联的第二靶点
信息,因果强度表征实体对中疾病实体和靶点实体之间的实体关系的关系强度。
143.具体地,步骤130中,根据基础研究文献所包含的实体对,确定与目标疾病关联的第二靶点信息的过程,实质上是依据基础研究文献所包含的实体对的实体关系的关系强弱,从实体对中确定与目标疾病关联的第二靶点信息,此处实体关系的关系强弱可以通过实体对对应的因果强度进行体现,此处因果强度表征实体对中疾病实体和靶点实体之间的实体关系的关系强度;而因果强度又需凭借基础研究文献所包含的实验技术实体的类型进行裁定。
144.因而,本发明实施例中,在通过实体识别、实体抽取等得到基础研究文献所包含的所有实体后,首先可以对基础研究文献所包含的所有实体中实体技术实体的类型进行判定,以据此确定实体对的实体关系的因果强度,即根据基础研究文献所包含的实体技术实体的类型,确定实体对中疾病实体和靶点实体之间的实体关系的关系强度。
145.具体而言,此处的关系强度可以是不相关或相关。当实体对中的疾病实体和靶点实体之间不存在关系时,表明这两个实体没有关联,此时可以确定这两个实体之间的实体关系的因果强度为不相关;当实体对中的疾病实体和靶点实体存在关系时,表明这两个实体有关联,则可以确定这两个实体之间的实体关系的因果强度为相关。
146.为了更好地对实体关系的因果强度进行区分,以便研究人员快速获知实体之间的关系强度,更好地了解疾病的根本原因,可以在实体关系的因果强度为相关时,进一步将因果强度分为强相关和弱相关。而为了更清楚、准确的得到实体之间的实体关系的因果强度,本发明实施例中,可以基于基础研究文献所包含的实验技术实体的类型进行判断,实验技术实体是与整个实验过程中所采取的主要手段和主要方式方法有关的实体,其所包括的技术实体众多,因此可以基于实验技术实体的具体内容,判断基础研究文献所包含的实体对的实体关系的因果强度为强相关还是弱相关,从而得到准确的实体关系的因果强度。
147.而在根据实验技术实体,对实体对的实体关系的因果强度进行判别时,可以基于预设判别规则进行判断确定。此处的预设判别规则可以为实验技术实体包括预设实验技术实体,由于实体对中疾病实体和靶点实体之间已经形成了关系,因此,当实验技术实体包括预设实验技术实体时,则可以确定这两个实体之间的实体关系的因果强度为强相关;反之,当实验技术实体不包括预设实验技术实体时,则可以确定这两个实体之间的实体关系的因果强度为弱相关。
148.此处,预设实验技术实体为实验技术实体中可以用于判别两个实体之间的实体关系的因果强度为强相关的一类实体,例如,预设实验技术实体可以为干预实验技术实体。需要说明的是,在基于实验技术实体判别实体之间的实体关系的因果强度时,实验技术实体与所需要判别的实体均是基于同一基础研究文献抽取得到的。
149.进一步地,在得到实体对的实体关系的因果强度之后,即可据此因果强度,确定与目标疾病关联的第二靶点信息,即可以参照实体对的实体关系的因果强度,从基础研究文献所包含的实体对中确定与目标疾病关联的第二靶点信息,具体可以是依据实体关系的关系强弱,对基础文献所包含的实体对进行筛选从而得到第二靶点信息。
150.具体而言,可以在实体对的实体关系的因果强度的基础上,借助关系强度阈值进行筛选,以从基础研究文献所包含的实体对中选取匹配于关系强度阈值的实体对,以得到第二靶点信息;或者可以照此因果强度,对基础研究文献所包含的实体对进行排序,从排序
而得的实体对序列中选取若干个连续的实体对,从而得到第二靶点信息。
151.此处,关系强度阈值可以是预先根据实际需求、实际情况等设定的强度关系,例如,强相关、弱相关等,也可以是表征强度关系的具体数值,例如,80%、75%、60%等,也可以是根据目标疾病的具体类型、所属范畴等设定的强度关系或表征强度关系的具体数值。
152.例如,可以从基础研究文献所包含的实体对中选取实体关系的关系强度为强相关的实体对,或者选取实体关系的关系强度达到80%的实体对,从而据此靶点生成与目标疾病关联的第二靶点信息。又例如,可以从按照关系强度从强到若或从若到强排列的实体对序列中,选取前15个或后15个靶点,从而生成与目标疾病关联的第二靶点信息。
153.此外,值得注意的是,在基于实体对的实体关系的因果强度,从实体对中确定与目标疾病关联的第二靶点信息时,还可以对实体对的热度、实体对的实体关系的因果强度进行考虑,此处实体对的热度可以基于基础研究文献的文献引用信息确定。
154.此处,文献引用信息是基础研究文献被引用的相关信息和数据,其可以用来评价基础研究文献的影响力和有用性,文献引用信息包括但不限于下述至少一种:影响因子、jcr(journal citation reports,期刊引用报告)分区、中国科学院分区、引用数、月平均引用数等。在确定实体对的热度时,可以先基于文献引用信息对每个基础研究文献进行打分,获得每个基础研究文献的影响力分值,再基于实体对出现的所有基础研究文献的影响力分值,获得实体对的热度。
155.具体而言,在获得每个基础研究文献的影响力分值时,首先可以获取每个基础研究文献的文献引用信息,即影响因子、jcr分区、中国科学院分区、引用数以及月平均引用数等指标,然后可以对上述所有指标进行综合考量后对基础研究文献进行打分,分值可以设定为1~5分,得到的分值即为该基础研究文献的影响力分值。也可以基于上述各个指标分别对每个基础研究文献进行打分,获得每个指标对应的分值,例如,基于影响因子对基础研究文献进行打分时,可以将影响因子划分为0~20%、21%~40%、41%~60%、61%~80%、81%~100%五档,每一档依次对应1分、2分、3分、4分、5分,当获取到基础研究文献的影响因子为57%时,可以为该基础研究文献打3分,在获得每个指标对应的分值后,将所有指标对应的分值之和作为该基础研究文献的影响力分值。
156.而在获取得到每个基础研究文献的影响力分值后,可以基于实体对出现的所有基础研究文献进行二次加权打分,从而获得实体对的热度。之后即可据此热度、实体对,以及实体对的实体关系的因果强度,确定与目标疾病关联的第二靶点信息。
157.基于上述实施例,基于基础研究文献所包含的实验技术实体的类型,确定基础研究文献所包含的实体对的实体关系的因果强度,包括:
158.若基础研究文献所包含的实验技术实体的类型包括干预实验技术实体,则将基础研究文献所包含的实体对的实体关系的因果强度确定为强相关;否则,将基础研究文献所包含的实体对的实体关系的因果强度确定为弱相关。
159.此处,干预实验技术实体是指实验技术实体中的一类可以用于判别两个实体间的实体关系的因果强度为强相关的技术实体,干预实验技术实体包括但不限于:crispr/cas9(基因治疗法)、rna干扰、质粒转染、病毒载体介导的过表达。
160.可以理解的是,在基于实验技术实体所包含的干预实验技术实体判别实体关系的因果强度时,若同一基础研究文献内的疾病实体和靶点实体形成了实体关系,同时该基础
研究文献内的实验技术实体包括干预实验技术实体中的至少一个,则将这两个实体之间的实体关系的因果强度确定为强相关;若同一基础研究文献内的两个实体之间形成了实体关系,同时该基础研究文献内的实验技术实体未包括干预实验技术实体中的任意一个,则将这两个实体之间的实体关系的因果强度确定为弱相关;若同一基础研究文献内的两个实体之间未形成实体关系,则将这两个实体之间的实体关系的因果强度确定为不相关。
161.基于上述实施例,基础研究文献所包含的实体对基于如下步骤确定:
162.获取基础研究文献的标题文本和摘要文本;
163.将标题文本和摘要文本输入至语句分类器,得到语句分类器输出的标题文本和摘要文本中各语句的语句类型;
164.对语句类型为待识别的语句进行实体识别,得到基础研究文献所包含的实体对。
165.具体地,在从基础研究文献中抽取实体及实体关系时,由于基础研究文献整体的文本篇幅很长,而且其中大部分都是冗余信息,因此为了提高实体识别抽取的效率,可以将抽取范围设定为标题文本和摘要文本。因而,在获取得到基础研究文献后,首先可以基于对基础研究文献进行文本信息提取,以提取出其中的标题信息和摘要信息,从而得到基础研究文献的标题文本和摘要文本。
166.进一步地,为了从标题文本和摘要文本中区分主要信息和次要信息,可以对标题文本和摘要文本进行分类判断,将标题文本和摘要文本中包含主要信息的语句进行保留,而将标题文本和摘要文本中包含次要信息的语句进行舍弃,从而针对保留下来的标题文本和摘要文本中的语句进行实体识别,进一步提高实体抽取的效率。
167.随即,可将获取得到的基础研究文献的标题文本和摘要文本输入至语句分类器,以通过语句分类器进行分类,从而得到语句分类器输出的标题文本和摘要文本中各语句的语句类型,即可以通过语句分类器判断该基础研究文献的标题文本和摘要文本中各语句的语句类型,若该语句中包含有主要信息,则将该语句保留下来,并输出该语句的语句类型为待识别的语句;反之,若该语句中不包含主要信息,则对该语句进行舍弃。
168.其中,语句分类器是基于人工标注的训练数据对预训练模型进行训练后得到的,其用于判断标题文本和摘要文本中各语句的语句类型。此处的语句类型包括待识别的语句和无需识别的语句,其中待识别的语句是标题文本和摘要文本中包含主要信息的语句,无需识别的语句则是标题文本和摘要文本中不包含主要信息的语句,此处主要信息是与待抽取的实体和实体关系相关的文本信息。
169.而在将标题文本和摘要文本输入至语句分类器之前,还可以预先训练得到语句分类器,具体训练方式如下:首先获取预训练模型,例如,pubmedbert预训练模型,并收集大量样本标题文本和摘要文本,通过人工对样本标题文本和摘要文本中各语句的语句类型进行标注识别;接着可以基于样本标题文本和摘要文本以及人工标注的语句类型,对预训练模型进行训练,从而得到训练完成的语句分类器。
170.而在得到标题文本和摘要文本中各语句的语句类型之后,即可对语句类型为待识别的语句进行实体识别,从而得到基础研究文献所包含的实体对。此处的待识别的语句是标题文本和摘要文本中经过语句分类器分类判断后保留下来的包含有主要信息的语句。在对该类型的语句进行实体识别时,首先,可以基于预先构建的标准字典,使用规则匹配的方案进行实体抽取,即将预先构建的标准字典中出现过的所有实体都抽取出来,保证基于标
准字典的实体抽取的精确性;其次,由于仍有很多实体或实体别名可能未被预先构建的标准字典包含,可以采用命名实体识别模型进一步对待识别的语句进行实体识别,通过命名实体识别模型对语句中的语义进行解析,从而抽取得到基础研究文献所包含的实体,如此可以保证抽取得到的实体更加全面准确。
171.需要说明的是,此处的命名实体识别模型是自然语言处理领域中一项基础的信息抽取任务模型,用于从给定的文本中识别出其中的命名实体,并对实体进行分类。由于所要抽取的实体种类众多,包括疾病实体、靶点实体、实验技术实体等,因此,为了实现对多种实体的抽取,可以在命名实体识别模型上采用多任务的架构进行实现,命名实体识别模型的输入是标题文本和摘要文本中待识别的语句,其输出是多个任务的结果,每个任务是一种实体的抽取,如疾病实体抽取任务、分子实体抽取任务等。
172.本发明实施例中,通过获取基础研究文献的标题文本和摘要文本,将文本的抽取范围设定为标题文本和摘要文本,可以提高实体识别和实体关系抽取的效率,通过语句分类器对标题文本和摘要文本进行分类判断,可以进一步缩小文本抽取的范围,从而提高实体和实体关系的抽取效率,进而提高第二靶点信息的获取效率。
173.基于上述实施例,由于标题文本和摘要文本中包含有大量代词,这些代词也可能表示某些实体,为了进一步确保实体以及实体关系识别抽取的全面和准确,可以在多任务架构的命名实体识别模型中添加一个新任务,即抽取标题文本和摘要文本中的代词。为此,对语句类型为待识别的语句进行实体识别,得到基础研究文献所包含的实体对,包括:
174.对待识别的语句进行实体识别,得到语句中的实体和代词,实体包括疾病实体和靶点实体;
175.将语句、实体和代词输入至指代关系分类器,得到指代关系分类器输出的实体与代词之间的指代关系;
176.若指代关系为是,则将语句中的代词替换为对应实体,得到优化语句,并将优化语句,以及优化语句中的实体输入至实体关系分类器,得到实体关系分类器输出的实体关系。
177.具体地,在对标题文本和摘要文本中的语句进行实体识别时,可以先基于预先构建的标准字典,利用规则匹配的方式进行实体抽取;然后利用多任务架构的命名实体识别模型进行抽取,得到语句中包含的所有实体和代词。在得到众多的实体以及相关的代词后,需要将实体与实体以及实体与代词关联起来。首先,对于所有的代词和实体,可以使用指代关系分类器判断每个代词和每个实体是否有指代关系,即可以语句,以及语句中的实体和代词输入至指代关系分类器,指代关系分类器采用二分类的方式对代词与实体之间的关系进行分类,判断代词和实体是否有指代关系。进一步地,在指代关系为是的情况下,表明该代词指代的为该实体,即该代词与该实体等同,可以将该代词替换为该实体;在指代关系为否的情况下,表明该代词与该实体不等同,可以将该代词删掉,从而得到优化语句。
178.其次,将实体与代词进行关联后,还需要将实体与实体进行关联,从而得到实体之间的实体关系。由于在同一个基础研究文献中可能存在同一种实体有很多不同表示的情况,比如一个实体的全称和缩写,因此,在得到优化语句后,可以先基于实体关系分类器对相同实体类型下不同实体间的实体关系进行判断。例如,将优化语句以及优化语句中的实体a和实体b输入至实体关系分类器,可以得到实体关系分类器输出的实体a和实体b之间的实体关系。此处的实体关系可以为如下实体关系中的一个:实体a等于实体b、实体a包含实
体b、实体b包含实体a、实体a和实体b无关。由于相同实体类型下不同实体的关系种类较多,因此可以采用基于多分类模型的实体关系分类器对此种类型的实体关系进行分类判断。
179.最后,由于实体种类较多,还需要对不同实体类型间的实体之间的实体关系进行判断,例如,疾病a和靶点b的实体关系。即可以将优化语句以及优化语句中不同实体类型的两个实体输入实体关系分类器,可以得到实体关系分类器输出的这两个实体之间的实体关系,即疾病实体和靶点实体之间的实体关系。此处,不同实体类型间的实体关系判断可以基于token-classification模型的实体关系分类器实现。
180.本发明实施例中,通过先对语句中的代词进行处理,在代词和实体之间的指代关系为是的情况下,将语句中的代词替换为对应的实体,可以使得到的优化语句的语义更加清楚,便于后续基于优化语句识别得到实体之间的实体关系,从而可以更加高效、全面、准确地对实体关系进行识别分析。
181.基于上述实施例,将语句中的代词替换为对应的疾病实体或靶点实体,得到优化语句,之后还包括:
182.将优化语句,以及优化语句中的实体,填充至关系问询模板,得到关系问询语句;
183.将关系问询语句输入问答语言模型,得到问答语言模型输出的实体关系。
184.具体地,上述进行实体识别,分析得到实体和实体关系时,可以使用问答语言模型进行预测得到。本发明实施例的问答语言模型可以为chatgpt语言模型,也可以为llm(large language model)语言模型,本发明实施例对此不做具体限制。在得到优化语句后,可将优化语句以及优化语句中的实体,填充至关系问询模板,即根据优化语句,以及优化语句中的实体,对应替换关系问询模板中的相关内容,从而得到关系问询语句;之后即可将关系问询语句作为问答语言模型的输入,问答语言模型基于给定的格式进行解析,从而可以得到问答语言模型输出的实体关系。
185.示例性的,上述问答语言模型可以为chatgpt(chat generative pre-trained transformer)语言模型,相应地,关系问询模板可以为:
[0186]“以下将给出一段生物医学和其中包含的实体,请根据文本语义判断实体之间可能的二元关系。输入[文本内容]输入[实体内容],可能存在的实体关系:[实体关系]。请按照以下格式“(实体1,实体2,实体关系)”逐行输出结果。”[0187]
上述关系问询模板中,中括号内的内容需要按照优化语句和抽取得到的实体进行相应替换,从而得到关系问询语句,将关系问询语句作为chatgpt语言模型的输入,使chatgpt语言模型按照给定的格式解析其结果,得到输出的实体关系。如果出现chatgpt语言模型无法解析的输出格式,则可以再次请求重新获取结果。
[0188]
为了进一步得到更加全面、准确的实体关系,可以将问答语言模型输出的实体关系与上述基于实体关系分类器得到的实体关系进行合并。
[0189]
基于上述实施例,基于药品临床信息和/或药品上市信息,确定与目标疾病关联的第三靶点信息,包括:
[0190]
基于药品临床信息和/或药品上市信息,确定目标疾病关联的疾病信息和药品信息;
[0191]
基于预设的药品靶点关联关系,以及疾病信息和药品信息,确定目标疾病关联的各靶点对应的目标药品及药品数量;
[0192]
基于目标药品及药品数量,从目标疾病关联的各靶点中,确定与目标疾病关联的第三靶点信息。
[0193]
具体地,步骤140中,根据药品临床信息和/或药品上市信息,确定与目标疾病关联的第三靶点信息的过程,具体可以包括:
[0194]
首先,可以依据药品临床信息和/或药品上市信息,确定目标疾病关联的疾病信息和药品信息,即可以在药品临床信息和/或药品上市信息的基础上,进行疾病信息和药品信息的提取,从而获得与目标疾病关联的疾病信息和药品信息。
[0195]
进一步地,考虑到上一步获取的疾病信息和药品信息中可能存在交叉、重叠、不规范等的信息,因而,本发明实施例中还可以借助预设的标准字典,对疾病信息和药品信息进行校准处理,即可以借助标准字典进行标准化,此处可以将疾病信息和药品信息与预设的标准字典进行匹配,并根据匹配结果校准疾病信息和药品信息,即在匹配结果表明两者描述的同一疾病或药品的情况下,根据标准字典中的疾病信息或药品信息,规范上一步获得的疾病信息和药品信息,从而标准化后的疾病信息和药品信息。
[0196]
随后,可以根据预设的药品靶点关联关系,以及疾病信息和药品信息,确定目标疾病关联的各靶点对应的目标药品及药品数量,即可以在疾病信息和药品信息的基础上,利用预先构建好的药品靶点关联关系进行关联链接,以获取目标疾病关联的各靶点,以及各靶点对应的目标药品信息,此处的目标药品信息包括各靶点对应的目标药品及药品数量,目标药品可以是临床试验药品和/或已上市药品。
[0197]
此后,即可依据目标药品及药品数量,从目标疾病关联的各靶点中,确定与目标疾病关联的第三靶点信息,即可以目标药品信息为基准,对目标疾病关联的各靶点进行筛选,从而得到与目标疾病关联的第三靶点信息。此处,可以在目标药品及药品数量的基础上,借助药品数量阈值以从目标疾病关联的各靶点中确定第三靶点信息。此处药品数量阈值可以是预先根据实际需求、实际情况等设定的药品的具体数量,例如,10、8、5等,也可以是根据目标疾病的具体类型、所属范畴等设定的药品的具体数量。例如,可以从目标疾病关联的各靶点中选取药品数量大于等于10,或者大于等于5的靶点,从而据此靶点生成与目标疾病关联的第三靶点信息。
[0198]
也可以是按照药品数量,对目标疾病关联的各靶点的进行排序,从排序而得的靶点序列中选取若干个连续的靶点,以与目标疾病共同组建形成与目标疾病关联的第三靶点信息。例如,可以从按照药品数量从多到少或从少到多排列的靶点序列中,选取前10个或后10个靶点,从而生成与目标疾病关联的第三靶点信息。
[0199]
本发明还提供一种靶点信息查询方法,图2是本发明提供的靶点信息查询方法的流程示意图,如图2所示,该方法包括:
[0200]
步骤210,获取待查询的目标疾病和/或目标靶点;
[0201]
步骤220,基于靶点信息数据库,确定所述目标疾病和/或所述目标靶点的相关靶点信息,所述靶点信息数据库是基于如上述任一项所述的靶点信息分析方法确定的;
[0202]
步骤230,对相关靶点信息进行展示。
[0203]
具体地,针对各种来源的基础研究文献,可以通过上述实施例提供的方法对疾病发病机制等高通量信息进行高效、全面、准确地梳理,并基于实验技术实体构建因果关系评价体系,从而构建靶点信息数据库,帮助研究人员快速获知与疾病高度相关的靶点信息,并
对其治疗方法、治疗药物、新药研发提供新思路和新见解。在此基础上,可以构建靶点信息查询系统,以便快速查找疾病相关的靶点信息。
[0204]
可以理解的是,首先需要确定待查询的目标对象,此处待查询的目标对象是与人体正常生理机制和病理机制相关的疾病和/或靶点,即目标疾病和/或目标靶点,然后可以将待查询的目标疾病和/或目标靶点输入至靶点信息查询系统,例如,可以通过手机、电脑、平板等将目标疾病和/或目标靶点输入至靶点信息查询系统。
[0205]
靶点信息查询系统在接收到待查询的目标疾病和/或目标靶点之后,即可基于构建的靶点信息数据库进行查找,以从靶点信息数据库中定位与目标疾病和/或目标靶点相关的靶点信息,并将这一部分靶点信息从靶点信息数据库中抽取出来,或者将这一部分靶点信息以及与之关联的其他靶点信息抽取出来,从而得到待查询的目标疾病和/或目标靶点相关的靶点信息,即相关靶点信息;之后即可对此相关靶点信息进行展示,以便相关人员查看知晓。
[0206]
此处,针对于相关靶点信息的展示,可以通过预先设置的展示方式进行,例如,触发展示、点击展示、滑动展示等,即在得到相关靶点信息后,可通过触发展示图标、点击显示屏幕、滑动显示页面中的一种或多种展示方式,实现对相关靶点信息的展示。
[0207]
示例性的,当待查询的目标对象为目标疾病时,输入目标疾病,可以得到目标疾病的相关靶点信息,此处的相关靶点信息可以是目标疾病关联的各靶点的突变率、目标疾病关联的实体对、实体关系的因果强度、目标疾病关联的各靶点对应的目标药品(临床试验药品和/或已上市药品)及药品数量、实体对的热度中的任意一种或多种。
[0208]
本发明提供的靶点信息查询方法,通过基于全面、准确的靶点信息数据库实现与人体正常生理机制和病理机制相关的目标疾病和/或目标靶点的相关靶点信息的快速检索查询,可以帮助相关人员快速准确的定位与疾病高度相关的靶点信息,从而获知疾病的根本原因,进而对疾病治疗提供新思路新见解,不仅提升了有效靶点信息的查询效率,保证了获取的相关靶点信息的规范有序,还能够保障其时效性,从而为后续的新药研发过程提供强有力的助力。
[0209]
下面对本发明提供的靶点信息分析装置进行描述,下文描述的靶点信息分析装置与上文描述的靶点信息分析方法可相互对应参照。
[0210]
图3是本发明提供的靶点信息分析装置的结构示意图,如图3所示,该装置包括:
[0211]
信息获取单元310,用于获取与目标疾病关联的生物信息学数据、基础研究文献,以及药品临床信息和/或药品上市信息;
[0212]
第一确定单元320,用于基于所述生物信息学数据中各靶点的突变率,确定与所述目标疾病关联的第一靶点信息;
[0213]
第二确定单元330,用于基于所述基础研究文献所包含的实体对,确定与所述目标疾病关联的第二靶点信息,所述实体对包括疾病实体、靶点实体和实体关系;
[0214]
第三确定单元340,用于基于所述药品临床信息和/或所述药品上市信息,确定与所述目标疾病关联的第三靶点信息;
[0215]
数据库构建单元350,用于基于所述第一靶点信息、所述第二靶点信息和所述第三靶点信息,构建靶点信息数据库。
[0216]
本发明提供的靶点信息分析装置,在生物信息学数据的基础上,聚焦于基础研究
文献,对疾病发病机制等海量生物医学进行高效、全面、准确地梳理,以筛选出与疾病高度相关的靶点信息,并进一步结合药品临床信息和/或药品上市信息,以分析多维度的靶点信息,从而构建得到完整全面的靶点信息数据库,不仅提高了靶点信息分析、提炼的效率,还提升了分析而得的靶点信息的可靠性,同时还降低了信息分析所需消耗的时间和成本,从而在时间层面和经济层面加快了潜力靶点的分析进程,进而有效的助力了新药研发。
[0217]
基于上述实施例,该装置还包括潜力靶点确定单元,用于:
[0218]
基于所述第二靶点信息和所述第三靶点信息,确定潜力靶点;
[0219]
所述潜力靶点的信息存在于所述第二靶点信息中,且不存在于所述第三靶点信息中;或者,
[0220]
在目标疾病为多个的情况下,所述潜力靶点的信息存在于与多个目标疾病中任一疾病关联的第二靶点信息和第三靶点信息中,且存在于与多个目标疾病中任一其他疾病关联的第二靶点信息中,但不存在于与所述任一其他疾病关联的第三靶点信息中。
[0221]
基于上述实施例,信息获取单元310用于:
[0222]
获取与所述目标疾病关联的初始文献集合;
[0223]
基于所述初始文献集合中各初始文献的出版类型,从所述初始文献集合中筛除二次加工文献和临床研究文献,得到候选文献集合;
[0224]
从所述候选文献集合中筛选得到与所述目标疾病关联的基础研究文献。
[0225]
基于上述实施例,信息获取单元310用于:
[0226]
基于所述初始文献集合中各初始文献的出版类型,从所述初始文献集合中筛除二次加工文献和临床研究文献,得到第一文献集合;
[0227]
基于所述第一文献集合中各第一文献的出版类型和出版时间,从所述第一文献集合中筛选第二文献,所述第二文献为所述出版类型待更新的第一文献;
[0228]
将所述第二文献输入文献分类器,得到所述文献分类器输出的所述第二文献的文献类型;
[0229]
将所述文献类型为非基础研究文献的第二文献从所述第一文献集合中删除,得到所述候选文献集合。
[0230]
基于上述实施例,第二确定单元330用于:
[0231]
基于所述基础研究文献所包含的实验技术实体的类型,确定所述基础研究文献所包含的实体对的实体关系的因果强度;
[0232]
基于所述实体对的实体关系的因果强度,从所述实体对中确定与所述目标疾病关联的第二靶点信息,所述因果强度表征所述实体对中所述疾病实体和所述靶点实体之间的实体关系的关系强度。
[0233]
基于上述实施例,第二确定单元330用于:
[0234]
获取所述基础研究文献的标题文本和摘要文本;
[0235]
将所述标题文本和摘要文本输入至语句分类器,得到所述语句分类器输出的所述标题文本和摘要文本中各语句的语句类型;
[0236]
对所述语句类型为待识别的语句进行实体识别,得到所述基础研究文献所包含的实体对。
[0237]
基于上述实施例,第二确定单元330用于:
[0238]
对所述待识别的语句进行实体识别,得到所述语句中的实体和代词,所述实体包括疾病实体和靶点实体;
[0239]
将所述语句、所述实体和所述代词输入至指代关系分类器,得到所述指代关系分类器输出的所述实体与所述代词之间的指代关系;
[0240]
若所述指代关系为是,则将所述语句中的代词替换为对应实体,得到优化语句,并将所述优化语句,以及所述优化语句中的实体输入至实体关系分类器,得到所述实体关系分类器输出的所述实体关系。
[0241]
基于上述实施例,第二确定单元330用于:
[0242]
将所述优化语句,以及所述优化语句中的实体,填充至关系问询模板,得到关系问询语句;
[0243]
将所述关系问询语句输入问答语言模型,得到所述问答语言模型输出的所述实体关系。
[0244]
基于上述实施例,第三确定单元330用于:
[0245]
基于所述药品临床信息和/或所述药品上市信息,确定所述目标疾病关联的疾病信息和药品信息;
[0246]
基于预设的药品靶点关联关系,以及所述疾病信息和所述药品信息,确定所述目标疾病关联的各靶点对应的目标药品及药品数量;
[0247]
基于所述目标药品及药品数量,从所述目标疾病关联的各靶点中,确定与所述目标疾病关联的第三靶点信息。
[0248]
下面对本发明提供的靶点信息查询装置进行描述,下文描述的靶点信息查询装置与上文描述的靶点信息查询方法可相互对应参照。
[0249]
图4是本发明提供的靶点信息查询装置的结构示意图,如图4所示,该装置包括:
[0250]
获取单元410,用于获取待查询的目标疾病和/或目标靶点;
[0251]
查询单元420,用于基于靶点信息数据库,确定所述目标疾病和/或所述目标靶点的相关靶点信息,所述靶点信息数据库是基于上述任一项所述的靶点信息分析方法确定的;
[0252]
展示单元430,用于对所述相关靶点信息进行展示。
[0253]
本发明提供的靶点信息查询装置,通过基于全面、准确的靶点信息数据库实现与人体正常生理机制和病理机制相关的目标疾病和/或目标靶点的相关靶点信息的快速检索查询,可以帮助相关人员快速准确的定位与疾病高度相关的靶点信息,从而获知疾病的根本原因,进而对疾病治疗提供新思路新见解,不仅提升了有效靶点信息的查询效率,保证了获取的相关靶点信息的规范有序,还能够保障其时效性,从而为后续的新药研发过程提供强有力的助力。
[0254]
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行靶点信息分析方法或靶点信息查询方法,其中,靶点信息分析方法包括:获取与目标疾病关联的生物信息学数据、基础研究文献,以及药品临床信息和/或药品上市信息;基于所述生物信息学数据中各靶点的突变
率,确定与所述目标疾病关联的第一靶点信息;基于所述基础研究文献所包含的实体对,确定与所述目标疾病关联的第二靶点信息,所述实体对包括疾病实体、靶点实体和实体关系;基于所述药品临床信息和/或所述药品上市信息,确定与所述目标疾病关联的第三靶点信息;基于所述第一靶点信息、所述第二靶点信息和所述第三靶点信息,构建靶点信息数据库。靶点信息查询方法包括:获取待查询的目标疾病和/或目标靶点;基于靶点信息数据库,确定所述目标疾病和/或所述目标靶点的相关靶点信息,所述靶点信息数据库是基于如上述任一项所述的靶点信息分析方法确定的;对所述相关靶点信息进行展示。
[0255]
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0256]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的靶点信息分析方法或靶点信息查询方法,其中,靶点信息分析方法包括:获取与目标疾病关联的生物信息学数据、基础研究文献,以及药品临床信息和/或药品上市信息;基于所述生物信息学数据中各靶点的突变率,确定与所述目标疾病关联的第一靶点信息;基于所述基础研究文献所包含的实体对,确定与所述目标疾病关联的第二靶点信息,所述实体对包括疾病实体、靶点实体和实体关系;基于所述药品临床信息和/或所述药品上市信息,确定与所述目标疾病关联的第三靶点信息;基于所述第一靶点信息、所述第二靶点信息和所述第三靶点信息,构建靶点信息数据库。靶点信息查询方法包括:获取待查询的目标疾病和/或目标靶点;基于靶点信息数据库,确定所述目标疾病和/或所述目标靶点的相关靶点信息,所述靶点信息数据库是基于如上述任一项所述的靶点信息分析方法确定的;对所述相关靶点信息进行展示。
[0257]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法所提供的靶点信息分析方法或靶点信息查询方法,其中,靶点信息分析方法包括:获取与目标疾病关联的生物信息学数据、基础研究文献,以及药品临床信息和/或药品上市信息;基于所述生物信息学数据中各靶点的突变率,确定与所述目标疾病关联的第一靶点信息;基于所述基础研究文献所包含的实体对,确定与所述目标疾病关联的第二靶点信息,所述实体对包括疾病实体、靶点实体和实体关系;基于所述药品临床信息和/或所述药品上市信息,确定与所述目标疾病关联的第三靶点信息;基于所述第一靶点信息、所述第二靶点信息和所述第三靶点信息,构建靶点信息数据库。靶点信息查询方法包括:获取待查询的目标疾病和/或目标靶点;基于靶点信息数据库,确定所述目标疾病和/或所述目标靶点的相关靶点信息,所述靶点信息数据库是基于如上述任一项所述的靶点信息分析方法确定的;对所述相关靶点信息进行展示。
[0258]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可
以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0259]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0260]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:
1.一种靶点信息分析方法,其特征在于,包括:获取与目标疾病关联的生物信息学数据、基础研究文献,以及药品临床信息和/或药品上市信息;基于所述生物信息学数据中各靶点的突变率,确定与所述目标疾病关联的第一靶点信息;基于所述基础研究文献所包含的实体对,确定与所述目标疾病关联的第二靶点信息,所述实体对包括疾病实体、靶点实体和实体关系;基于所述药品临床信息和/或所述药品上市信息,确定与所述目标疾病关联的第三靶点信息;基于所述第一靶点信息、所述第二靶点信息和所述第三靶点信息,构建靶点信息数据库。2.根据权利要求1所述的靶点信息分析方法,其特征在于,所述方法还包括:基于所述第二靶点信息和所述第三靶点信息,确定潜力靶点;所述潜力靶点的信息存在于所述第二靶点信息中,且不存在于所述第三靶点信息中;或者,在目标疾病为多个的情况下,所述潜力靶点的信息存在于与多个目标疾病中任一疾病关联的第二靶点信息和第三靶点信息中,且存在于与多个目标疾病中任一其他疾病关联的第二靶点信息中,但不存在于与所述任一其他疾病关联的第三靶点信息中。3.根据权利要求1所述的靶点信息分析方法,其特征在于,所述基础研究文献基于如下步骤确定:获取与所述目标疾病关联的初始文献集合;基于所述初始文献集合中各初始文献的出版类型,从所述初始文献集合中筛除二次加工文献和临床研究文献,得到候选文献集合;从所述候选文献集合中筛选得到与所述目标疾病关联的基础研究文献。4.根据权利要求3所述的靶点信息分析方法,其特征在于,所述基于所述初始文献集合中各初始文献的出版类型,从所述初始文献集合中筛除二次加工文献和临床研究文献,得到候选文献集合,包括:基于所述初始文献集合中各初始文献的出版类型,从所述初始文献集合中筛除二次加工文献和临床研究文献,得到第一文献集合;基于所述第一文献集合中各第一文献的出版类型和出版时间,从所述第一文献集合中筛选第二文献,所述第二文献为所述出版类型待更新的第一文献;将所述第二文献输入文献分类器,得到所述文献分类器输出的所述第二文献的文献类型;将所述文献类型为非基础研究文献的第二文献从所述第一文献集合中删除,得到所述候选文献集合。5.根据权利要求1至4中任一项所述的靶点信息分析方法,其特征在于,所述基于所述基础研究文献所包含的实体对,确定与所述目标疾病关联的第二靶点信息,包括:基于所述基础研究文献所包含的实验技术实体的类型,确定所述基础研究文献所包含的实体对的实体关系的因果强度;
基于所述实体对的实体关系的因果强度,从所述实体对中确定与所述目标疾病关联的第二靶点信息,所述因果强度表征所述实体对中所述疾病实体和所述靶点实体之间的实体关系的关系强度。6.根据权利要求1至4中任一项所述的靶点信息分析方法,其特征在于,所述基础研究文献所包含的实体对基于如下步骤确定:获取所述基础研究文献的标题文本和摘要文本;将所述标题文本和摘要文本输入至语句分类器,得到所述语句分类器输出的所述标题文本和摘要文本中各语句的语句类型;对所述语句类型为待识别的语句进行实体识别,得到所述基础研究文献所包含的实体对。7.根据权利要求6所述的靶点信息分析方法,其特征在于,所述对所述语句类型为待识别的语句进行实体识别,得到所述基础研究文献所包含的实体对,包括:对所述待识别的语句进行实体识别,得到所述语句中的实体和代词,所述实体包括疾病实体和靶点实体;将所述语句、所述实体和所述代词输入至指代关系分类器,得到所述指代关系分类器输出的所述实体与所述代词之间的指代关系;若所述指代关系为是,则将所述语句中的代词替换为对应实体,得到优化语句,并将所述优化语句,以及所述优化语句中的实体输入至实体关系分类器,得到所述实体关系分类器输出的所述实体关系。8.根据权利要求7所述的靶点信息分析方法,其特征在于,所述将所述语句中的代词替换为对应的疾病实体或靶点实体,得到优化语句,之后还包括:将所述优化语句,以及所述优化语句中的实体,填充至关系问询模板,得到关系问询语句;将所述关系问询语句输入问答语言模型,得到所述问答语言模型输出的所述实体关系。9.根据权利要求1至4中任一项所述的靶点信息分析方法,其特征在于,所述基于所述药品临床信息和/或所述药品上市信息,确定与所述目标疾病关联的第三靶点信息,包括:基于所述药品临床信息和/或所述药品上市信息,确定所述目标疾病关联的疾病信息和药品信息;基于预设的药品靶点关联关系,以及所述疾病信息和所述药品信息,确定所述目标疾病关联的各靶点对应的目标药品及药品数量;基于所述目标药品及药品数量,从所述目标疾病关联的各靶点中,确定与所述目标疾病关联的第三靶点信息。10.一种靶点信息查询方法,其特征在于,包括:获取待查询的目标疾病和/或目标靶点;基于靶点信息数据库,确定所述目标疾病和/或所述目标靶点的相关靶点信息,所述靶点信息数据库是基于如权利要求1至9中任一项所述的靶点信息分析方法确定的;对所述相关靶点信息进行展示。

技术总结
本发明提供一种靶点信息分析方法和靶点信息查询方法,其中靶点信息分析方法包括:通过在与目标疾病关联的生物信息学数据、基础研究文献,以及药品临床信息和/或药品上市信息的基础上,分析而得与目标疾病关联的第一靶点信息、第二靶点信息和第三靶点信息,构建得到靶点信息数据库,克服了传统方案中靶点获取难度大,分析而得的靶点的可靠性不高的缺陷,实现了高效全面的靶点信息分析,不仅提高了靶点信息分析、提炼的效率,还提升了分析而得的靶点信息的可靠性,同时降低了信息分析所需消耗的时间和成本,从而在时间层面和经济层面加快了潜力靶点的分析进程,进而有效的助力了新药研发。研发。研发。


技术研发人员:周立运 请求不公布姓名
受保护的技术使用者:魔方医药科技(苏州)有限公司
技术研发日:2023.05.19
技术公布日:2023/10/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐