一种预测抗结核药物性肝损伤的系统及方法
未命名
10-25
阅读:77
评论:0
1.本发明属于药物性肝损伤预测技术领域,具体涉及一种预测抗结核药物性肝损伤的系统及方法。
背景技术:
2.抗结核药物性肝损伤的判断主要依赖于血清中转氨酶的变化情况,但转氨酶的变化不具有肝脏特异性,肌肉、心肌组织的异常都会引起转氨酶的变化;转氨酶的变化判断肝功能变化时不具备早期性,且肺结核患者的临床症状不易发现,从而不能早期发现肝功能变化,严重者会发生急性肝衰竭甚至死亡。抗结核药物的肝毒性严重影响了结核病的治疗进程和传染性控制,传统的生物标志物在判断肝功能损伤的效果良好,但是不足以早期识别和预测抗结核药物性肝损伤(anti-tuberculosis drug-induced liver injury,adli),并且这些传统生物标志物的改变不足以提供准确信息。因此,在应用抗结核药物治疗之前,预测adli的发生风险,为临床用药和治疗提供信息,有助于完善治疗方案。
3.在药物性肝损伤中,相关研究尚不全面,药物性肝损伤主要是针对药物上市前进行评估;主要预测变量是针对药物代谢动力学的指标。但是在药物性肝损伤中,部分患者是无法替换其他药物。乳腺癌患者的化疗药物对肝脏的损伤作用有研究利用随机森林算法进行预测,其特异度和灵敏度都较好。而近年来有研究抗结核药物性肝损伤概率与机体转氨酶变化情况之间的关系,并且基于x gboost算法,对抗结核药物性肝损伤概率的发生进行预测。在赵鹏等人的研究中,在结核病治疗过程中,利用结核病患者的用药情况对adli的发生进行预测。在尿液代谢组学以及微生物学角度进行adli的预测,研究中发现了具有预测潜力的新指标,如尿液中的尿酸水平,能够在预测adli的发生提供了新的思路。
4.临床上无法同时考虑多种变量,在机器学习法的应用下,能够联合多种变量,并且识别风险因素与结果之间的细微关系。机器学习法能够在现有数据集中学习,找到变量之间的新模式,并且生成预测,当数据集中变量之间相互作用时,尤其是当数据维度较高时,机器学习法能够体现对数据更好的处理能力。尤其是在肝病这种复杂的疾病中;抗结核药物性肝损伤受多重因素影响,利用机器学习法能够整合不同种类变量的预测效果,并经过筛选后,得到有意义的潜在预测变量,不局限于现有的可能指标,同时能够寻找新的潜在变量。对ad li的发生进行较为合理的预测。
技术实现要素:
5.本发明旨在解决现有技术的不足,提出一种预测抗结核药物性肝损伤的系统及方法,通过寻找新的潜在变量,对adli的发生进行较为合理的预测。。
6.为实现上述目的,本发明提供了如下方案:
7.一种预测抗结核药物性肝损伤的系统,包括:数据分类模块、初筛模块、模型一构建模块、模型二构建模块以及评估模块;
8.所述数据分类模块,用于获取医学数据,并对所述医学数据进行分类,获得生化指
标以及自测指标;
9.所述初筛模块,用于对临床资料以及所述生化指标进行初筛,获得可能潜在预测变量;
10.所述模型一构建模块,用于基于随机森林重要性评分和lasso回归法,对所述可能潜在预测变量进行筛选,获得潜在预测变量,基于所述潜在预测变量,构建cox比例风险回归模型一;基于所述cox比例风险回归模型一,获得与抗结核药物性肝损伤相关的危险因素;
11.所述模型二构建模块,用于结合所述自测指标和与抗结核药物性肝损伤相关的所述危险因素,构建cox比例风险回归模型二;
12.所述评估模块,用于评估验证所述cox比例风险回归模型一和所述cox比例风险回归模型二,基于评估结果,获得cox比例风险回归预测模型,用于进行抗结核药物性肝损伤预测。
13.优选的,所述医学数据包括人口学资料、生化检测数据以及血液标本。
14.优选的,所述模型一构建模块包括随机森林筛选单元、lasso回归筛选单元、比较单元、cox单因素回归单元以及模型构建单元;
15.所述随机森林筛选单元,用于基于随机森林树,对所述可能潜在预测变量进行重要性评分,获得重要性评分变量;
16.所述lasso回归筛选单元,用于基于所述lasso回归法,获得所述重要性评分变量之间的关系,并进行变量筛选;
17.所述比较单元,用于将所述重要性评分变量与所述变量筛选的结果进行比较,获得所述潜在预测变量;
18.所述cox单因素回归单元,用于对所述潜在预测变量进行cox单因素回归,获得所述潜在预测变量与抗结核药物性肝损伤概率之间的相关性;
19.所述模型构建单元,用于基于所述相关性,获得单因素结果,构建所述cox比例风险回归模型一。
20.优选的,所述评估验证的的指标包括校准曲线、一致性指数c-index、临床决策曲线dca、时间依赖的受试者工作曲线time-dependent roc、综合判别指数idi和净重分类指数nri。
21.本发明还提供一种预测抗结核药物性肝损伤的方法,包括以下步骤:
22.获取医学数据,并对所述医学数据进行分类,获得生化指标以及自测指标;
23.对临床资料以及所述生化指标进行初筛,获得可能潜在预测变量;
24.基于随机森林重要性评分和lasso回归法,对所述可能潜在预测变量进行筛选,获得潜在预测变量,基于所述潜在预测变量,构建cox比例风险回归模型一;基于所述cox比例风险回归模型一,获得与抗结核药物性肝损伤相关的危险因素;
25.结合所述自测指标和与抗结核药物性肝损伤相关的所述危险因素,构建cox比例风险回归模型二;
26.评估验证所述cox比例风险回归模型一和所述cox比例风险回归模型二,基于评估结果,获得cox比例风险回归预测模型,用于进行抗结核药物性肝损伤预测。
27.优选的,所述医学数据包括人口学资料、生化检测数据以及血液标本。
28.优选的,构建cox比例风险回归模型一的方法为:
29.基于随机森林树,对所述可能潜在预测变量进行重要性评分,获得重要性评分变量;
30.基于所述lasso回归法,获得所述重要性评分变量之间的关系,并进行变量筛选;
31.将所述重要性评分变量与所述变量筛选的结果进行比较,获得所述潜在预测变量;
32.对所述潜在预测变量进行cox单因素回归,获得所述潜在预测变量与抗结核药物性肝损伤概率之间的相关性;
33.基于所述相关性,获得单因素结果,构建所述cox比例风险回归模型一。
34.优选的,所述评估验证的的指标包括校准曲线、一致性指数c-index、临床决策曲线dca、时间依赖的受试者工作曲线time-dependent roc、综合判别指数idi和净重分类指数nri。
35.与现有技术相比,本发明的有益效果为:本发明采用的lasso回归是一种特征选择和稀疏建模的方法,是线性回归的一种扩展形式。在处理高维数据时,lasso回归可以减少冗余特征,提高模型的预测性能。lasso是一种压缩估计,lasso回归基于是基于惩罚系数,对变量进行收缩筛选,既解决了变量数目过多,也能够克服变量之间的相关性的问题。基于此我们选择lasso回归进行变量筛选,达到精简变量,提高模型效能的目的。与既往研究相比,本发明建立的模型主要指标类别较为统一,检测手段更加易行,更容易获取变量信息。
附图说明
36.为了更清楚地说明本发明的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
37.图1是本发明实施例模型一各变量ph假定结果图;
38.图2是本发明实施例联合指标的ph假定假设检验;
39.图3是本发明实施例不同时间点两模型校准曲线;
40.图4是本发明实施例临床决策曲线;
41.图5是本发明实施例时间依赖的受试者工作曲线;
42.图6是本发明实施例基础指标预测模型与综合指标预测模型综合判别指数比较;
43.图7是本发明实施例基础指标预测模型与综合指标预测模型净重分类比较;
44.图8是本发明实施例五种变量联合指标与基础指标预测模型一致性比较;
45.图9是本发明实施例五种联合指标预测模型与七种联合指标预测模型一致性比较;
46.图10是本发明实施例抗结核药物性肝损伤患者诺曼图;
47.图11是本发明实施例预测抗结核药物性肝损伤的系统结构示意图。
具体实施方式
48.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
49.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
50.实施例一
51.如图11所示,一种预测抗结核药物性肝损伤的系统,包括:数据分类模块、初筛模块、模型一构建模块、模型二构建模块以及评估模块;
52.数据分类模块,用于获取医学数据,对医学数据进行分类,获得生化指标以及自测指标;具体的,医学数据包括人口学资料、生化检测数据以及血液标本。进一步,将医学数据分为人群基线资料、人群生化指标以及自测指标。其中,在本实施例实验过程中,人群基线资料中未发现潜在的预测因素。将获取的医学数据按照7:3划分为训练集和验证集,训练集用于模型构建和评价,验证集用于模型外部验证。
53.利用酶联免疫吸附测定法检测研究对象血清中细胞色素氧化酶2e1(cytochrome p4502e1,cyp2e1)、n-去乙酰化酶2(n-acetyltransferase2,nat2)、谷氨酸脱氢酶(glutamate dehydrogenase,gdh)、苹果酸脱氢酶(malate dehydrogenase,mdh)的浓度。损伤组生存时间的定义为入院日期至发生肝功能异常的天数,非损伤组生存时间定义为经过抗结核治疗两个月内未发生肝损伤者。
54.初筛模块,用于对临床资料以及生化指标进行初筛,获得可能潜在预测变量;具体的,初步筛选的筛选原则,缺失值大于30%;经过专业知识,文献查询确定与肝功能无关的变量,在初步筛选时剔除。经过变量的初步筛选后,共纳入23个可能潜在预测变量。利用ibm spss statistics 20.0软件进行数据前处理。应用r studio进行生存分析时不能有缺失值存在,对变量进行缺失值插补,便于进一步的筛选工作。r studio软件运行环境(r 4.2.1),rms、glmnet包进行变量筛选。应用r程序包survival、foreign、vim、timeroc、random forest src、stdca、survidinri包等进行模型的构建和评价。
55.模型一构建模块,用于基于随机森林重要性评分和lasso回归法,对所述可能潜在预测变量进行筛选,获得潜在预测变量,基于所述潜在预测变量,构建cox比例风险回归模型一;基于所述cox比例风险回归模型一,获得与抗结核药物性肝损伤相关的危险因素;
56.具体的,随机森林与lasso回归进行筛选包括alt、ast、alb、tbil(total bilirubin,tbil)、dbil(directbilirubin,dbil)、ibil(indirectbilirubin,ibil)、天门冬氨酸氨基转移酶与丙氨酸氨基转移酶比值(ast/alt)、γ谷氨酰转肽酶(glutamyl transpeptidase,γgt)、碱性磷酸酶(alkaline phosphatase,alp)、尿酸(uric acid,ua)、乳酸脱氢酶(ldh)、总蛋白(total protein,tp)、白球比(a/g)、球蛋白(globulin,glb)、前白蛋白(prealbumin,pa)、总胆汁酸(total bile acid,tba)、白细胞计数(white blood cell count,wbc)、红细胞计数(red blood cell count,rbc)、plt、mono、lymph、baso、neut。
57.模型一构建模块包括随机森林筛选单元、lasso回归筛选单元、比较单元、cox单因素回归单元以及模型构建单元;
58.随机森林筛选单元,用于基于随机森林树,对可能潜在预测变量进行重要性评分,获得重要性评分变量;随着随机森林树的数目的增加,模型的错误率稳定,为43.33%,通过
重要性评分得到的变量有:alt、ast、dbil、ibil、tbil、plt、plcr、rdwcv、mch、baso、pct。
59.lasso回归筛选单元,用于基于lasso回归法,获得重要性评分变量之间的关系,并进行变量筛选;由于随机森林重要性评分结果提示变量之间可能具有相关性,lasso回归法首先观察变量之间的关系,再进行变量筛选。数据集中alt与ast/alt、γgt、alp高度负相关,与a/g、pa、tba高度正相关;tbil与ibil、dbil呈高度正相关;ast/alt与γgt、alp、ua强正相关;a/g、pa、tba呈强负相关;γgt与alp、ua呈强正相关;与a/g、pa、tba呈强负相关;alp与a/g呈强正相关,与pa、tba呈强负相关;ua与a/g、tba呈强负相关;a/g与pa、tba呈强正相关;pa与tba呈强正相关;wbc与neut呈强正相关。通过确定最适λ值(惩罚系数),确定筛选后的潜在预测变量的数量和系数,分别为alt、ast、alb、tbil、ibil、ast/alt、γgt、alp、ua、ldh、tp、a/g、glb、pa、dbil、tba、wbc、rbc、plt、mono、lymph、baso、neut。最优解λ.min=0.01592624,此时筛选出潜在的预测变量8个,分别为alt、ast、tp、dbil、plt、mono、lymph、neut。
60.最优解λ.min=0.01592624,此时筛选出潜在的预测变量8个,分别为alt、ast、tp、dbil、plt、mono、lymph、neut。
61.比较单元,用于将重要性评分变量与变量筛选的结果进行比较,获得潜在预测变量;随机森林重要性评分与lasso回归筛选的结果比较,最终经过变量筛选后,共得到8个潜在预测变量,分别为alt、ast、tp、dbil、plt、mono、lymph、neut。
62.cox单因素回归单元,用于对8个潜在预测变量进行cox单因素回归,获得潜在预测变量与抗结核药物性肝损伤概率之间的相关性;首先进行cox单因素回归,观察变量与抗结核药物性肝损伤概率之间的相关性。单因素分析结果显示,p值小于检验水准的有3个变量,ast、dbil、plt,回归系数分别为0.047、0.159、-0.003,提示变量与抗结核药物性肝损伤概率具有相关性。结果如表1。
63.表1
[0064][0065]
模型构建单元,用于基于相关性,获得单因素结果,构建cox比例风险回归模型一。详细数据见下表2。各个变量p值皆小于0.05,危险因素ast、dbil、plt与adli的发生有关。
[0066]
表2
[0067][0068]
确定数据是否适用于cox回归分析,对数据集ph假定进行假设检验。结果如表3。各个变量皆p》0.05,符合ph假定,满足cox回归分析条件。
[0069]
表3
[0070][0071]
进一步对各个潜在预测变量的假设检验结果进行ph检验绘图,随着时间变化,各个基础指标β值较为稳定,变量系数并没有较大波动。
[0072]
综合表3、图1可知,构建模型一的数据符合ph假定,符合cox比例风险回归分析条件。可以进行后续的分析和评价。图1中,(a):ast回归系数变化;(b):dbil回归系数变化;(c):plt回归系数变化。
[0073]
模型二构建模块,用于结合自测指标和与抗结核药物性肝损伤相关的危险因素,构建cox比例风险回归模型二;
[0074]
具体的,将检测的4种自测指标(自测变量)cyp2e1、nat2、gdh、mdh与模型一筛选的潜在预测指标(潜在预测变量)ast、dbil、plt进行结合,建立对应的cox比例风险回归模型二。则单因素cox回归分析中,p值小于0.05,具有统计学意义的有7个变量,分别为ast、dbil、plt、cyp2e1、nat2、gdh、mdh。联合指标构建cox风险比例回归模型二。详情如表4。各变量与adli发生都具有相关性,其中plt与gdh的β系数绝对值较小,接近于0,需要考虑变量纳入与否。
[0075]
表4
[0076][0077]
对模型二对应数据集进行ph假定的假设检验。由表5可以看出,7个潜在预测变量p皆大于0.05,符合ph假定,可以进行cox回归分析。计算结果如表5。
[0078]
表5
[0079][0080]
对ph假定进行图形绘制,各个变量β值波动较小,结果稳定,符合ph假定。结果如图6。随着时间变化,四种自测指标β值较为稳定,变量系数同样没有较大波动。
[0081]
综合表5、图2可知,模型二数据集符合ph假定,且β值波动较小,较为稳定,适合使用cox比例风险回归。可以进行后续的分析和评价。图2中,(a):cyp2e1的系数变化;(b):nat2的系数变化;(c):gdh的系数变化;(d):mdh的系数变化。
[0082]
评估模块,用于评估验证cox比例风险回归模型一和cox比例风险回归模型二,基于评估结果,获得cox比例风险回归预测模型,用于进行抗结核药性肝损伤预测。
[0083]
评估验证的的指标包括校准曲线、一致性指数c-index、临床决策曲线dca、时间依赖的受试者工作曲线time-dependent roc、综合判别指数idi和净重分类指数nri。
[0084]
实施例二
[0085]
评估验证的的指标包括校准曲线、一致性指数c-index、临床决策曲线dca、时间依赖的受试者工作曲线time-dependent roc、综合判别指数idi和净重分类指数nri。评估模块具体的评估过程为:
[0086]
1)校准曲线。
[0087]
时间点分别为t=15、30、60天时,如图3所示,(a):t=15时,模型一的校准曲线结果;(b):t=15时,模型二校准曲线结果;(c):t=30时,模型一的校准曲线结果;(d):t=30时,模型二校准曲线结果;(e):t=60时,模型一的校准曲线结果;(f):t=60时,模型二校准曲线结果。两模型比较可以发现,图3(a)与图3(b)相比,以15天为节点时,与模型一相比,模型二明显更接近于虚线,说明模型二的预测结果更接近于真实值。图3(c)和图3(d)相比,以30天为时间节点,模型一的预测结果准确度与15天相比有所提升,尽管如此,模型二的预测结果准确性仍然优于模型一。图3(e)、(f)在60天时间节点,模型一与模型二的预测能力趋于相同。
[0088]
2)c-index的计算
[0089]
模型一,cox比例风险回归结果,c-index=0.663(se=0.04186907),p《0.05,具有统计学意义。模型二,cox回归模型计算结果表明c-index=0.887(se=0.02355314),p《0.05,同样具有统计学意义。当c-index小于0.6,模型为低准确度;c-index=0.6~0.9,为中等准确度;c-index大于0.9,为高准确度。模型二的预测能力达到中等准确度,与此同时,在模型一基础上提高了20%以上。即使在time-dependent roc效能并不好的情况下,仍然能较好的区分不同抗结核药物性肝损伤概率的研究对象。
[0090]
3)临床决策曲线(dca)
[0091]
图4中,横坐标为阈概率,纵坐标为净收益率,其中两条直线分别代表了两种极端情况,倾斜直线为所有样本都是adli抗结核药物性肝损伤概率,水平直线为所有样本都是非adli抗结核药物性肝损伤概率;红色虚线、黑色虚线分别代表模型一和模型二在不同阈值下,两者的预测能力差距。当阈概率一定时,模型二明显优于模型一,能得到更高的净收益率,并且可供新模型选择的阈概率范围更广,能够更大的预测能力范围。
[0092]
由于生存资料包括随访时间和抗结核药物性肝损伤概率变量,故不能用一般roc曲线判别模型能力。因此进行时间依赖的受试者工作曲线。
[0093]
4)时间依赖的受试者工作曲线(time-dependent roc)。
[0094]
模型一、模型二的time-dependent roc如图5(a)、(b)。当t=15天时,模型一曲线下面积auc=0.600;模型二曲线下面积auc=0.620,皆高于t=30、60天。虽然受试者工作曲线对adli发生抗结核药物性肝损伤概率的区分结果并不理想,但是时间依赖的受试者曲线只能评价同一个模型条件下,不同时间的评价能力但是不能进行模型之间的比较。因此,模型之间的比较需要进一步进行评价。
[0095]
5)综合判别改善指数(idi)
[0096]
如图6所示,当时间点t=30天时,综合判别指数值最大,iri=0.303,并且为正改善,综合指标预测模型的预测能力相较于基础指标预测模型改善了30.3%。
[0097]
6)净重新分类指数(nri)
[0098]
t=15时,净重新分类指数为nri=0.6791,与模型一相比,模型二重新分类正确的比例提高67.91%,具体如图7所示。
[0099]
由表4可知七种潜在变量分别为ast、dbil、plt、cyp2e1、nat2、gdh、mdh,其对应回归系数分别为0.069、0.148、-0.003、-0.810、0.404、-0.002、0.151;其中,plt与gdh相关系数较小-0.003、-0.002;因此,不纳入此指标后,构建模型并评价其c-index指数变化情况。结果显示,不纳入plt与gdh,构建的优化后的模型二预测能力与模型一相比,区分能力仍有很大提升,可以达到中等一致性。其c-index指数比较结果见图8。
[0100]
为了确定优化后的模型在减少纳入两个变量后,模型的区分能力是否有显著变化进行分析。对优化前后的模型二进行比较。
[0101]
优化后的模型二与优化前相比,优化后的模型二对不同抗结核药物性肝损伤概率的adli的预测能力较好,并未显著降低。其c-index=0.882,其一致性系数并未明显降低。结果见图9。因此在进行联合指标进行模型构建时可以选择五种指标进行联合,在保证预测一致性的同时,优化模型,减少工作量。
[0102]
对优化后的构建模型绘制诺曼图,结果如图10。通过诺曼图能够初步判断研究对象发生adli的风险评分。points对应的每一指标在不同取值时,对应的分数;各个变量分数相加得到总分,即为total points。总分对应下方不同时间点是观察对象生存情况。在本实施例中,总分越高,研究对象生存概率越低,相应,发生adli的概率越高。
[0103]
综上,本发明对一线药物导致adli的发生的危险因素进行筛选评估,建立了cox比例风险回归预测模型。人群基线资料中未发现潜在的预测因素;生化指标中,ast、dbil、plt在肝损伤的发生风险中发挥了部分预测作用,但是预测效果还有提升空间,但结合检测的四种生化指标,能够有效的提升对adli的预测能力,模型的验证显示,优化模型二能够对adli的高危人群进行有效区分。
[0104]
实施例三
[0105]
本发明还提供一种预测抗结核药物性肝损伤的方法,包括以下步骤:
[0106]
获取医学数据,并对医学数据进行分类,获得自测指标;医学数据包括人口学资料、生化检测数据以及血液标本。
[0107]
对临床资料以及生化指标进行初筛,获得可能潜在预测指标;
[0108]
基于随机森林重要性评分和lasso回归法,对所述可能潜在预测变量进行筛选,获得潜在预测变量,基于所述潜在预测变量,构建cox比例风险回归模型一;基于所述cox比例风险回归模型一,获得与抗结核药物性肝损伤相关的危险因素;
[0109]
结合所述自测指标和与抗结核药物性肝损伤相关的所述危险因素,构建cox比例风险回归模型二;
[0110]
评估验证所述cox比例风险回归模型一和所述cox比例风险回归模型二,基于评估结果,获得cox比例风险回归预测模型,用于进行抗结核药物性肝损伤预测。
[0111]
构建cox比例风险回归模型一的方法为:
[0112]
基于随机森林树,对可能潜在预测变量进行重要性评分,获得重要性评分变量;
[0113]
基于lasso回归法,获得重要性评分变量之间的关系,并进行变量筛选;
[0114]
将重要性评分变量与变量筛选的结果进行比较,获得潜在预测变量;
[0115]
对潜在预测变量进行cox单因素回归,获得潜在预测变量与抗结核药物性肝损伤概率之间的相关性;
[0116]
基于相关性,获得单因素结果,构建cox比例风险回归模型一。
[0117]
评估验证的的指标包括校准曲线、一致性指数c-index、临床决策曲线dca、时间依赖的受试者工作曲线time-dependent roc、综合判别指数idi和净重分类指数nri。
[0118]
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
技术特征:
1.一种预测抗结核药物性肝损伤的系统,其特征在于,包括:数据分类模块、初筛模块、模型一构建模块、模型二构建模块以及评估模块;所述数据分类模块,用于获取医学数据,并对所述医学数据进行分类,获得生化指标以及自测指标;所述初筛模块,用于对临床资料以及所述生化指标进行初筛,获得可能潜在预测变量;所述模型一构建模块,用于基于随机森林重要性评分和lasso回归法,对所述可能潜在预测变量进行筛选,获得潜在预测变量,基于所述潜在预测变量,构建cox比例风险回归模型一;基于所述cox比例风险回归模型一,获得与抗结核药物性肝损伤相关的危险因素;所述模型二构建模块,用于结合所述自测指标和与抗结核药物性肝损伤相关的所述危险因素,构建cox比例风险回归模型二;所述评估模块,用于评估验证所述cox比例风险回归模型一和所述cox比例风险回归模型二,基于评估结果,获得cox比例风险回归预测模型,用于进行抗结核药物性肝损伤预测。2.根据权利要求1所述的预测抗结核药物性肝损伤的系统,其特征在于,所述医学数据包括人口学资料、生化检测数据以及血液标本。3.根据权利要求1所述的预测抗结核药物性肝损伤的系统,其特征在于,所述模型一构建模块包括随机森林筛选单元、lasso回归筛选单元、比较单元、cox单因素回归单元以及模型构建单元;所述随机森林筛选单元,用于基于随机森林树,对所述可能潜在预测变量进行重要性评分,获得重要性评分变量;所述lasso回归筛选单元,用于基于所述lasso回归法,获得所述重要性评分变量之间的关系,并进行变量筛选;所述比较单元,用于将所述重要性评分变量与所述变量筛选的结果进行比较,获得所述潜在预测变量;所述cox单因素回归单元,用于对所述潜在预测变量进行cox单因素回归,获得所述潜在预测变量与抗结核药物性肝损伤发生概率之间的相关性;所述模型构建单元,用于基于所述相关性,获得单因素结果,构建所述cox比例风险回归模型一。4.根据权利要求1所述的预测抗结核药物性肝损伤的系统,其特征在于,所述评估验证的的指标包括校准曲线、一致性指数c-index、临床决策曲线dca、时间依赖的受试者工作曲线time-dependentroc、综合判别指数idi和净重分类指数nri。5.一种预测抗结核药物性肝损伤的方法,其特征在于,包括以下步骤:获取医学数据,并对所述医学数据进行分类,获得生化指标以及自测指标;对临床资料以及所述生化指标进行初筛,获得可能潜在预测变量;基于随机森林重要性评分和lasso回归法,对所述可能潜在预测变量进行筛选,获得潜在预测变量,基于所述潜在预测变量,构建cox比例风险回归模型一;基于所述cox比例风险回归模型一,获得与抗结核药物性肝损伤相关的危险因素;结合所述自测指标和与抗结核药物性肝损伤相关的所述危险因素,构建cox比例风险回归模型二;评估验证所述cox比例风险回归模型一和所述cox比例风险回归模型二,基于评估结
果,获得cox比例风险回归预测模型,用于进行抗结核药物性肝损伤预测。6.根据权利要求5所述的预测抗结核药物性肝损伤的方法,其特征在于,所述医学数据包括人口学资料、生化检测数据以及血液标本。7.根据权利要求5所述的预测抗结核药物性肝损伤的方法,其特征在于,构建cox比例风险回归模型一的方法为:基于随机森林树,对所述可能潜在预测变量进行重要性评分,获得重要性评分变量;基于所述lasso回归法,获得所述重要性评分变量之间的关系,并进行变量筛选;将所述重要性评分变量与所述变量筛选的结果进行比较,获得所述潜在预测变量;对所述潜在预测变量进行cox单因素回归,获得所述潜在预测变量与抗结核药物性肝损伤发生概率之间的相关性;基于所述相关性,获得单因素结果,构建所述cox比例风险回归模型一。8.根据权利要求5所述的预测抗结核药物性肝损伤的方法,其特征在于,所述评估验证的的指标包括校准曲线、一致性指数c-index、临床决策曲线dca、时间依赖的受试者工作曲线time-dependentroc、综合判别指数idi和净重分类指数nri。
技术总结
本发明公开一种预测抗结核药物性肝损伤的系统及方法,系统包括:数据分类模块,用于获取医学数据,对医学数据进行分类,获得生化指标以及自测指标;初筛模块,用于获得可能潜在预测变量;模型一构建模块,用于基于随机森林重要性评分和LASSO回归法,对可能潜在预测变量进行筛选,获得潜在预测变量,构建Cox比例风险回归模型一;模型二构建模块,用于构建Cox比例风险回归模型二;评估模块,用于评估验证Cox比例风险回归模型一和Cox比例风险回归模型二,获得Cox比例风险回归预测模型,用于进行抗结核药物性肝损伤预测。本发明建立的模型主要指标类别较为统一,检测手段更加易行,更容易获取变量信息。获取变量信息。获取变量信息。
技术研发人员:冯福民 郭玉 马烁 孟春燕
受保护的技术使用者:华北理工大学
技术研发日:2023.07.14
技术公布日:2023/10/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/