一种基于机器学习的特征生成方法

未命名 08-27 阅读:109 评论:0


1.本发明涉及医疗技术领域,更具体地说,特别涉及一种基于机器学习的特征生成方法。


背景技术:

2.计算智能与神经科学,2021第1卷,第1-13页中“基于机器学习算法的脓毒症早期预测”提出了一种基于医学知识的特征生成方法,该方法旨在通过统计方法生成患者生理特征的更具代表性的医学特征表示。由于通常需要不完整的数据,基于统计方法获得的特征可能无法计算,如果使用插值数据进行计算,则会引入一定的估计偏差。
3.2021年,《生物与医学计算机》第134卷第104430页中“从ehr数据中点-线互信息的张量学习用于早期预测脓毒症”公开了通过张量分解解密用作嵌入的高阶潜在信息并使用pmi技术捕获线性和非线性相关性,将互信息张量分析应用于脓毒症的早期检测,并生成潜在特征并增强现有特征。
4.2022年,《aaai人工智能会议论文集》第36卷第12937

12938页中“基于变压器的无监督学习用于败血症的早期检测(学生摘要)”公开了将变换器算法和无监督学习相结合,提出了去噪变换器自动编码器,该编码器学习不带标签的期望特征之间的潜在相关性,并生成一个通用表示(抽象特征矩阵)。尽管这些特征生成方法取得了不错的效果,但大多数方法都只是深入探索已知特征,而不涉及新知识的学习。
5.综上所述,现有技术中仅能发掘自身已知知识,无法探索自身之外的知识,大多受限于数据质量,在数据高度缺失的环境下效果不佳,且现有技术基于深度学习的技术,没有临床可解释性,同时只能应用于特定数据环境,很难迁移到其他数据环境。为此,确有必要开发一种基于机器学习的特征生成方法。


技术实现要素:

6.本发明的目的在于提供一种基于机器学习的特征生成方法,以克服现有技术所存在的缺陷。
7.为了达到上述目的,本发明采用的技术方案如下:
8.一种基于机器学习的特征生成方法,包括以下步骤:
9.s1、对输入的原始数据进行预处理以及筛选;
10.s2、将筛选后的数据分为预训练的特征集和标签集;
11.s3、通过基于树的集成学习算法训练得到特征生成模型;
12.s4、将疾病早期数据输入至特征生成模型进行疾病早期检测。
13.进一步地,所述步骤s1中的预处理包括:
14.s10、构建包含所有患者的整个观察期的数据帧;
15.s11、从已知值中推断缺失值;
16.s12、设置滑动窗口,观测数据的近期历史情况;
17.s13、采用了前向填充方法用最新的可用测量值填充纵向数据的缺失值;
18.s14、构建临床评分特征。
19.进一步地,所述步骤s1中的筛选具体为:设置筛选条件为观察点的缺失率是否大于百分之八十,判断预处理后的数据的观察点是否符合筛选条件,若符合则删除该数据。
20.进一步地,所述步骤s3包括:
21.s31、基于预训练的数据进行使用集成决策树xgboost的训练,构建预测生成特征的模型;
22.s32、将有特征生成模型生成的数据表征与基础特征合并,形成新的数据集,实现特征增强。
23.进一步地,所述步骤s4包括:
24.s41、采用过采样技术对特征生成模型进行数据平衡;
25.s42、将疾病早期数据输入至特征生成模型进行疾病分类。
26.与现有技术相比,本发明的优点在于:本发明通过多种特征增强方法,强化了原始数据的特点,并一定程度的记录了病例的历史事件,采用基于树的集成学习算法,可以在有数据缺失的情况下完成数据生成,本发明符合人体生理指标的潜在规律,因此可以轻易的将模型迁移至其他具有相同格式的数据集中直接使用,具有较强的可迁移性。
附图说明
27.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
28.图1是本发明基于机器学习的特征生成方法的流程图。
29.图2是本发明中统计学增强组件细节流程图。
30.图3是本发明预训练组件细节流程图。
具体实施方式
31.下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
32.参阅图1所示,本实施例公开了一种基于机器学习的特征生成方法,其中包括3个组件:一、数据统计增强组件用于数据质量增强和筛选,二、预训练组件,用于构建itfg预训练模型,以在数据丰富的环境中学习知识。三、特征扩展组件,用于把生成的特征与原数据相结合,实现数据增强。在输入患者的数据后,其特征生成方法按照图1蓝色部分所示的基本流程执行,图2展示了特征生成方法中统计学增强组件的细节,图3展示了特征生成方法中预训练组件的细节。以下为基本流程的主要步骤:
33.步骤s1、对输入的原始数据进行预处理以及筛选。
34.具体的,对输入的原始数据进行预处理(1、添加两个特征missingness features,differential features,用于记录原数据集的特点,2、经验性填补缺失,3、滑动窗口数据增强,4、向前填补,5、添加一些常用医学特征)。
35.步骤s10、构建包含所有患者的整个观察期的数据帧。在预处理之前,我们从缺失和歧视两个角度描述缺失的原始数据。缺失记录原始数据的测量频率和时间间隔。该区分反映了同一特征的当前值和上次观察值之间的差异。
36.步骤s11、随后使用一些经验性方法可以从已知值中推断缺失值(例如收缩压(sbp)、舒张压(dbp)和平均动脉压(map),可以使用公式计算map=dbp+1/3(sbp+dbp))。
37.步骤s12、此外电子病例数据中可能包含不同的元素,包括人口统计、处方、诊断、生命体征、免疫接种、实验室和放射学测试结果、医学概念和注释、程序和治疗计划。对于所有的生命体征和实验室测试结果,我们通过六个小时的滑动窗口得出一阶和二阶统计特征,最小值、最大值、平均值、中值、标准差和差异,以更好地反映观察期间的变化。这些统计特征对于指示在时域中具有显著特征的过程至关重要,因此有利于提高模型的性能。
38.步骤s13、采用了前向填充方法,用最新的可用测量值填充纵向数据的缺失值。通常,我们用可用的对应值来填充这些特征,以避免预测中的前瞻性偏差。否则,我们选择将“nan”保留给完全没有值的其他特征。
39.步骤s14、构建了八个临床评分特征,以进一步增强模型性能。除了sofa评分(sequential organ failure assessment),还选择了有助于sofa评分的六个组成部分作为临床评分特征。这样做的目的是为了更清楚地了解sofa评分的原因。quick-sofa(qsofa)也被选为八个临床评分特征之一。与sofa相比,qsofa是一种临床可及的快速指标,通常用于诊断并反映患者的感染状况。
40.在对数据进行统计增强后,根据每个需要生成特征对将被输入到预训练组件中的数据进行筛选,以减少数据噪声和对预训练模型的缺失的影响(具体见图2)。考虑了删除几种情况下的观察结果。1):在原始数据中,基本特征和生成特征都缺失;2):缺少生成特征的观察点;3):生成特征可用,但基本特征严重缺失。换句话说,为每个生成特征构建了一个特征子数据集。
41.步骤s2、将筛选后的数据分为预训练的特征集和标签集。
42.具体的,将特征分为2个部分构成预训练的训练集(图3蓝色,黄色,紫色特征)和测试集(图3红色特征)。这里基础特征作为知识源,这是一个多维数据矩阵,而生成特征作为预训练的测试集是需要预测的部分。这里由数据统计增强组件过滤的数据的生成特征部分(多维测试数据矩阵)被分解为多个一维矩阵,以允许对具有不同分布和特征的特征进行更有针对性的建模。然后将预训练集与每个测试子集与训练集相匹配,以形成多个用于机器学习模型训练的数据集。
43.步骤s3、通过基于树的集成学习算法训练得到训练模型。
44.具体的,基于上述数据的多个子数据集,通过与现有的机器学习算法密切配合,同时确保了性能。步骤s31、xgboost是一种基于树的集成学习算法,它在计算成本和精度方面表现出了卓越的性能,适用于具有有限的、明确定义的特征维度的非线性回归问题同时,xgboost是可解释的,因为它基于决策树结构,这是一个类似树的模型,通过遵循一系列if-then规则来进行预测,以达到最终预测。因此,它本质上是一个透明且可解释的模型。为了改善非线性模型中常见的过拟合问题,xgboost内置了正则化。对于调参,使用hyperopt自动调参方法。最后,对于每个需要生成的特征都构建一个相对应的子模型。步骤s32、将生成特征与原数据(基础特征)合并,形成新的数据集,实现特征增强。
45.步骤s4、将疾病早期数据输入至特征生成模型进行分类,从而实现疾病的早期检测。
46.具体的,该步骤s4具体包括:
47.步骤s41、采用过采样技术对特征生成模型进行数据平衡。
48.步骤s42、将疾病早期数据输入至特征生成模型进行疾病分类。
49.本发明通过多种特征增强方法,强化了原始数据的特点,并一定程度的记录了病例的历史事件。
50.本发明采用xgboost算法,因此可以在有数据缺失的情况下完成数据生成。
51.本发明的特征生成方法符合人体生理指标的潜在规律,因此可以轻易的将模型迁移至其他具有相同格式的数据集中直接使用(如图1红线),具有较强的可迁移性。
52.虽然结合附图描述了本发明的实施方式,但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改,只要不超过本发明的权利要求所描述的保护范围,都应当在本发明的保护范围之内。

技术特征:
1.一种基于机器学习的特征生成方法,其特征在于,包括以下步骤:s1、对输入的原始数据进行预处理以及筛选;s2、将筛选后的数据分为预训练的特征集和标签集;s3、通过基于树的集成学习算法训练得到特征生成模型;s4、将疾病早期数据输入至特征生成模型进行疾病早期检测。2.根据权利要求1所述的基于机器学习的特征生成方法,其特征在于,所述步骤s1中的预处理包括:s10、构建包含所有患者的整个观察期的数据帧;s11、从已知值中推断缺失值;s12、设置滑动窗口,观测数据的近期历史情况;s13、采用了前向填充方法用最新的可用测量值填充纵向数据的缺失值;s14、构建临床评分特征。3.根据权利要求1所述的基于机器学习的特征生成方法,其特征在于,所述步骤s1中的筛选具体为:设置筛选条件为观察点的缺失率是否大于百分之八十,判断预处理后的数据的观察点是否符合筛选条件,若符合则删除该数据。4.根据权利要求1所述的基于机器学习的特征生成方法,其特征在于,所述步骤s2包括:将筛选过滤后的源域数据根据特征分为预训练的特征集和标签,所述预训练的特征集为基础特征,所述标签为生成特征,该标签为多个一维矩阵。5.根据权利要求4所述的基于机器学习的特征生成方法,其特征在于,所述步骤s3包括:s31、基于预训练的数据进行使用集成决策树xgboost的训练,构建预测生成特征的模型;s32、将有特征生成模型生成的数据表征与基础特征合并,形成新的数据集,实现特征增强。6.根据权利要求1所述的基于机器学习的特征生成方法,其特征在于,所述步骤s4包括:s41、采用过采样技术对特征生成模型进行数据平衡;s42、将疾病早期数据输入至特征生成模型进行疾病分类。

技术总结
本发明公开了一种基于机器学习的特征生成方法,包括:S1、对输入的原始数据进行预处理以及筛选;S2、将筛选后的数据分为预训练的特征集和标签集;S3、通过基于树的集成学习算法训练得到特征生成模型;S4、将疾病早期数据输入至特征生成模型进行疾病早期检测。本发明通过多种特征增强方法,强化了原始数据的特点,并一定程度的记录了病例的历史事件,采用基于树的集成学习算法,可以在有数据缺失的情况下完成数据生成,本发明符合人体生理指标的潜在规律,因此可以轻易的将模型迁移至其他具有相同格式的数据集中直接使用,具有较强的可迁移性。性。性。


技术研发人员:彭绍亮 窦钰涛 夏飞 潘良睿 刘达政
受保护的技术使用者:湖南大学
技术研发日:2023.04.04
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐