一种基于多种microRNA分子特征的肺腺癌机器学习分类模型的制作方法

未命名 08-29 阅读:232 评论:0

一种基于多种microrna分子特征的肺腺癌机器学习分类模型
技术领域
1.本发明涉及生物信息学、机器学习领域。具体来说,第一,本专利获得了多种microrna(mirna)的分子特征,包括mirna的丰度、mirna编辑位点的编辑水平、编辑后mirna的丰度;第二,本专利使用combat-seq算法对多批次的小rna测序数据进行批次效应校正;第三,本专利找到了3个mirna,即hsa-mir-135b-5p,hsa-mir-210-3p和hsa-mir-182_48u是识别肺腺癌的重要特征,多种机器学习分类算法可以在由以上三个特征构成的数据集中获得100%的预测准确性,并使用dfl算法构建了一种基于上述3种mirna丰度值的肺腺癌机器学习分类模型。


背景技术:

2.已有研究发现,肺腺癌的发生和基因突变有着极大的相关性。
3.microrna(mirna)是一种在动植物体内广泛存在的内源性单链非编码rna,长约21nt~24nt。mirna通常是在核内转录,经过一系列的剪切处理后输送到细胞质中。随后,经核酸酶dicer将其剪切产生约为22个核苷酸长度的成熟mirna。成熟的mirna通过碱基配对结合与其互补的mrna,介导mrna降解或者抑制其翻译,从而起到调控基因表达的作用。有研究发现,mirna的差异表达有可能影响致癌途径的下游靶点,从而参与癌症的发展。也有研究表明mirna的表达在癌症病人与正常人之间存在着显著差异,由此可以作为生物标志物区分癌组织和正常组织,甚至利用其靶标的与癌症相关的基因开发新的治疗方案。
4.随着测序技术的高速发展,大量的mirna高通量测序数据不断累积,再加上,癌症是一种多基因调控的复杂疾病,如何从海量的、复杂的数据中提取重要的信息成为一个难题。机器学习算法利用各种数学原理、统计学原理和计算机科学技术,使得计算机能够从量级庞大、结果复杂、充满噪音的环境中挖掘深层价值的信息数据。癌症的复杂调控因素正好与机器学习的研究特性相符合,已经为辅助医疗技术的发展,为医疗工作者的诊断、分析和治疗提供了极大的帮助,广泛运用于各种癌症的诊断以及预后评估。


技术实现要素:

5.本发明的主要发明内容是(1)利用discrete function learning(dfl)算法找到三个mirna,即hsa-mir-135b-5p,hsa-mir-210-3p和hsa-mir-182_48u是识别肺腺癌的重要特征,并构建了一种基于这三个mirna的高通量测序丰度及编辑水平用于预测肺腺癌的机器学习分类模型,如表1所示。
6.表1dfl机器学习构建的分类器模型
[0007][0008]
随后用五种常见的分类算法k-邻近(knn)、决策树(c4.5)、随机森林(rf)、支持向量机(svm)和dfl,在这三个mirna为特征的数据集(训练集316个样品,测试集79个样品)上构建分类模型,均获得了100%的预测准确性。这些结果提示我们构建的这些机器学习模型可以用于肺腺癌的辅助诊断。
[0009]
(2)发明一种校正和标准化不同批次小rna测序数据的方法,该方法克服了不同批次测序数据的批次效应对构建机器学习模型的影响。用combat-seq算法对经过过滤后的多种mirna分子特征,即原始mirna丰度值、mirna m/e sites的编辑水平、发生编辑后的mirna丰度值,矩阵进行批次效应的校正,并利用quantilenorm算法对批次效应校正后的数据进行标准化。校正和标准化不同批次数据前后的pca分析结果如图2所示。
附图说明
[0010]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图做简单的介绍。其中:
[0011]
图1为本发明所述的获取成熟mirna数据处理流程图。
[0012]
图2为本发明所述的批次效应校正和标准化处理前后的pca分析。
具体实施方式
[0013]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0014]
实施例:
[0015]
1、肺腺癌癌组织以及癌旁正常组织的mirna高通量测序数据获取:
[0016]
如图1所示,从ncbi中下载肺腺癌癌组织以及癌旁正常组织的mirna高通量测序数据,共下载4批数据,357个样本,其中肺腺癌组织样本178个,癌旁肺部正常组织样本179个。经云南省第一人民医院医学伦理委员会批准,与患者签订知情同意书(khll2021-ky025),从云南省第一人民医院进行组织样本采样,共采38个样本,其中19个为肺腺癌组织样本,另19个为癌旁肺部正常组织样本,采样后进行小rna测序,得到38个小rna测序数据。fastqc程序软件对以上395个数据进行质量检测,过滤掉质量低的序列,让序列前25bp的测序质量得分高于30。最后这395个样本质量均符合要求,可以进行下一步分析。
[0017]
2、获取原始mirna丰度值矩阵(图1):
[0018]
(1)去掉测序时所用的接头序列后,将测序文件比对到mirbase(version:21或更新版本)里面人的mirna序列文件上,对测序文件进行注释;
[0019]
(2)统计mirna在不同样本中出现的频率,得到mirna的丰度值矩阵;
[0020]
(3)分别计算所有癌旁正常组织样品以及肺腺癌癌组织样品的均值,保留两个均值中任意一个均值大于10的mirna;
[0021]
3、获取发生突变或编辑事件的mirna对应的编辑水平矩阵(图1):
[0022]
(1)找出测序时所用的接头序列,确保除去接头序列,剩下的有效序列最短长度为18bp;
[0023]
(2)结合已经找出的接头序列,用mirme算法分析mirna的编辑位点;
[0024]
(3)将所有样本结果合并,取出p值小于0.05、在每个样本中发生编辑mirna的reads大于等于10条、且至少在1个样本中发生编辑的mirna,共得到发生编辑的mirna位点2633个;
[0025]
(4)从mirme算法分析后生成的编辑位点信息文件中取出每一个编辑位点在不同样本中的编辑水平(m/e percent);
[0026]
(5)分别计算所有癌旁正常组织样品以及肺腺癌癌组织样品的编辑水平均值,保留两个均值中任意一个均值大于10的编辑或突变mirna。
[0027]
4、获取编辑后mirna的丰度(图1):
[0028]
(1)获取编辑或突变mirna的序列,将测序文件比对到mirbase(version:21或更新版本)里面人的mirna序列文件上,对测序文件进行注释;
[0029]
(2)统计mirna在不同样本中出现的频率,得到mirna的丰度值矩阵;
[0030]
(3)分别计算所有癌旁正常组织样品以及肺腺癌癌组织样品的均值,保留两个均值中任意一个均值大于10的mirna。
[0031]
5、将以上三步所得丰度值矩阵及编辑水平矩阵合并,最终得到含有395个样本,2600个分子特征(422个编辑前mirna的丰度值值,1221个编辑或突变mirna的编辑水平,957个编辑后mirna的丰度值)的特征矩阵,用于后续分析。
[0032]
6、用combat-seq算法对5个批次的数据进行批次效应的校正,并利用quantilenorm算法对批次效应校正后的数据进行标准化处理(mirna测序数据的完整处理过程如图1所示)。如图2所示,对5个批次的mirna的丰度值做pca分析,不同批次数据用不同形状表示,图中的实心图形为肺腺癌样本,空心图形为正常样本。a图是批次效应校正和标准化处理前的pca分析结果,5批数据有着明显的批次效应,同一批次的数据聚集在一起,不同批次的数据之间差异明显。b图是批次效应校正和标准化处理后的pca分析结果,5批数据的区别不如a图显著。这些结果提示我们,上述的批次效应校正和标准化处理的方法对不同批次的数据有着显著的作用。
[0033]
7、dfl算法构建机器学习模型以及特征选择:
[0034]
(1)整理上述数据矩阵为arff格式的机器学习输入文件。
[0035]
arff文件以“@relation”开头的是关系声明,其后跟字符串,用于描述数据名称;“@attribute”开头的是数据中的特征,其后跟特征名称及其数据类型;“@attribute class”开头的是样品类型,样品类型的具体取值包含在“{}”中;“@data”表示数据段的开始,是单独的一行,紧跟的下一行是第一个样品的特征属性的值,每个值之间用“,”分隔,行尾是第一个样品的样品类型,回车表示第一个样品的结束,以此类推。arff文件示例如表2所示,第一行描述了数据名称,即20个肺腺癌样本的arff文件。随后是这个arff文件中包含的5个mirna特征及其数据类型,这5个特征分别是hsa-mir-486-5p,hsa-mir-483-5p,hsa-mir-550a-3p,hsa-mir-1468-5p,hsa-mir-203a-3p,均属于数字型数据(numeric)。“@data”之后数据段开始,第一行表示第一个样本中5个mirna的丰度值以及该样本的类型,该样本是正常样本,回车后第一个样本结束,以此类推。
[0036]
将395个样本随机划分为占比80%(n=316)的训练集和占比20%(n=79)的测试集。
[0037]
表2.arff文件示例
[0038]
@relation'luad 20samples'
[0039]
@attribute hsa-mir-486-5p numeric
[0040]
@attribute hsa-mir-483-5p numeric
[0041]
@attribute hsa-mir-550a-3p numeric
[0042]
@attribute hsa-mir-1468-5p numeric
[0043]
@attribute hsa-mir-203a-3p numeric
[0044]
@data
[0045][0046][0047]
(2)用dfl算法对训练集来构建机器学习模型,同时采用留一法对训练的模型进行验证,平均准确率为98.1%,dfl算法所构建的机器学习预测模型如表1所示;表1中第一列指hsa-mir-135b-5p的丰度值所处的区间,第二列指hsa-mir-210-3p的丰度值所处的区间,第三列指hsa-mir-182_48u的编辑水平所处的区间,第四列指的是3个mirna分子特征的值属于前三列中所示的区间的样本类型,即癌旁正常组织样本(normal)或者肺腺癌样本(tumor),第五列指满足前四列所描述条件的样本在80%的训练集,即316个样本构建的分类模型中出现的次数;
[0048]
(3)模型中所示的3个mirna,即为dfl选出的特征,分别是hsa-mir-135b-5p、hsa-mir-210-3p和hsa-mir-182_48u。
[0049]
8、用k-邻近(knn)、决策树(c4.5)、随机森林(rf)、支持向量机(svm),discrete function learner(dfl),5种分类算法对dfl算法选出的3个mirna构建用于预测肺腺癌的机器学习分类模型,然后用79个测试集数据对模型进行测试,准确率均为100%。这些结果提示我们构建的这些机器学习模型可以用于肺腺癌的辅助诊断。

技术特征:
1.一种基于多种microrna分子特征的肺腺癌机器学习分类模型,其特征在于:(1)获取成熟microrna(mirna)丰度值矩阵:

收集肺腺癌癌组织样本以及癌旁正常组织样本的microrna高通量测序数据,用fastqc程序软件进行质量检测,过滤掉质量低的序列,保证序列前25bp的测序质量得分高于30;

去掉测序时所用的接头序列;

去除重复和冗余序列;

将测序文件比对到mirbase里面人的成熟mirna序列文件上,对测序文件进行注释;

统计mirna在不同样本中出现的频率,得到成熟mirna的丰度值矩阵;

分别计算所有癌旁正常组织样本以及肺腺癌癌组织样本的均值,保留两个均值中任意一个均值大于10的mirna。(2)统计步骤(1)中得到的mirna的编辑或突变位点编辑水平,即me percent,乘以100;分别计算所有癌旁正常组织样本以及肺腺癌癌组织样本的编辑水平均值,保留两个均值中任意一个编辑水平均值大于10的突变或编辑mirna。(3)获取mirna编辑后的丰度值:从步骤2生成的文件中提取发生编辑的mirna的序列,统计这些序列比对上的reads数,即mirna编辑后的丰度值;分别计算所有癌旁正常组织样本以及肺腺癌癌组织样本的均值,保留两个均值中任意一个均值大于10的mirna。(4)将以上三步所获取的符合要求的丰度值及编辑水平合并,得到一个含有数个样本,mirna编辑前的丰度值、编辑过的mirna编辑水平、mirna编辑后的丰度值的数据矩阵;用combat-seq算法对收集到的多个批次的数据进行批次效应的校正,并利用quantilenorm算法对批次效应校正后的数据进行标准化。(5)用dfl算法对316个训练集数据做特征选择,得到3个mirna,分别是hsa-mir-135b-5p,hsa-mir-210-3p,hsa-mir-182_48u。随后用k-邻近(knn)、决策树(c4.5)、随机森林(rf)、支持向量机(svm),discrete function learning(dfl),5种分类算法对上述3个mirna构建用于预测肺腺癌的机器学习分类模型,同时采用留一法在每一折交叉验证中保留一个属性的特征数据对训练的模型进行验证,然后用79个测试集数据对模型进行测试,准确率均为100%。这些结果提示我们构建的这些机器学习模型可以用于肺腺癌的辅助诊断。2.根据权利要求1所述,对数据进行处理,批次效应校正以及进行标准化的方法。3.根据权利要求1所述,本专利采用dfl算法找到的3个识别肺腺癌的mirna特征(即hsa-mir-135b-5p,hsa-mir-210-3p,hsa-mir-182_48u),以及以此构建机器学习分类模型的方法。

技术总结
本发明公开了一种基于多种microRNA(miRNA)分子特征的肺腺癌机器学习分类模型,其方法为:一、分析肺腺癌和癌旁正常组织样本的miRNA高通量测序数据,获取成熟的miRNA在测序文件中的丰度值,得到miRNA的编辑或突变位点编辑水平,获取miRNA编辑后的丰度值;二、对由丰度值和编辑水平构成的矩阵进行批次效应校正和标准化处理;三、用DFL算法对二中得到的数据构建机器学习预测模型,可以准确地区分肺腺癌样品和正常对照,准确率为100%。DFL算法选出了3个miRNA分子特征,分别是hsa-miR-135b-5p、hsa-miR-210-3p、hsa-miR-182_48u;四、使用K-邻近、决策树、随机森林、支持向量机,4种分类算法在DFL算法选出的包含上述3个miRNA数据特征的数据子集构建机器学习预测模型,也可以准确区分肺腺癌样品和正常对照,准确率均为100%。确率均为100%。确率均为100%。


技术研发人员:郑云 毛淳怡 李宛燃 郭仕勇
受保护的技术使用者:云源智鑫生物科技(昆明)有限公司
技术研发日:2023.07.10
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐