基于回归模型融合多组学检测TF-mRNA调控关系的方法
未命名
10-25
阅读:104
评论:0
基于回归模型融合多组学检测tf-mrna调控关系的方法
技术领域
1.本发明属于生物信息检测技术领域,尤其涉及基于回归模型融合多组学检测tf-mrna调控关系的方法。
背景技术:
2.转录调控关系是指在细胞中,转录因子通过与基因的调控元件之间的相互作用关系,在基因表达调控中发挥作用。目前已经有多种方法用于分析转录调控关系,进而寻找生物标志物。最经典的是差异表达分析,在不同条件或组之间识别表达水平差异显著的基因,然后经过统计学分析筛选出生物标志物。基因共表达分析也是一种流行的方式,通过计算基因间表达模式的相似性来推断它们的功能关联性,在相似条件下,在功能上相互关联的基因可能受到相似的调控。转录因子结合位点分析是观察在识别基因启动区域中转录因子和dna序列的结合方式,进而推断哪些转录因子可能对基因的表达进行调控,同时分析调控的机制和模式。传统基因调控网络分析通过整合转录组数据和转录因子调控信息,建立基因调控网络来揭示基因之间的调控关系,这种方法可以帮助识别核心调控基因、关键调控通路以及调控网络中的关键节点。随着机器学习技术的兴起,研究人员在基本的统计分析方法之上,开始使用包括lasso回归、随机森林和支持向量机等方式来构建模型架构,协助不同分析策略来解析细胞中的转录调控关系。
3.分析转录调控关系的准确性和可靠性严重依赖于数据的质量,不准确和噪声较多的转录组数据会造成结果偏差。另外,tf和mrna之间的调控关系是一个非常复杂的过程,想要了解调控关系,只分析tf和mrna是不够用的,因为调控过程还受到诸如长链非编码rna(long noncoding rna,lncrna)、dna甲基化和组蛋白等其他因素影响。为此我们提出基于回归模型融合多组学检测tf-mrna调控关系的方法。
技术实现要素:
4.本发明的目的在于提供基于回归模型融合多组学检测tf-mrna调控关系的方法,旨在解决上述背景技术中提出的问题。
5.为实现上述目的,本发明提供如下技术方案:
6.基于回归模型融合多组学检测tf-mrna调控关系的方法,包括以下步骤:
7.步骤s1、数据处理和融合:从tcga数据库中下载甲基化组学数据和转录组学数据,经过整合处理后得到dna甲基化表达值、lncrna表达值、tf表达值和mrna表达值;从geo数据库中下载同属于一个芯片平台的甲基化组学和转录组学数据,整理后得到dna甲基化表达值、lncrna表达值、tf表达值和mrna表达值;对于每种数据类型进行预处理,把dna甲基化和lncrna作为特征融合进tf,最后组合成tf-synthesis和mrna的表达量;
8.步骤s2、构建mimo模型:经过步骤s1后得到tf-synthesis矩阵和mrna矩阵,tf-synthesis矩阵的大小为n
×
d,mrna的矩阵大小为m
×
d,其中n为tf-synthesis矩阵的特征数量,m为mrna矩阵的特征数量,d为数据集中的样本数量;将tf-synthesis作为回归模型的
输入,mrna矩阵作为回归模型的输出,使用基于机器学习或深度学习的模型构建n对m的mimo回归模型;
9.步骤s3、构造mqtrans特征;
10.步骤s4、训练模型:回归模型在训练集上拟合tf-synthesis和mrna之间的转录调控关系,通过拟合好的回归模型,用测试集的tf-synthesis表达矩阵预测mrna表达矩阵,得到预测表达矩阵后,结合测试集真实的mrna表达矩阵求出每个基因对应的mqtrans值,通过mqtrans值的大小观察转录调控关系在两组样本中发生的改变程度,改变显著的基因作为疾病标志物候选;
11.步骤s5、使用独立验证集检验标志物有效性。
12.进一步的,所述步骤s1中,预处理包括数据清洗、标准化和归一化操作。
13.进一步的,所述步骤s1中,lncrna特征通过拼接法融合,dna甲基化通过主成分分析方法融合。
14.进一步的,所述步骤s3的具体操作为:
15.假设一个目标基因mrna的真实表达水平为y,回归模型给出的mrna预测值为则mrna目标基因的mqtrans特征值为
16.转录调控因子表达值为自变量,用x表示,目标基因的mrna表达值为因变量,用y表示,回归模型系数用w表示;假设因变量y第i行表示为则有如下表示:
[0017][0018]
最小化因变量预测值和真实值之间的差值,记录参数w,从中选择出最大值w
i,max
,ai为λw
i,max
,则有如下表示:
[0019][0020]ai
=λw
i,max
,λ=0.9
[0021]
仅保留回归模型中w权重大于ai的特征用于后续分析,其他权重设置为0.0,计算mrna的表达值:
[0022]
ye=wexe+b+ε
[0023]
其中,xe是训练样本的tf-synthesis表达矩阵,ye是mrna表达矩阵,b是常量,ε是正态分布的误差项;假设回归模型输入tf-synthesis表达矩阵为xq,则样本ye的mrna值为:
[0024]
ye=wqxq+b+ε,s.t.wq=we[0025]
mrna的预测向量使用下式计算得到:
[0026][0027]
mqtrans特征被定义为:
[0028][0029]
构造的mqtrans特征定量刻画在不同样本组中转录调控关系的变化。
[0030]
进一步的,所述步骤s3中,若目标基因的mqtrans值接近零值,则表明现有样本和训练样本具有相似的转录调控机制;若目标基因的mqtrans值越大,则表明计算mqtrans值
的mrna特征在不同的样本中发生的改变越明显。
[0031]
进一步的,所述步骤s4中,健康样本作为回归模型的训练集,疾病样本作为测试集。
[0032]
进一步的,所述步骤s5的具体操作为:
[0033]
寻找对应数据库同种疾病类型的其他数据集作为验证集,使用五折交叉验证,筛选出在不同划分方式下均得到验证的标志物,最后通过生物富集分析方式从生物学层面来解释找到的标志物的合理性。
[0034]
与现有技术相比,本发明的有益效果是:
[0035]
该基于回归模型融合多组学检测tf-mrna调控关系的方法,融合多个组学数据,构建更准确、更稳定的转录调控关系网络;基于回归模型定量描述tf和mrna之间的转录调控关系,借助神经网络的激活函数可以实现非线性回归拟合,更适合生物医学数据的特点,较传统的统计分析效果更好;构造mqtrans特征,可以定量刻画基因在不同组别中转录调控关系发生的变化,找到了一些暗标志物(dark biomarkers)。
附图说明
[0036]
图1为本发明的算法整体流程图。
[0037]
图2为本发明的参与tf调控mrna过程的调控因子。
[0038]
图3为本发明的构建多输入多输出回归模型。
具体实施方式
[0039]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0040]
以下结合具体实施例对本发明的具体实现进行详细描述。
[0041]
本发明一个实施例提供的基于回归模型融合多组学检测tf-mrna调控关系的方法,包括以下步骤:
[0042]
步骤s1、数据处理和融合:从tcga数据库中下载甲基化组学数据和转录组学数据,经过整合处理后得到dna甲基化表达值、lncrna表达值、tf表达值和mrna表达值;从geo数据库中下载同属于一个芯片平台(比如gpl570)的甲基化组学和转录组学数据,整理后得到dna甲基化表达值、lncrna表达值、tf表达值和mrna表达值;对于每种数据类型进行预处理,把dna甲基化和lncrna作为特征融合进tf,最后组合成tf-synthesis和mrna的表达量;
[0043]
步骤s2、构建mimo模型:经过步骤s1后得到tf-synthesis矩阵和mrna矩阵,tf-synthesis矩阵的大小为n
×
d,mrna的矩阵大小为m
×
d,其中n为tf-synthesis矩阵的特征数量,m为mrna矩阵的特征数量,d为数据集中的样本数量;将tf-synthesis作为回归模型的输入,mrna矩阵作为回归模型的输出,使用基于机器学习或深度学习的模型构建n对m的mimo回归模型;
[0044]
步骤s3、构造mqtrans特征;
[0045]
步骤s4、训练模型:回归模型在训练集上拟合tf-synthesis和mrna之间的转录调控关系,通过拟合好的回归模型,用测试集的tf-synthesis表达矩阵预测mrna表达矩阵,得
到预测表达矩阵后,结合测试集真实的mrna表达矩阵求出每个基因对应的mqtrans值,通过mqtrans值的大小观察转录调控关系在两组样本中发生的改变程度,改变显著的基因作为疾病标志物候选;
[0046]
步骤s5、使用独立验证集检验标志物有效性。
[0047]
在本发明实施例中,优选的,步骤s1中,整理dna甲基化表达值、lncrna表达值、tf表达值和mrna表达值这四种表达值是因为dna甲基化和lncrna在tf调控mrna表达的过程中,起到非常关键的调控作用。如图2所示,dna甲基化和lncrna作为调控因子参与tf对mrna的调控过程,影响mrna的表达水平,融合多组学数据有助于更准确地模拟tf和mrna之间的转录调控关系。步骤s2中,使用基于机器学习或深度学习的模型来构建n对m的多输入多输出(multi-input and multi-output,mimo)回归模型。回归模型既可以用简单的前馈神经网络、卷积神经网络,也可以用基于transformer的变体来构建,针对不同类型和不同复杂度的数据,不同的回归模型拟合效果不同,进行实验测试选择合适自己数据集的回归模型形式对结果分析最有帮助,必要时刻还可以集成多个回归模型来拟合数据。
[0048]
作为本发明的一种优选实施例,所述步骤s1中,预处理包括数据清洗、标准化和归一化操作。
[0049]
在本发明实施例中,优选的,数据清洗包括删除值全为0的行等。
[0050]
作为本发明的一种优选实施例,所述步骤s1中,lncrna特征通过拼接法融合,dna甲基化通过主成分分析方法融合。
[0051]
在本发明实施例中,优选的,把dna甲基化和lncrna作为特征融合进tf,lncrna特征通过拼接法融合,dna甲基化通过主成分分析(pca)方法融合,最后组合成tf-synthesis和mrna的表达量做回归拟合,进而定量观察tf和mrna之间的转录调控关系。
[0052]
作为本发明的一种优选实施例,为了更好地分析不同样本间转录调控关系的显著性差异改变,构造mqtrans特征。所述步骤s3的具体操作为:
[0053]
假设一个目标基因mrna的真实表达水平为y,回归模型给出的mrna预测值为则mrna目标基因的mqtrans特征值为
[0054]
一个样本中的dna甲基化、lncrna和tf特征数量加起来有上万个,并非所有的调控因子都参与了特定mrna基因的转录调控过程,为了筛选有作用的调控因子,计算调控因子和目标基因的皮尔逊系数(pearson correlation coefficient,pcc)来表示二者的相关性。本发明在回归模型中使用嵌入式的特征选择方法来提取对回归模型有重要作用的特征。
[0055]
转录调控因子表达值为自变量,用x表示,目标基因的mrna表达值为因变量,用y表示,回归模型系数用w表示;假设因变量y第i行表示为则有如下表示:
[0056][0057]
最小化因变量预测值和真实值之间的差值,记录参数w,从中选择出最大值w
i,max
,ai为λw
i,max
,则有如下表示:
[0058]
[0059]ai
=λw
i,max
,λ=0.9
[0060]
仅保留回归模型中w权重大于ai的特征用于后续分析,其他权重设置为0.0,计算mrna的表达值:
[0061]
ye=wexe+b+ε
[0062]
其中,xe是训练样本的tf-synthesis表达矩阵,ye是mrna表达矩阵,b是常量,ε是正态分布的误差项;假设回归模型输入tf-synthesis表达矩阵为xq,则样本ye的mrna值为:
[0063]
ye=wqxq+b+ε,s.t.wq=we[0064]
mrna的预测向量使用下式计算得到:
[0065][0066]
mqtrans特征被定义为:
[0067][0068]
构造的mqtrans特征定量刻画在不同样本组中转录调控关系的变化。
[0069]
在本发明实施例中,优选的,构造的mqtrans特征定量刻画在不同样本组中转录调控关系的变化,具体指与训练数据集中的样本相比,目标基因的转录调控关系发生的变化。
[0070]
作为本发明的一种优选实施例,所述步骤s3中,若目标基因的mqtrans值接近零值,则表明现有样本和训练样本具有相似的转录调控机制;若目标基因的mqtrans值越大,则表明计算mqtrans值的mrna特征在不同的样本中发生的改变越明显。
[0071]
作为本发明的一种优选实施例,所述步骤s4中,健康样本作为回归模型的训练集,疾病样本作为测试集。
[0072]
在本发明实施例中,优选的,以肺癌为例,健康肺部组织样本数据作为训练集,肺癌患者的肺部组织样本数据作为测试集。
[0073]
作为本发明的一种优选实施例,所述步骤s5的具体操作为:
[0074]
转录调控关系发生显著性差异改变的基因有作为疾病标志物的可能,寻找对应数据库同种疾病类型的其他数据集作为验证集,使用五折交叉验证,筛选出在不同划分方式下均得到验证的标志物,最后通过生物富集分析等方式从生物学层面来解释找到的标志物的合理性。
[0075]
实施例1、回归模型:lasso回归模型;数据集:geo数据库肺癌数据集;训练集:gse19804;两个独立测试集:gse33532和gse30219;
[0076]
使用lasso回归模型在gse19804数据集上做训练筛选,通过肺癌数据集中转录调控关系的改变找到了29个特征作为标志物备选。使用两个独立测试集进行验证,结合生物学敲除技术对这些标志物的诊断和预后作用进行验证,进一步证实了29个标志物中的3个标志物:fam150b、dnah12、cfap52。
[0077]
fam150b是人类的间变性淋巴瘤激酶(human anaplastic lymphoma kinase,alk)的有效配体,它的异常激活与非小细胞肺癌有关。在调研过程中没有发现dnah12和cfap52与肺癌有关联的证据支持,这意味着这个基因作为暗标志物(用传统方法无法发现的标志物称为暗标志物)可能被其他研究人员所忽视。本发明为生物标志物的研究开辟了新的视角。
[0078]
以上仅是本发明的优选实施方式,应当指出,对于本领域的技术人员来说,在不脱
离本发明构思的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些均不会影响本发明实施的效果和专利的实用性。
技术特征:
1.基于回归模型融合多组学检测tf-mrna调控关系的方法,其特征在于,包括以下步骤:步骤s1、数据处理和融合:从tcga数据库中下载甲基化组学数据和转录组学数据,经过整合处理后得到dna甲基化表达值、lncrna表达值、tf表达值和mrna表达值;从geo数据库中下载同属于一个芯片平台的甲基化组学和转录组学数据,整理后得到dna甲基化表达值、lncrna表达值、tf表达值和mrna表达值;对于每种数据类型进行预处理,把dna甲基化和lncrna作为特征融合进tf,最后组合成tf-synthesis和mrna的表达量;步骤s2、构建mimo模型:经过步骤s1后得到tf-synthesis矩阵和mrna矩阵,tf-synthesis矩阵的大小为n
×
d,mrna的矩阵大小为m
×
d,其中n为tf-synthesis矩阵的特征数量,m为mrna矩阵的特征数量,d为数据集中的样本数量;将tf-synthesis作为回归模型的输入,mrna矩阵作为回归模型的输出,使用基于机器学习或深度学习的模型构建n对m的mimo回归模型;步骤s3、构造mqtrans特征;步骤s4、训练模型:回归模型在训练集上拟合tf-synthesis和mrna之间的转录调控关系,通过拟合好的回归模型,用测试集的tf-synthesis表达矩阵预测mrna表达矩阵,得到预测表达矩阵后,结合测试集真实的mrna表达矩阵求出每个基因对应的mqtrans值,通过mqtrans值的大小观察转录调控关系在两组样本中发生的改变程度,改变显著的基因作为疾病标志物候选;步骤s5、使用独立验证集检验标志物有效性。2.根据权利要求1所述的基于回归模型融合多组学检测tf-mrna调控关系的方法,其特征在于,所述步骤s1中,预处理包括数据清洗、标准化和归一化操作。3.根据权利要求2所述的基于回归模型融合多组学检测tf-mrna调控关系的方法,其特征在于,所述步骤s1中,lncrna特征通过拼接法融合,dna甲基化通过主成分分析方法融合。4.根据权利要求1所述的基于回归模型融合多组学检测tf-mrna调控关系的方法,其特征在于,所述步骤s3的具体操作为:假设一个目标基因mrna的真实表达水平为y,回归模型给出的mrna预测值为则mrna目标基因的mqtrans特征值为转录调控因子表达值为自变量,用x表示,目标基因的mrna表达值为因变量,用y表示,回归模型系数用w表示;假设因变量y第i行表示为则有如下表示:最小化因变量预测值和真实值之间的差值,记录参数w,从中选择出最大值w
i,max
,a
i
为λw
i,max
,则有如下表示:a
i
=λw
i,max
,λ=0.9仅保留回归模型中w权重大于a
i
的特征用于后续分析,其他权重设置为0.0,计算mrna的表达值:
y
e
=w
e
x
e
+b+ε其中,x
e
是训练样本的tf-synthesis表达矩阵,y
e
是mrna表达矩阵,b是常量,ε是正态分布的误差项;假设回归模型输入tf-synthesis表达矩阵为x
q
,则样本y
e
的mrna值为:y
e
=w
q
x
q
+b+ε,s.t.w
q
=w
e
mrna的预测向量使用下式计算得到:mqtrans特征被定义为:构造的mqtrans特征定量刻画在不同样本组中转录调控关系的变化。5.根据权利要求4所述的基于回归模型融合多组学检测tf-mrna调控关系的方法,其特征在于,所述步骤s3中,若目标基因的mqtrans值接近零值,则表明现有样本和训练样本具有相似的转录调控机制;若目标基因的mqtrans值越大,则表明计算mqtrans值的mrna特征在不同的样本中发生的改变越明显。6.根据权利要求1所述的基于回归模型融合多组学检测tf-mrna调控关系的方法,其特征在于,所述步骤s4中,健康样本作为回归模型的训练集,疾病样本作为测试集。7.根据权利要求1所述的基于回归模型融合多组学检测tf-mrna调控关系的方法,其特征在于,所述步骤s5的具体操作为:寻找对应数据库同种疾病类型的其他数据集作为验证集,使用五折交叉验证,筛选出在不同划分方式下均得到验证的标志物,最后通过生物富集分析方式从生物学层面来解释找到的标志物的合理性。
技术总结
本发明适用于生物信息检测技术领域,提供了基于回归模型融合多组学检测TF-mRNA调控关系的方法,包括以下步骤:步骤S1、数据处理和融合;步骤S2、构建MIMO模型;步骤S3、构造mqTrans特征;步骤S4、训练模型;步骤S5、使用独立验证集检验标志物有效性。本发明融合多个组学数据,构建更准确、更稳定的转录调控关系网络;基于回归模型定量描述TF和mRNA之间的转录调控关系,借助神经网络的激活函数可以实现非线性回归拟合,更适合生物医学数据的特点,较传统的统计分析效果更好;构造mqTrans特征,可以定量刻画基因在不同组别中转录调控关系发生的变化,找到暗标志物。找到暗标志物。找到暗标志物。
技术研发人员:周丰丰 唐思源 宋晓楠
受保护的技术使用者:吉林大学
技术研发日:2023.07.25
技术公布日:2023/10/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种触摸屏盖板外观检查设备的制作方法 下一篇:一种弹力三层纱布的制作方法