一种基于扩散模型的长尾染色质状态预测方法与流程

未命名 10-21 阅读:54 评论:0


1.本发明属于染色质状态预测的技术领域,具体涉及一种基于扩散模型的长尾染色质状态预测方法。


背景技术:

2.染色质状态是指染色质在不同细胞类型中的不同结构和功能状态。由于其广泛的功能,如反映细胞的功能和状态,越来越受到人们的关注。dna序列的表观遗传学修饰是决定染色质状态的主要因素。例如,现有技术通过绘制9个染色质标记,定义了15种具有不同生物学作用的染色质状态。类似地,现有技术通过使用chip-seq数据从6个组蛋白标记中定义了18种染色质状态。这些研究表明,染色质状态呈长尾分布,某些状态比其他状态更丰富。例如,增强子的数量明显大于绝缘子。尽管有如chip-seq的基因组分析能够揭示染色质状态,但它需要更昂贵和耗时的实验。因此,迫切需要长尾染色质状态预测的计算方法。
3.目前,通过深度学习算法预测染色质状态已经做出了许多努力。deepsea是一项开创性的工作,它构建了一个cnn网络,从dna序列中预测919种染色质特征。继deepsea的开创性工作之后,众多研究人员在提高染色质状态预测算法的性能方面做出了宝贵的探索和突破;主要影响集中在模型架构上。现有技术提出了一种简单而有效的方法,该方法由单个cnn层、bilstm层和全连接层组成。具体来说,cnn用于学习基序信息,bilstm用于学习调控语法。现有技术还提出了一种混合dnn模型deepformer,该模型利用cnn和流注意力在有限的参数下实现准确的染色质特征预测。现有技术还通过积分扩张卷积来扩展感知场而不降低空间分辨率,以有更好的表现。然而,这些方法通常忽略了染色质状态之间的长尾问题,具体而言,一些方法通常通过混洗正样本来产生负样本来实现样本平衡,从而在实际情况下导致偏差。其他方法直接预测长尾染色质状态,导致头类和尾类之间的不平衡。
4.长尾学习旨在从遵循长尾类分布的许多样本中训练出性能良好的模型。然而,在实际应用中,经过训练的模型通常偏向于头类,导致尾类的性能较差。
5.现有技术中广泛使用的染色质状态预测分析方法依然存在一些不足之处:
6.第一点,现有的染色质状态预测方法通常忽略了染色质状态的长尾分布,难以同时兼顾头部类别的染色质状态和尾部类别染色质状态的预测,导致了方法的实用性有一定局限。
7.第二点,大量研究表明基因有其自身的语法规则,大量的模体(motif)是构成基因语言的“词组”,解析基因的语法规则是解析染色质状态并推测基因功能的主要一步。然而现有的染色质状态预测方法难以有效地捕捉这些模体之间的相对位置和长距离依赖关系,进而无法精准地解析基因语法、刻画染色质状态。


技术实现要素:

8.本发明的目的在于针对现有技术中的上述不足,提供一种基于扩散模型的长尾染色质状态预测方法,以解决现有类别不平衡数据对染色质状态预测的限制的问题。
9.为达到上述目的,本发明采取的技术方案是:
10.一种基于扩散模型的长尾染色质状态预测方法,其包括以下步骤:
11.s1、获取原始dna序列,并对所述原始dna序列进行处理得到dna编码数据;
12.s2、基于所述dna编码数据构建dna序列扩散模型;
13.s3、结合unet的噪声预测器,进行有条件的dna序列扩散模型的逆向过程,得到具有不同染色质状态类别的平衡数据集;
14.s4、基于所述平衡数据集,采用反向传播算法构建染色质状态预测模型。
15.进一步地,步骤s1中包括:
16.获取原始dna序列对应的染色质状态,并将获取的不同长度的原始dna序列的左右端进行扩增或截取处理,得到长度为l的dna序列;
17.采用独热编码方法将长度为l的dna序列转换为l
×
4的编码矩阵数据。
18.进一步地,步骤s2中的dna序列扩散模型包括前向过程和后向过程;
19.前向过程包括:
20.在给定前一个扩散步状态的条件下,预测当前扩散步状态的概率分布q(x
t
|x
t-1
):
[0021][0022][0023]
其中,为分别具有均值和方差β
t
i的高斯分布;x
t
为在第t次添加噪声之后的每个dna序列的载体,x
t-1
为在第t-1次添加噪声之后的每个dna序列的载体,当t=0时,x0为独热编码后的l
×
4的矩阵数据;β
t
为超参数,i为单位矩阵;∈
t-1
为从第t-1次采样中获得的基本噪声;a
t
=1-β
t
,,为权重,a
t
为扩散步t时a的取值,ai为扩散步i时a的取值,a为一个超参数;∈为t个方差不同的高斯分布相加得到的新的高斯分布,即扩散步t时的噪声。
[0024]
进一步地,后向过程包括:
[0025]
在给定在第t次添加噪声之后的每个dna序列的载体x
t
、细胞类型、染色质状态的条件下,预测在第t-1次添加噪声之后的每个dna序列的载体x
t-1
的概率分布p(x
t-1
|x
t
,c):
[0026][0027]
其中,μ(x
t
,c)和β
t
i分别为的均值和方差;c为条件,即当前dna序列对应的细胞类型和染色质状态;
[0028]
采用固定方差β
t
i,使用unet神经网络去拟合均值μ(x
t
,c),实现对扩散步t时刻的噪声预测,unet神经网络的损失函数为l
dm

[0029][0030]
其中,∈
θ
为基于unet神经网络的噪声预测器在参数θ下神经网络预测的噪声;为对于参数θ期望,θ为unet神经网络的参数。
[0031]
进一步地,步骤s3包括:
[0032]
s3.1、从标准正态分布中生成l
×
4的含噪声的dna序列,基于dna序列扩散模型对l
×
4的含噪声的dna序列进行迭代,直至t=0;
[0033]
s3.2、根据l
×
4的含噪声的dna序列、细胞类型和染色质状态条件c、扩散步t,采用噪声预测器预测输出dna序列的噪声预测值;
[0034]
s3.3、采用l
×
4的含噪声的dna序列减去当前噪声预测器预测输出的dna序列的噪声预测值;
[0035]
s3.4、重复步骤s3.2和步骤s3.3,直到t=0,生成具有特定细胞类型、染色质状态的dna序列;
[0036]
s3.5、重复步骤s3.2、步骤s3.3和步骤s3.4,直至得到具有不同染色质状态类别的平衡数据集。
[0037]
进一步地,染色质状态预测模型包括:
[0038]
模体感知卷积模块,用于提取dna序列模体,其包括3层卷积网络,每层所述卷积网络包括一个卷积层,一个relu激活层,一个dropout层和一个最大池化层maxpool,其计算过程为:
[0039]s(l1)
=conv(x
(l)
)
[0040]s(l2)
=dropout(relu(s
(l1)
),0.2)
[0041]s(l3)
=maxpool(s
(l2)
)
[0042]
其中,s
(l1)
和x
(l)
分别为第l个卷积网络的输入和输出,分别为第l个卷积网络的输入和输出,为平衡数据集;s
(l2)
为dropout层的输出;s
(l3)
为最大池化层maxpool的输出;conv()为卷积运算,relu()为激活函数,dropout()为防止过拟合函数,取值0.2;maxpool()为最大池化层;
[0043]
空洞卷积模块,用于学习dna序列语法;
[0044]
自注意模块,用于捕捉dna序列语法内部的相关性;
[0045]
分类模块,用于为每个dna序列构建染色质状态,并预测输出染色质状态。
[0046]
进一步地,空洞卷积模块包括3层空洞卷积网络,每层所述空洞卷积网络包括一个空洞卷积层,一个relu激活层和一个dropout层,其计算过程为:
[0047]z(l1)
=dconv(s
(l3)
)
[0048]z(l2)
=dropout(relu(z
(l1)
),0.2)
[0049]
其中,z
(l1)
为第l个空洞卷积网络的输出,z
(l2)
为dropout层的输出。
[0050]
进一步地,自注意模块包括两个transformer编码层,其计算过程为:
[0051]h(l1)
=layernorm(z
(l2)
+multihead(z
(l2)
))
[0052]h(l2)
=layernorm(h
(l1)
+ffn(h
(l1)
))
[0053]
其中,h
(l1)
为第l个transformer编码层的输出;layernorm()为层次归一化;multihead()为多头自注意力机制;ffn()为前馈神经网络,h
(l2)
为前馈神经网络的输出。
[0054]
进一步地,分类模块的计算过程为:
[0055]
y=activation(mlp(h
(l2)
))
[0056]
其中,y为预测输出的染色质状态,activation()为分类模块激活函数,mlp()为全连接层。
[0057]
进一步地,dna序列扩散模型的损失函数为:
[0058][0059]
其中,ld为重新加权传统的softmax交叉熵损失函数;c为类别;pj为类j的概率,yj为真正的类标签;w为权重;
[0060]
其中:
[0061][0062][0063]
其中,μ为手动选择的经验值。
[0064]
本发明提供的基于扩散模型的长尾染色质状态预测方法,具有以下有益效果:
[0065]
本发明利用基于dna序列扩散模型从噪音中生成尾部类别染色质状态的dna序列,从而实现样本平衡;然后,利用类别样本平衡的数据集训练染色质状态预测模型,染色质状态预测模型能够有效捕捉基于基因的语法规则,从而精确预测染色质状态。
[0066]
本发明在dna序列扩散模型训练中,提出了一种均衡损失,通过增加对生成样本的惩罚从而减小真实样本与生成样本间的偏差带来的影响。
[0067]
本发明提出的样本平衡方法为长尾染色质状态预测提供了一个简单、通用、模型无关的解决方案;此外,染色质状态预测模型,包含卷积、空洞卷积、自注意力等神经网络算子,能够有效的学习基因的语法规则,从而实现染色质状态的精准分类。
附图说明
[0068]
图1为本发明基于扩散模型的长尾染色质状态预测方法的流程图。
[0069]
图2为本发明基于扩散模型的长尾染色质状态预测方法的框架图。
具体实施方式
[0070]
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
[0071]
实施例1
[0072]
本实施例提供一种基于扩散模型的长尾染色质状态预测方法,本实施例通过dna序列扩散模型来生成长尾类的伪样本,进行数据平衡,以解决类别不平衡数据对染色质状态预测的限制;由于通过dna序列扩散模型生成的样本可能与真实样本之间存在偏差,给出一种均衡损失函数,通过增加对生成样本的惩罚从而减小真实样本与生成样本间的偏差带来的影响,参考图1,其具体包括以下步骤:
[0073]
步骤s1、获取原始dna序列,并对所述原始dna序列进行处理得到dna编码数据,其具体包括:
[0074]
获取原始dna序列对应的染色质状态,并将获取的不同长度的原始dna序列的左右端进行扩增或截取处理,得到长度为l的dna序列;
[0075]
采用独热编码方法将长度为l的dna序列转换为l
×
4的编码矩阵数据。
[0076]
步骤s2、基于dna编码数据构建dna序列扩散模型,将处理后的dna编码数据穿入扩散模型中训练,得到dna序列扩散模型;
[0077]
dna序列扩散模型包括前向过程和后向过程,均为一个参数马尔可夫链,前向过程是逐渐向数据中添加高斯噪声的模糊过程,直到它变成随机噪声,后向步骤是通过噪声预测器逐渐恢复数据的去噪过程;
[0078]
前向过程为逐渐将高斯噪声添加到原始数据中,直到数据变为纯噪声,其具体包括:
[0079]
在给定前一个扩散步状态的条件下,预测当前扩散步状态的概率分布q(x
t
|x
t-1
):
[0080][0081][0082]
其中,为分别具有均值和方差β
t
i的高斯分布;x
t
为在第t次添加噪声之后的每个dna序列的载体,x
t-1
为在第t-1次添加噪声之后的每个dna序列的载体,当t=0时,x0为独热编码后的l
×
4的矩阵数据;β
t
为超参数,是一个常数,取值在0和1之间;i为单位矩阵;∈
t-1
为从第t-1次采样中获得的基本噪声;a
t
=1-β
t
,,为权重,a
t
为扩散步t时a的取值,ai为扩散步i时a的取值,a为一个超参数;∈为t个方差不同的高斯分布相加得到的新的高斯分布,即扩散步t时的噪声,设q(x0)为dna序列的真实数据分布,x0是从q(x0)中采样的真实dna序列。
[0083]
后向过程是通过从高斯分布逐渐去噪来学习数据分布p(x),相当于学习长度为t的马尔可夫链的逆过程,在反向过程中添加“条件”来构建一个通用模型,该模型可以在不同的细胞类型中生成不同的染色质状态序列,定义该通用模型为p(x
t-1
|x
t
,c),其具体为:
[0084]
在给定在第t次添加噪声之后的每个dna序列的载体x
t
、细胞类型、染色质状态的条件下,预测在第t-1次添加噪声之后的每个dna序列的载体x
t-1
的概率分布p(x
t-1
|x
t
,c):
[0085][0086]
其中,μ(x
t
,c)和β
t
i分别为的均值和方差;c为条件,即当前dna序列对应的细胞类型和染色质状态;
[0087]
具体的,采用固定方差β
t
i,使用unet神经网络去拟合均值μ(x
t
,c),实现对扩散步t时刻的噪声预测,unet神经网络的损失函数为l
dm

[0088][0089]
其中,∈
θ
为基于unet神经网络的噪声预测器在参数θ下神经网络预测的噪声;为对于参数θ期望,θ为unet神经网络的参数。
[0090]
本实施例鉴于真实序列和生成序列之间可能存在偏差,提出均衡损失,旨在减少dna真实序列和dna生成序列之间的偏差影响,采用重新加权传统的softmax交叉熵损失函数来实现,该函数即为dna序列扩散模型的损失函数,即均衡损失函数为:
[0091]
[0092]
其中,ld为重新加权传统的softmax交叉熵损失函数;c为类别;pj为类j的概率,yj为真正的类标签;w为权重;
[0093]
其中:
[0094][0095][0096]
其中,μ为手动选择的经验值:
[0097]
然后通过adamw优化算法对dna序列扩散模型的损失函数进行优化,直至在验证集中损失达到最小,便停止训练。
[0098]
步骤s3、结合unet的噪声预测器,进行有条件的dna序列扩散模型的逆向过程,得到具有不同染色质状态类别的平衡数据集,其具体包括:
[0099]
步骤s3.1、从标准正态分布中生成l
×
4的含噪声的dna序列,基于dna序列扩散模型对l
×
4的含噪声的dna序列进行迭代,直至t=0;
[0100]
步骤s3.2、根据l
×
4的含噪声的dna序列、细胞类型和染色质状态条件c、扩散步t,采用噪声预测器预测输出dna序列的噪声预测值;
[0101]
步骤s3.3、采用l
×
4的含噪声的dna序列减去当前噪声预测器预测输出的dna序列的噪声预测值;
[0102]
步骤s3.4、重复步骤s3.2和步骤s3.3,直到t=0,生成具有特定细胞类型、染色质状态的dna序列;
[0103]
步骤s3.5、重复步骤s3.2、步骤s3.3和步骤s3.4,直至得到具有不同染色质状态类别的平衡数据集
[0104]
步骤s4、基于平衡数据集,基于反向传播算法进行染色质状态预测模型的训练,以构建染色质状态预测模型,染色质状态预测模型以平衡数据集中的dna序列为输入,其具体包括:
[0105]
模体感知卷积模块,用于提取dna序列模体,其包括3层卷积网络,每层卷积网络包括一个卷积层,一个relu激活层,一个dropout层和一个最大池化层maxpool,其计算过程为:
[0106]s(l1)
=conv(x
(l)
)
[0107]s(l2)
=dropout(relu(s
(l1)
),0.2)
[0108]s(l3)
=maxpools
(l2)
)
[0109]
其中,s
(l1)
和x
(l)
分别为第l个卷积网络的输入和输出,分别为第l个卷积网络的输入和输出,为平衡数据集;s
(l2)
为dropout层的输出;s
(l3)
为最大池化层maxpool的输出;conv()为卷积运算,relu()为激活函数,dropout()为防止过拟合函数,取值0.2;maxpool()为最大池化层;
[0110]
空洞卷积模块,用于学习dna序列语法,其包括3层空洞卷积网络,每层所述空洞卷积网络包括一个空洞卷积层,一个relu激活层和一个dropout层,其计算过程为:
[0111]z(l1)
=dconv(s
(l3)
)
[0112]z(l2)
=dropout(relu(z
(l1)
),0.2)
[0113]
其中,z
(l1)
为第l个空洞卷积网络的输出,z
(l2)
为dropout层的输出。
[0114]
自注意模块,用于捕捉dna序列语法内部的相关性,其包括两个transformer编码层,其计算过程为:
[0115]h(l1)
=layernorm(z
(l2)
+multihead(z
(l2)
))
[0116]h(l2)
=layernorm(h
(l1)
+ffn(h
(l1)
))
[0117]
其中,h
(l1)
为第l个transformer编码层的输出;layernorm()为层次归一化;multihead()为多头自注意力机制;ffn()为前馈神经网络,h
(l2)
为前馈神经网络的输出。
[0118]
分类模块,用于为每个dna序列构建染色质状态,并预测输出染色质状态。
[0119]
其包含一层全连接神经网络和一个激活函数,分类模块的计算过程为:
[0120]
y=activation(mlp(h
(l2)
))
[0121]
其中,y为预测输出的染色质状态,activation()为分类模块激活函数,mlp()为全连接层。
[0122]
进一步地,进行实验一和实验二,对比本发明方法与现有技术的其它方法;
[0123]
实验一:本发明提出的基于扩散模型的长尾染色质预测方法显著提高预测准确率。
[0124]
表一总结了本发明提出的长尾染色质状态预测方法与三种对比方法:deepsea(方法一),danq(方法二),sei(方法三),并在chromhmm数据集中的比较结果,如表1所示。
[0125]
表1染色质状态预测的准确率
[0126] 原始数据基于扩散模型实现数据平衡方法一0.6570.671方法二0.6670.683方法三0.6540.676本发明0.6760.691
[0127]
从表1中得到的主要观察结果如下:
[0128]
(1)采用本发明扩散模型的方法实现染色质状态的数据平衡,在全部四种方法中性能均有提升。这表明,本发明提出基于扩散模型的数据平衡方法是与模型无关的,该策略可以被不同模型广泛采用。
[0129]
(2)本发明提出的染色质状态预测模型优于其他三种方法。这表明,本发明提出的方法更能有效捕捉染色质特征,从而实现染色质状态预测。
[0130]
实验二:本发明提出的均衡损失可以有效减轻真实样本和生成样本之间偏差带来的影响
[0131]
表2总结了本发明提出的均衡损失在四种方法中的比较结果。
[0132]
表2染色质状态预测的准确率
[0133] 不使用均衡损失使用均衡损失方法一0.6710.706方法二0.6830.719方法三0.6760.702本发明0.6910.732
[0134]
从表2中得到的主要观察结果如下:
[0135]
(1)采用本发明提出的均衡损失,在全部四种方法中性能均有提升。这表明,本发明提出的均衡损失是与模型无关的。使用本发明提出的基于扩散模型的样本平衡方法配合均衡损失策略,可以被不同模型广泛采用。
[0136]
(2)本发明的提出的染色质状态预测方法优于对比方法。
[0137]
综上,本发明给出了基于扩散模型的框架,该框架能够生成不同细胞不同染色质状态的伪样本实现类别样本平衡,从而解决染色质状态预测中的长尾问题;并提出了一种均衡损失,它通过增加对伪样本的惩罚,以减轻真实样本和伪样本之间的偏差带来的影响;本发明的染色质状态预测模型有效捕捉了dna序列中的模体,从而学习基因的语法规则,进而实现更精准地预测染色质状态;除此,本发明支持在多gpu并行运算,可用于超大规模染色质状态的分析。
[0138]
虽然结合附图对发明的具体实施方式进行了详细地描述,但不应理解为对本专利的保护范围的限定。在权利要求书所描述的范围内,本领域技术人员不经创造性劳动即可做出的各种修改和变形仍属本专利的保护范围。

技术特征:
1.一种基于扩散模型的长尾染色质状态预测方法,其特征在于,包括以下步骤:s1、获取原始dna序列,并对所述原始dna序列进行处理得到dna编码数据;s2、基于所述dna编码数据构建dna序列扩散模型;s3、结合unet的噪声预测器,进行有条件的dna序列扩散模型的逆向过程,得到具有不同染色质状态类别的平衡数据集;s4、基于所述平衡数据集,采用反向传播算法构建染色质状态预测模型。2.根据权利要求1所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述步骤s1中包括:获取原始dna序列对应的染色质状态,并将获取的不同长度的原始dna序列的左右端进行扩增或截取处理,得到长度为l的dna序列;采用独热编码方法将长度为l的dna序列转换为l
×
4的编码矩阵数据。3.根据权利要求2所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述步骤s2中的dna序列扩散模型包括前向过程和后向过程;所述前向过程包括:在给定前一个扩散步状态的条件下,预测当前扩散步状态的概率分布q(x
t
|x
t-1
):):其中,为分别具有均值和方差方差β
t
i的高斯分布;x
t
为在第t次添加噪声之后的每个dna序列的载体,x
t-1
为在第t-1次添加噪声之后的每个dna序列的载体,当t=0时,x0为独热编码后的l
×
4的矩阵数据;β
t
为超参数,i为单位矩阵;∈
t-1
为从第t-1次采样中获得的基本噪声;a
t
=1-β
t
,,为权重,a
t
为扩散步t时a的取值,a
i
为扩散步i时a的取值,a为一个超参数;∈为t个方差不同的高斯分布相加得到的新的高斯分布,即扩散步t时的噪声。4.根据权利要求3所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述后向过程包括:在给定在第t次添加噪声之后的每个dna序列的载体x
t
、细胞类型、染色质状态的条件下,预测在第t-1次添加噪声之后的每个dna序列的载体x
t-1
的概率分布p(x
t-1
|x
t
,c):其中,μ(x
t
,c)和β
t
i分别为的均值和方差;c为条件,即当前dna序列对应的细胞类型和染色质状态;采用固定方差β
t
i,使用unet神经网络去拟合均值μ(x
t
,c),实现对扩散步t时刻的噪声预测,unet神经网络的损失函数为l
dm

其中,∈
θ
为基于unet神经网络的噪声预测器在参数θ下神经网络预测的噪声;为对于参数θ期望,θ为unet神经网络的参数。5.根据权利要求4所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述步骤s3包括:s3.1、从标准正态分布中生成l
×
4的含噪声的dna序列,基于dna序列扩散模型对l
×
4的含噪声的dna序列进行迭代,直至t=0;s3.2、根据l
×
4的含噪声的dna序列、细胞类型和染色质状态条件c、扩散步t,采用噪声预测器预测输出dna序列的噪声预测值;s3.3、采用l
×
4的含噪声的dna序列减去当前噪声预测器预测输出的dna序列的噪声预测值;s3.4、重复步骤s3.2和步骤s3.3,直到t=0,生成具有特定细胞类型、染色质状态的dna序列;s3.5、重复步骤s3.2、步骤s3.3和步骤s3.4,直至得到具有不同染色质状态类别的平衡数据集。6.根据权利要求1所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述染色质状态预测模型包括:模体感知卷积模块,用于提取dna序列模体,其包括3层卷积网络,每层所述卷积网络包括一个卷积层,一个relu激活层,一个dropout层和一个最大池化层maxpool,其计算过程为:s
(l1)
=conv(x
(l)
)s
(l2)
=dropout(relu(s
(l1)
),0.2)s
(l3)
=maxpool(s
(l2)
)其中,s
(l1)
和x
(l)
分别为第l个卷积网络的输入和输出,分别为第l个卷积网络的输入和输出,为平衡数据集;s
(l2)
为dropout层的输出;s
(l3)
为最大池化层maxpool的输出;conv()为卷积运算,relu()为激活函数,dropout()为防止过拟合函数,取值0.2;maxpool()为最大池化层;空洞卷积模块,用于学习dna序列语法;自注意模块,用于捕捉dna序列语法内部的相关性;分类模块,用于为每个dna序列构建染色质状态,并预测输出染色质状态。7.根据权利要求6所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述空洞卷积模块包括3层空洞卷积网络,每层所述空洞卷积网络包括一个空洞卷积层,一个relu激活层和一个dropout层,其计算过程为:z
(l1)
=dconv(s
(l3)
)z
(l2)
=dropout(relu(z
(l1)
),0.2)其中,z
(l1)
为第l个空洞卷积网络的输出,z
(l2)
为dropout层的输出。8.根据权利要求7所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述自注意模块包括两个transformer编码层,其计算过程为:h
(l1)
=layernorm(z
(l2)
+multihead(z
(l2)
))h
(l2)
=layernorm(h
(l1)
+ffn(h
(l1)
))
其中,h
(l1)
为第l个transformer编码层的输出;layernorm()为层次归一化;multihead()为多头自注意力机制;ffn()为前馈神经网络,h
(l2)
为前馈神经网络的输出。9.根据权利要求8所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述分类模块的计算过程为:y=activation(mlp(h
(l2)
))其中,y为预测输出的染色质状态,activation()为分类模块激活函数,mlp()为全连接层。10.根据权利要求4所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述dna序列扩散模型的损失函数为:其中,ld为重新加权传统的softmax交叉熵损失函数;c为类别;p
j
为类j的概率,y
j
为真正的类标签;w为权重;其中:其中:其中,μ为手动选择的经验值。

技术总结
本发明公开了一种基于扩散模型的长尾染色质状态预测方法,包括S1、获取原始DNA序列,并对原始DNA序列进行处理得到DNA编码数据;S2、基于所述DNA编码数据构建DNA序列扩散模型;S3、结合UNet的噪声预测器,进行有条件的DNA序列扩散模型的逆向过程,得到具有不同染色质状态类别的平衡数据集;S4、基于所述平衡数据集,采用反向传播算法构建染色质状态预测模型。本发明利用基于DNA序列扩散模型从噪音中生成尾部类别染色质状态的DNA序列,从而实现样本平衡;然后,利用类别样本平衡的数据集训练染色质状态预测模型,染色质状态预测模型能够有效捕捉基于基因的语法规则,从而精确预测染色质状态。测染色质状态。测染色质状态。


技术研发人员:张永清 刘宇航 牛颢 龙树全 丁春利 杨显华 邹权 龚美琴 朱桂全 王紫轩 袁豪 吕嘉珩
受保护的技术使用者:四川省计算机研究院
技术研发日:2023.08.07
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐