一种组织特异性eRNA的识别方法
未命名
09-29
阅读:67
评论:0
一种组织特异性erna的识别方法
技术领域
1.本发明涉及一种erna识别方法,具体涉及一种基于深度学习的组织特异性erna的识别方法,属于生物信息学领域。
背景技术:
2.基因的转录调控受到多种因素的影响,其中增强子是参与基因转录调控的重要顺式作用元件,对靶基因有增强表达的作用,增强子的功能通常与方向无关,并且与其调控的目标基因距离较远,但人类的许多癌症和疾病都与增强子的异常表达有关。近年来研究发现,许多经过功能验证的增强子能够转录生成长非编码rna(lncrna),称为增强子rna(erna)。因此,erna是一类具有表达活性的增强子,也是基因表达的一种关键调控元件,能够增强其靶基因的表达量。此外,erna有很强的组织特异性,仅限于特定的组织或细胞和环境中表达。尤其一些关键erna的异常表达可能引起多种疾病,包括癌症、心血管疾病和代谢性疾病等。因此,准确识别这些erna对于研究其在相关疾病中的作用机制具有重要意义。
3.大多数识别增强子的计算学方法是提取基因组中的序列特征,应用机器学习或深度学习的方法构建增强子识别的分类模型,完成增强子的识别,然而,以上方法只基于序列特征进行增强子识别,忽视了具有转录活性的增强子通常具有很高的组织特异性,而特异性表达的增强子在特定组织中经常表现出更重要的功能性,导致单纯依赖增强子序列特征的识别方法准确率不高。
技术实现要素:
4.本发明为了解决现有的组织特异性erna识别方法仅依赖erna的序列特征进行识别,导致识别结果的准确率不高的问题,进而提出了一种组织特异性erna的识别方法。
5.它包括以下步骤:
6.s1、获取不同组织的erna数据集,根据每个组织erna数据集中erna样本的数量,从现有文献中随机选择与对应组织中erna样本同等数量的非增强子样本,将每个组织的所有非增强子样本作为对应组织的非增强子数据集,并获取每个组织不同年龄样本的多种组蛋白修饰数据,每个年龄样本有5种组蛋白修饰数据;
7.s2、对每个组织内的每个erna样本进行窗口划分,确定每个erna样本上最能表征样本序列特征的最佳窗口,提取最佳窗口内的序列特征,得到对应erna样本的序列特征,将上述最佳窗口作为与所述erna样本相对的非增强子样本的最佳窗口,并提取最佳窗口内的序列特征,得到非增强子样本的序列特征;
8.s3、对每个组织内的每个erna样本进行窗口划分,根据s1中获取的对应组织不同年龄样本的多种组蛋白修饰数据,确定对应组织中每个erna样本上最能表征每个年龄样本的每种组蛋白修饰数据的最佳窗口,提取最佳窗口内的组蛋白修饰特征,得到对应erna样本在不同年龄样本下的多种组蛋白修饰特征,将上述最佳窗口作为与上述erna样本相对的非增强子样本的最佳窗口,提取最佳窗口内的组蛋白修饰特征,得到非增强子样本在不同
年龄样本下的多种组蛋白修饰特征;
9.s4、在某个组织中、某个时刻表达的erna由re和ae构成,re为经常表达的erna、ae为偶然表达的erna,将每个组织中所有erna样本和所有非增强子样本在每个年龄样本下的多种组蛋白修饰特征进行合并,得到对应组织的多组合并结果,根据每组合并结果,采用k-means方法对合并结果对应的所有erna样本和所有非增强子样本进行聚类,聚类结果包括候选re、候选ae或ne两种,ne为非增强子,重复上述过程,得到多组聚类结果,利用投票的方式从多组聚类结果的候选re中选取对应组织下的re,并将除re外的所有候选re和候选ae或ne作为ae,将re和ae作为特征分别加入对应组织在每个年龄样本下的每个erna样本的每套组蛋白修饰特征和每个非增强子样本的每套组蛋白修饰特征中,得到对应组织在每个年龄样本下的特征矩阵;
10.s5、构建多个深度神经网络模型,每个深度神经网络模型依次包括dense层、dropout层、dense层、批标准化层、concatenate层、全连接层、sigmoid层;
11.将某个组织中的一个erna样本和一个非增强子样本作为样本si,根据s2得到的样本si的序列特征和s4得到的样本si在每个年龄样本下的特征矩阵,将序列特征和某个特征矩阵输入某个深度神经网络模型进行训练,输出样本si是否为组织特异性erna,直至满足迭代次数上限或loss损失不变,得到训练好的某个深度神经网络模型,按照上述训练方法对所有深度神经网络模型进行训练,得到每个年龄样本下训练好的深度神经网络模型,根据每个深度神经网络模型输出结果的准确率,选择准确率最高的深度神经网络模型作为最终的深度神经网络模型,则此深度神经网络模型输入的特征矩阵对应的年龄样本下的组蛋白修饰特征就是当前组织最优年龄样本下的组蛋白修饰特征;
12.s6、获取人类基因组内待测的dna序列,并确定待测组织,提取所述dna序列的序列特征和待测组织不同年龄样本下的多种组蛋白修饰特征,根据不同年龄样本下的多种组蛋白修饰特征,通过s4得到待测dna序列的re和ae,并将re和ae作为特征加入s5中得到对应组织最优年龄样本下的组蛋白修饰特征中,得到待测dna序列在最优年龄样本下的特征矩阵,将特征矩阵和序列特征作为数据样本,将数据样本输入s5得到的最终的深度神经网络模型内,输出dna序列是否为组织特异性erna。
13.进一步地,s1具体过程为:
14.从hera数据库和eric数据库中获取胃、肺、肝、胰腺、肝癌、肺腺癌、前列腺癌和胰腺癌八种组织的erna样本,将每个组织的所有erna样本作为对应组织的erna数据集,每个组织中包含多条erna样本,所有组织中的erna样本长度都一样,不同组织的erna样本总数量是不同的,集合获取的所有erna样本作为正例集;
15.根据每个组织中erna样本的数量,从现有文献中随机选择与对应组织中erna样本同等数量的非增强子样本,并将每个非增强子扩展为与erna等长,将每个组织的所有非增强子样本作为对应组织的非增强子数据集,将所有非增强子数据集作为反例集;
16.从encode数据库中下载每个组织中不同年龄样本的5种组蛋白修饰数据,5种组蛋白修饰数据包括h3k4me1、h3k4me3、h3k9me3、h3k27ac和h3k36me3,即:
17.胃组织包括五个年龄样本:34years胃组织样本、37years胃组织样本、51years胃组织样本、53years胃组织样本、54years岁胃组织样本,从encode数据库中下载每个年龄样本对应的5种组蛋白修饰数据;
18.肺组织包括五个年龄样本:3years肺组织样本、37years肺组织样本、51years肺组织样本、54years肺组织样本、59years岁肺组织样本,从encode数据库中下载每个年龄样本对应的5种组蛋白修饰数据;
19.肝组织包括三个年龄样本:16years肝组织样本、25years肝组织样本、31years肝组织样本,从encode数据库中下载每个年龄样本对应的5种组蛋白修饰数据;
20.胰腺组织包括三个年龄样本:30years胰腺组织样本、34years胰腺组织样本、59years胰腺组织样本,从encode数据库中下载每个年龄样本对应的5种组蛋白修饰数据;
21.肝癌、肺腺癌、前列腺癌和胰腺癌均仅有一个样本,分别为heg2肝癌样本、pc-9肺腺癌样本、pc-3前列腺癌样本、pan1胰腺癌样本,从encode数据库中下载每个样本对应的5种组蛋白修饰数据。
22.进一步地,s2具体过程为:
23.s21、在每个组织内,确定划分每个erna样本的窗口大小,将划分每个erna样本的窗口大小作为划分对应非增强子样本的窗口大小;
24.s22、根据窗口大小划分每个erna样本和对应的非增强子样本;
25.s23、在每个erna样本上,通过bert+bi-lstm模型选择最能表征样本序列特征的最佳窗口,提取最佳窗口内的序列特征,得到对应erna样本的序列特征,将上述最佳窗口作为与所述erna样本相对的非增强子样本的最佳窗口,并提取最佳窗口内的序列特征,得到非增强子样本的序列特征,bert+bi-lstm模型依次包括bert模型和bi-lstm神经网络。
26.进一步地,s21具体过程为:
27.每个erna样本的原始增强子注释来源于fantom数据库、encode和roadmap epigenomics project数据库,fantom数据库中增强子的平均长度为lf,因此,以lf作为确定划分每个erna样本和对应非增强子样本的窗口大小。
28.进一步地,s22具体过程为:
29.以每个erna样本中间碱基的区域作为第一个窗口wi,再分别向第一个窗口wi的上游和下游依次取lfbp,得到窗口w
i-1
和窗口w
i+1
,直至将每个erna样本全部划分完成,得到划分后的每个erna样本s={
…
,w
i-1
,wi,w
i+1
,
…
};同理,执行上述操作,得到与上述erna样本对应的,且窗口划分后的非增强子样本。
30.进一步地,s23具体过程为:
31.将每个erna样本视为一个句子,将滑动窗口大小设为k,k∈n+,步长为1,利用滑动窗口将每个erna样本上每个窗口内的序列分割成(l
f-k+1)个长度为kbp的词,利用预训练模型bert将每个词生成动态词向量,得到包含动态词向量的每个erna样本;
32.将包含动态词向量的某个erna样本上所有窗口内的动态词向量依次送入bi-lstm网络的打分器内,对每个窗口表征当前erna样本序列特征的程度进行打分,选择分数最高的一个窗口作为表征当前erna样本序列特征的最佳窗口,并将最佳窗口内的序列输入bi-lstm网络中,提取序列特征s
feature
作为到当前erna样本的序列特征,将上述最佳窗口作为与当前erna样本对应的非增强子样本的最佳窗口,提取并得到所述非增强子样本最佳窗口内的序列特征;
33.同理,执行上述操作,得到表征每个erna样本序列特征的最佳窗口和最佳窗口内
的序列特征,以及表征每个非增强子样本序列特征的最佳窗口和最佳窗口内的序列特征。
34.进一步地,s3具体过程为:
35.s31、根据每个组织的不同年龄样本,获取每个年龄样本的每种组蛋白修饰数据的信号峰平均长度l
peak
,得到每个年龄样本对应的5种组蛋白修饰数据的信号峰平均长度l
peak
;
36.s32、根据每个年龄样本的每种组蛋白修饰数据的信号峰平均长度和s21中的窗口大小,确定每种组蛋白修饰数据下划分每个erna样本的窗口大小,将划分每个erna样本的窗口大小作为划分对应非增强子样本的窗口大小,具体过程为:
37.若每个年龄样本的某种组蛋白修饰数据的信号峰平均长度l
peak
小于等于lf,则按照lf对某种组蛋白修饰数据下的每个erna样本和每个非增强子样本进行窗口划分;若每个年龄样本的某种组蛋白修饰数据的信号峰平均长度l
peak
大于lf,则按照l
peak
对某种组蛋白修饰数据下的每个erna样本和每个非增强子样本进行窗口划分;
38.s33、根据每个年龄样本的每种组蛋白修饰数据的窗口大小划分对应组蛋白修饰数据下每个erna样本和每个非增强子样本,得到对应组蛋白修饰数据下划分后的每个erna样本和每个非增强子样本,具体过程为:
39.根据每个年龄样本的某种组蛋白修饰数据的窗口大小l对每个erna样本和每个非增强子样本进行划分,以每个erna样本中间碱基的区域作为第一个窗口wj,再分别向上游和下游依次取lbp,得到窗口w
j-1
和窗口w
j+1
,直至将每个erna样本全部划分完成,得到所述组蛋白修饰数据下划分后的每个erna样本s1={
…
,w
j-1
,wj,w
j+1
,
…
};同理,执行上述操作,得到所述组蛋白修饰数据下划分后的每个非增强子样本;
40.s34、在某组蛋白修饰数据下划分后的每个erna样本上选择最能表征样本上某组蛋白修饰数据的最佳窗口,并提取最佳窗口内的组蛋白修饰特征,得到erna样本的某组蛋白修饰特征,将上述最佳窗口作为与所述erna样本相对的非增强子样本的最佳窗口,并提取最佳窗口内的组蛋白修饰特征,得到非增强子样本的某种组蛋白修饰特征,具体过程为:
41.将某组蛋白修饰数据下划分后的全部erna样本以中心碱基对齐的方式叠放在一起,统计叠放后的全部erna样本在同一窗口内含有同种组蛋白修饰数据的erna数量,选取erna数量最多的窗口作为最能表征erna样本上某组蛋白修饰数据的最佳窗口,并提取最佳窗口内的组蛋白修饰特征,得到对应erna样本的某组蛋白修饰特征,将上述最佳窗口作为与所述erna样本相对的非增强子样本的最佳窗口,并提取最佳窗口内的组蛋白修饰特征,得到非增强子样本的某种组蛋白修饰特征。
42.进一步地,s4具体过程为:
43.s41、将每个组织中所有erna样本和所有非增强子样本在每个年龄样本下的多种组蛋白修饰特征进行合并,得到多组合并结果,根据每组合并结果,采用k-means方法对合并结果对应的所有erna样本和所有非增强子样本进行聚类,聚成结果分为两类,一类为候选re,另一类为候选ae或候选ne,重复上述过程,得到多组聚类结果,即得到多组候选re,对多组候选re进行投票,选出得分最高的候选re作为对应组织的re,并将除re外的所有候选re和候选ae或候选ne作为ae/ne;
44.s42、将投票得到的re和ae/ne作为特征加入对应组织在每个年龄样本下的每个
erna样本的每套组蛋白修饰特征和每个非增强子样本的每套组蛋白修饰特征中,其中,re特征值定义为1,ae/ne特征值定义为0,得到对应组织在每个年龄样本下的一个6维的特征矩阵。
45.进一步地,s41中投票为:
46.若某组织中有n套候选re,n是偶数,某个erna样本在(n/2,n]套候选re中都存在,则所述erna样本为所述组织的re;若某组织中有n套候选re,n是奇数,某个erna样本在(n/2,n]套候选re中都存在,则所述erna样本为所述组织的re。
47.进一步地,s5中每个深度神经网络模型的训练过程具体为:
48.首先,将特征矩阵a
l
=[a1a2a3a4a5a6]输入深度神经网络模型内,经过配有激活函数relu的两层dense层和dropout正则化层的处理,将a
l
与权重系数矩阵w
(l+1)
和偏倚向量b
l+1
进行一系列线性运算和激活运算,即:
[0049]a(l+1)
=relu(z
(l+1)
)=relu(w
(l+1)a(l)
+b
l+1
)
[0050][0051]
其中,层数l=0,1,2,w
(l+1)
是第l+1层的权重系数矩阵,b
l+1
是第l+1层的偏倚向量,a
(l+1)
是第l+1层的输出矩阵;
[0052]
将dense层输出的特征矩阵a
(l+1)
经过批标准化层处理,得到特征矩阵一,将特征矩阵一和对应的序列特征输入concatenate层内进行融合,输出一个新的特征矩阵二,将特征矩阵二输入全连接层,全连接层为一层,输出特征矩阵三,将特征矩阵三输入sigmoid激活函数层,输出样本si是否为组织特异性erna。
[0053]
有益效果:
[0054]
本发明通过获取人类基因组不同组织的erna数据集和对应的非增强子数据集,以及每个组织不同年龄样本的多种组蛋白修饰数据,每个年龄样本有5种组蛋白修饰数据。通过窗口划分得到最能表征每个erna样本序列特征的最佳窗口,将此最佳窗口作为与erna样本对应的非增强子样本的最佳窗口,并提取每个最佳窗口内的序列特征,得到每个erna样本和每个非增强子样本的序列特征。获取每个组织每个年龄样本的每种组蛋白修饰数据的信号峰平均长度,比较信号峰平均长度与提取序列特征时的窗口大小,确定划分对应组织中每个erna样本在每个年龄样本下对应组蛋白修饰数据的窗口大小,从每个erna样本上众多的窗口中获得最能表征对应组蛋白修饰数据的最佳窗口,将此最佳窗口作为与erna样本相对的非增强子样本的最佳窗口,并提取每个最佳窗口内的序列特征,得到erna样本和非增强子样本在不同年龄样本下的多种组蛋白修饰特征。将每个组织中所有erna样本和所有非增强子样本在每个年龄样本下的多种组蛋白修饰特征进行合并,得到对应组织的多组合并结果,根据每组合并结果,采用k-means方法对合并结果对应的所有erna样本和所有非增强子样本进行聚类,聚类结果包括候选re、候选ae/ne两种,ne为非增强子,重复上述过程,得到多组聚类结果,利用投票的方式从多组聚类结果的候选re中选取对应组织下的re,并将除re外的所有候选re和候选ae/ne作为ae/ne,将re和ae/ne作为特征分别加入对应组织在每个年龄样本下的每个erna样本的每套组蛋白修饰特征和每个非增强子样本的每套组蛋白修饰特征中,得到对应组织在每个年龄样本下的特征矩阵。构建多个识别erna的深度神经网络模型,将某个组织中的一个erna样本和一个非增强子样本作为样本si,根据s2得
到的样本si的序列特征和s4得到的样本si在每个年龄样本下的特征矩阵,将序列特征和某个特征矩阵输入某个深度神经网络模型,输出数据样本是否为组织特异性erna,得到每个年龄样本下训练好的深度神经网络模型,选择准确率最高的深度神经网络模型作为最终的深度神经网络模型,则此深度神经网络模型输入的特征矩阵对应的年龄样本下的组蛋白修饰特征就是当前组织最优年龄样本下的组蛋白修饰特征。再具体应用时,将待测dna序列在待测组织下的re和ae加入对应组织最优年龄样本下的组蛋白修饰特征中,得到待测dna序列在最优年龄样本下的特征矩阵,将特征矩阵和序列特征作为数据样本,将数据样本输入得到的最终的深度神经网络模型内,输出dna序列是否为组织特异性erna。
[0055]
本发明提供了一种用于从人类基因组中识别组织特异性erna的方法,将现有的组蛋白修饰数据和相同组织中不同样本的组蛋白修饰数据相结合,并通过融合组蛋白修饰特征和序列特征构建深度神经网络模型,以深度神经网络模型识别组织特异性erna,得到的erna识别结果准确率较高,为基于多种生物学数据的生物技术的开发提供了先导支持。
附图说明
[0056]
图1是本发明的流程图;
[0057]
图2是提取序列特征时的窗口划分示意图;
[0058]
图3是利用bert模型将dna序列编码成词向量的过程示意图;
[0059]
图4是双向长短期记忆网络bi-lstm的结构示意图;
[0060]
图5是提取组蛋白修饰特征时的窗口划分示意图;
[0061]
图6是深度神经网络模型的示意图;
[0062]
图7是胃组织中不同年龄样本识别erna的准确性对比图;
[0063]
图8是胰腺组织中不同年龄样本识别erna的准确性对比图;
[0064]
图9是肝组织中不同年龄样本识别erna的准确性对比图;
[0065]
图10是肺组织中不同年龄样本识别erna的准确性对比图;
[0066]
图11是实施例提供的融合后特征和仅使用序列特征识别erna的贡献对比图;
具体实施方式
[0067]
具体实施方式一:结合图1-图10说明本实施方式,本实施方式所述一种组织特异性erna的识别方法,它包括以下步骤:
[0068]
s1、获取不同组织的erna数据集,根据每个组织erna数据集中erna样本的数量,从现有文献中随机选择与对应组织中erna样本同等数量的非增强子样本,将每个组织的所有非增强子样本作为对应组织的非增强子数据集,并获取每个组织不同年龄样本的多种组蛋白修饰数据,每个年龄样本有5种组蛋白修饰数据,具体过程为:
[0069]
从hera数据库和eric数据库中获取胃、肺、肝、胰腺、肝癌、肺腺癌、前列腺癌和胰腺癌八种组织的erna样本,将每个组织的所有erna样本作为对应组织的erna数据集,每个组织中包含多条erna样本,所有组织中的erna样本长度都一样,不同组织的erna样本总数量是不同的,集合获取的所有erna样本作为正例集。
[0070]
erna是一种能够转录成rna的增强子,即erna是增强子的子集,这里所用erna数据是其转录前的dna序列,非增强子数据也是dna序列。erna的原始增强子不仅来自fantom数
据库,还由encode数据库和roadmap epigenomics project数据库中组蛋白修饰数据所定义。
[0071]
根据每个组织中erna样本的数量,从研究识别增强子的现有文献中随机选择与对应组织中erna样本同等数量的非增强子样本,并将每个非增强子扩展为与erna等长,将每个组织的所有非增强子样本作为对应组织的非增强子数据集,将所有非增强子数据集作为反例集。
[0072]
从encode数据库中下载每个组织中不同年龄样本的5种组蛋白修饰chip-seq数据,5种组蛋白修饰数据包括h3k4me1、h3k4me3、h3k9me3、h3k27ac和h3k36me3,具体过程为:
[0073]
在每个组织中每个年龄样本的全基因组范围内做5种组蛋白修饰的chip-seq实验,会得到每个年龄样本的5种组蛋白修饰数据,即胃组织包括五个年龄样本:34years胃组织样本、37years胃组织样本、51years胃组织样本、53years胃组织样本、54years岁胃组织样本,从encode数据库中下载每个年龄样本对应的5种组蛋白修饰数据;
[0074]
肺组织包括五个年龄样本:3years肺组织样本、37years肺组织样本、51years肺组织样本、54years肺组织样本、59years岁肺组织样本,从encode数据库中下载每个年龄样本对应的5种组蛋白修饰数据;
[0075]
肝组织包括三个年龄样本:16years肝组织样本、25years肝组织样本、31years肝组织样本,从encode数据库中下载每个年龄样本对应的5种组蛋白修饰数据;
[0076]
胰腺组织包括三个年龄样本:30years胰腺组织样本、34years胰腺组织样本、59years胰腺组织样本,从encode数据库中下载每个年龄样本对应的5种组蛋白修饰数据;
[0077]
肝癌、肺腺癌、前列腺癌和胰腺癌均仅有一个样本,分别为heg2肝癌样本、pc-9肺腺癌样本、pc-3前列腺癌样本、pan1胰腺癌样本,从encode数据库中下载每个样本对应的5种组蛋白修饰数据。
[0078]
此步骤获取的是每个组织全基因组范围上的组蛋白修饰数据,不单指erna和非增强子的组蛋白修饰数据。全基因组上不同位置的dna序列的组蛋白修饰不同,有的位置有,有的位置没有,又因为erna和非增强子是基因组上的一段dna序列,那么它们是有概率存在组蛋白修饰的,并且之前的研究表明,基因组上生物信号h3k4me1、h3k4me3、h3k9me3、h3k27ac和h3k36me3与erna密切相关,因此我们将这五种组蛋白修饰作为识别erna的特征。
[0079]
s2、对每个组织内的每个erna样本进行窗口划分,确定每个erna样本上最能表征样本序列特征的最佳窗口,提取最佳窗口内的序列特征,得到对应erna样本的序列特征,将上述最佳窗口作为与所述erna样本相对的非增强子样本的最佳窗口,并提取最佳窗口内的序列特征,得到非增强子样本的序列特征。
[0080]
由于每个erna样本太长,含有的噪声太多,所以需要对erna和非增强子进行窗口划分,选择最能表征erna特征或非增强子特征的区域。过程如下:
[0081]
s21、在每个组织内,确定划分每个erna样本的窗口大小,将划分每个erna样本的窗口大小作为划分对应非增强子样本的窗口大小,具体过程为:
[0082]
每个erna样本的原始增强子注释来源于fantom数据库(采用cage技术定义增强子)、encode和roadmap epigenomics project数据库(使用组蛋白修饰数据定义增强子),fantom数据库中增强子的平均长度为lf,因此,以lf作为划分每个erna样本和对应非增强子样本的窗口大小,lf=300b。
[0083]
s22、根据窗口大小划分每个erna样本和对应的非增强子样本。
[0084]
以每个erna样本中间碱基的区域作为第一个窗口wi,再分别向第一个窗口wi的上游和下游依次取lfbp,得到窗口w
i-1
和窗口w
i+1
,直至将每个erna样本全部划分完成,得到划分后的每个erna样本s={
…
,w
i-1
,wi,w
i+1
,
…
},如图2所示;同理,执行上述操作,得到与上述erna样本对应的,且窗口划分后的非增强子样本。
[0085]
s23、在每个erna样本上,通过bert+bi-lstm模型选择最能表征样本序列特征的最佳窗口,提取最佳窗口内的序列特征,得到对应erna样本的序列特征,将上述最佳窗口作为与所述erna样本相对的非增强子样本的最佳窗口,此最佳窗口最能表征每个非增强子样本序列特征,并提取最佳窗口内的序列特征,得到非增强子样本的序列特征,bert+bi-lstm模型依次包括bert模型和bi-lstm神经网络,具体过程为:
[0086]
将每个erna样本视为一个句子,采用自然语言处理方法将句子中的每个字编码为向量,即将滑动窗口大小设为k,k∈n+,步长为1,利用滑动窗口将每个erna样本上每个窗口内的序列分割成(l
f-k+1)个长度为kbp的词,利用googleai研究院提出的预训练模型bert(bidirectional encoder representations from transformers)将每个词生成动态词向量,得到包含动态词向量的每个erna样本。以当前erna样本s中的窗口wi为例进行说明,如图3所示。
[0087]
双向长短期记忆网络(bi-lstm)是长短期记忆网络(lstm,long short-term memory)的变体,其基本思想是每一个输入序列正向和反向都经过一次循环神经网络,这样的双向结构记忆能力更强,更擅长处理较长的序列数据,被广泛应用在序列识别、自然语言处理等任务中。因此,本发明采用bi-lstm网络对每个窗口打分,如图4所示。lstm是由一系列lstm单元(lstm unit)组成,每个单元主要由决定丢弃的信息、确定更新的信息、更新细胞状态和输出信息四部分组成。决定丢弃的信息是决定从前一个细胞状态c
t-1
中丢弃什么信息,这个决定通过一个遗忘门f
t
实现:
[0088]ft
=σ(wf·
[h
t-1
,x
t
]+bf)
[0089]
确定更新的信息是确定输入信息x
t
中哪些部分被存放在细胞状态中,由输入门i
t
和候选细胞状态构成。
[0090]it
=σ(wi·
[h
t-1
,x
t
]+bi)
[0091][0092]
更新细胞状态根据决定丢弃的信息和确定更新的信息的结果更新旧细胞状态,即c
t-1
更新为c
t
。
[0093][0094]
输出信息是基于细胞状态c
t
确定下一个隐藏状态h
t
的值。首先,通过一个sigmoid层o
t
确定细胞状态的哪些部分将输出,将前一个隐藏状态h
t-1
和当前输入x
t
传递到o
t
层中,使细胞状态c
t
通过tanh激活函数,并将细胞状态c
t
和o
t
层的输出相乘,以确定隐藏状态应携带的信息,最终将新的细胞状态和新的隐藏状态传递到下一个单元中。
[0095]ot
=σ(wo·
[h
t-1
,x
t
]+bo)
[0096]ht
=o
t
*tanh(c
t
)
[0097]
其中,h
t-1
是前一层隐藏状态的信息,x
t
是当前输入的信息,w是每层的权重矩阵,b
是每层的偏置,σ是sigmoid激活函数。
[0098]
将包含动态词向量的某个erna样本上所有窗口内的动态词向量依次送入bi-lstm网络的打分器内,对每个窗口表征当前erna样本序列特征的程度进行打分,选择分数最高的一个窗口作为表征当前erna样本序列特征的最佳窗口,并将最佳窗口内的序列输入bi-lstm网络中,提取序列特征s
feature
作为到当前erna样本的序列特征,将上述最佳窗口作为与当前erna样本对应的非增强子样本的最佳窗口,提取并得到所述非增强子样本最佳窗口内的序列特征。同理,执行上述操作,得到表征每个erna样本序列特征的最佳窗口和最佳窗口内的序列特征,以及表征每个非增强子样本序列特征的最佳窗口和最佳窗口内的序列特征。
[0099]
本发明包括但不限于上述bi-lstm打分器,实际上还可以更换为其它深度学习模型作为打分器对不同窗口进行打分。
[0100]
s3、对每个组织内的每个erna样本进行窗口划分,根据s1中获取的对应组织不同年龄样本的多种组蛋白修饰数据,确定对应组织中每个erna样本上最能表征每个年龄样本的每种组蛋白修饰数据的最佳窗口,提取最佳窗口内的组蛋白修饰特征,得到对应erna样本在不同年龄样本下的多种组蛋白修饰特征,将上述最佳窗口作为与上述erna样本相对的非增强子样本的最佳窗口,提取最佳窗口内的组蛋白修饰特征,得到非增强子样本在不同年龄样本下的多种组蛋白修饰特征,具体过程为:
[0101]
由于erna太长,所含噪声较多。同时,erna的原始增强子不仅来自fantom数据库,还由encode数据库和roadmap epigenomics project数据库中组蛋白修饰数据所定义。因此,综合三个数据库中增强子定义的长度,选择最能表征每条erna组蛋白修饰特征的区域。
[0102]
s31、根据每个组织的不同年龄样本,获取每个年龄样本的每种组蛋白修饰数据的信号峰peak长度,根据每种组蛋白修饰数据的信号峰长度计算对应组织中对应组蛋白修饰数据的信号峰平均长度l
peak
,得到每个年龄样本对应的5种组蛋白修饰数据的信号峰平均长度l
peak
。比如,肝组织包括16years肝组织样本、25years肝组织样本、31years肝组织样本三个年龄样本,针对每个年龄样本能够得到其对应的5种组蛋白修饰数据(h3k4me1、h3k4me3、h3k9me3、h3k27ac和h3k36me3),那么就会得到5个信号峰平均长度l
peak
,则针对肝组织,就会得到三个年龄样本*5个信号峰平均长度l
peak
=15个信号峰平均长度l
peak
。
[0103]
s32、在每个组织中,根据每个年龄样本的每种组蛋白修饰数据的信号峰平均长度和s21中的窗口大小,确定每种组蛋白修饰数据下划分每个erna样本的窗口大小,将划分每个erna样本的窗口大小作为划分对应非增强子样本的窗口大小,具体过程为:
[0104]
若每个年龄样本的某种组蛋白修饰数据的信号峰平均长度l
peak
小于等于lf,则按照lf对某种组蛋白修饰数据下的每个erna样本和每个非增强子样本进行窗口划分;若每个年龄样本的某种组蛋白修饰数据的信号峰平均长度l
peak
大于lf,则按照l
peak
对某种组蛋白修饰数据下的每个erna样本和每个非增强子样本进行窗口划分。
[0105]
s33、根据每个年龄样本的每种组蛋白修饰数据的窗口大小划分对应组蛋白修饰数据下每个erna样本和每个非增强子样本,得到对应组蛋白修饰数据下划分后的每个erna样本和每个非增强子样本,具体过程为:
[0106]
根据每个年龄样本的某种组蛋白修饰数据的窗口大小l对每个erna样本和每个非
增强子样本进行划分,以每个erna样本中间碱基的区域作为第一个窗口wj,再分别向上游和下游依次取lbp,得到窗口w
j-1
和窗口w
j+1
,直至将每个erna样本全部划分完成,得到所述组蛋白修饰数据下划分后的每个erna样本s1={
…
,w
j-1
,wj,w
j+1
,
…
},如图5所示。同理,执行上述操作,得到所述组蛋白修饰数据下划分后的每个非增强子样本。统计当前erna样本或非增强子样本上每个窗口内每种组蛋白修饰特征分布情况,即peak的位置、高度、宽度,加以辅证划分窗口大小的合理性。
[0107]
比如,肝组织中16years肝组织样本的组蛋白修饰数据a的信号峰平均长度l
peak
小于等于lf,则按照lf对肝组织中每个erna样本和每个非增强子样本进行组蛋白修饰数据a的窗口划分;若组蛋白修饰数据a的信号峰平均长度l
peak
大于lf,则按照l
peak
对肝组织中每个erna样本和每个非增强子样本进行组蛋白修饰数据a的窗口划分。针对肝组织中16years肝组织样本的其余四种组蛋白修饰数据,同样执行上述操作,实现对erna样本和非增强子样本的对应组蛋白修饰数据的划分,则针对16years肝组织样本,会对肝组织中每个erna样本和每个非增强子样本进行5次的窗口划分,得到5种组蛋白修饰数据划分的结果,针对肝组织的三个年龄样本就会得到15种组蛋白修饰数据划分的结果。
[0108]
s34、在某组蛋白修饰数据下划分后的每个erna样本上选择最能表征样本上某组蛋白修饰数据的最佳窗口,并提取最佳窗口内的组蛋白修饰特征,得到对应erna样本的某组蛋白修饰特征,将上述最佳窗口作为与所述erna样本相对的非增强子样本的最佳窗口,即最能表征每个非增强子样本每种组蛋白修饰数据的最佳窗口,并提取此最佳窗口内的组蛋白修饰特征,得到非增强子样本的某种组蛋白修饰特征,具体过程为:
[0109]
将某组蛋白修饰数据下划分后的全部erna样本以中心碱基对齐的方式叠放在一起,统计叠放后的全部erna样本在同一窗口内含有同种组蛋白修饰数据的erna数量,选取erna数量最多的窗口作为最能表征erna样本上某组蛋白修饰数据的最佳窗口,并提取最佳窗口内的组蛋白修饰特征,得到erna样本的某组蛋白修饰特征,将上述最佳窗口作为与所述erna样本相对的非增强子样本的最佳窗口,并提取最佳窗口内的组蛋白修饰特征,得到非增强子样本的某种组蛋白修饰特征。
[0110]
由于每个组织有n个年龄样本,n∈n+,每个年龄样本有5种组蛋白修饰数据,即一套组蛋白修饰数据,即有5种组蛋白修饰特征,则每个组织有n套组蛋白修饰特征。针对每个组织内的每个erna样本,根据对应组织中不同年龄样本的n套组蛋白修饰特征,提取每个erna样本的n套组蛋白修饰特征;同理,能够得到每个非增强子样本的n套组蛋白修饰特征。
[0111]
比如,肝组织有3个年龄样本,分别是16years肝组织样本、25years肝组织样本、31years肝组织样本。针对16years肝组织,下载一套(5种)组蛋白修饰数据,根据上述记载的最佳窗口,16years肝组织样本的每种组蛋白修饰数据都会存在一个最佳窗口,根据最佳窗口提取对应组蛋白修饰数据的组蛋白修饰特征,因此针对肝组织的每个erna样本,会得到16years肝组织样本的一套组蛋白修饰特征,同理,此erna样本还会得到25years肝组织样本和31years肝组织样本对应的一套组蛋白修饰特征,即根据肝组织的3个年龄样本,肝组织中每个erna样本会得到三套组蛋白修饰特征(5种),每个非增强子样本也会得到三套组蛋白修饰特征(5种)。
[0112]
s4、在某个组织中、某个时刻表达的erna由经常表达的erna(re)、偶然表达的erna
(ae)构成,将每个组织中所有erna样本和所有非增强子样本在每个年龄样本下的多种组蛋白修饰特征进行合并,得到多组合并结果,根据每组合并结果,采用k-means方法对合并结果对应的所有erna样本和所有非增强子样本进行聚类,聚类结果包括候选re、候选ae/ne两种,ne为非增强子,重复上述过程,得到多组聚类结果,利用投票的方式从多组聚类结果的候选re中选取对应组织下的re,并将除re外的所有候选re和候选ae/ne作为ae/ne,将re和ae/ne作为特征分别加入对应组织在每个年龄样本下的每个erna样本的每套组蛋白修饰特征和每个非增强子样本的每套组蛋白修饰特征中,得到对应组织在每个年龄样本下的特征矩阵,具体过程为:
[0113]
由于re在多次组蛋白修饰(chip-seq)实验中具有相似的组蛋白修饰模式,所以通过聚类和投票的方法,结合不同样本的组蛋白修饰数据识别具有相同模式的erna作为re。
[0114]
s41、将每个组织中所有erna样本和所有非增强子样本在每个年龄样本下的多种组蛋白修饰特征进行合并,得到多组合并结果,根据每组合并结果,采用机器学习k-means方法对合并结果对应的所有erna样本和所有非增强子样本进行聚类,聚成结果分为两类,一类为候选re,另一类为候选ae或候选ne(非增强子),重复上述过程,得到多组聚类结果,即得到多组候选re,对多组候选re进行投票,选出得分最高的候选re作为对应组织的re,并将除re外的所有候选re和候选ae或候选ne作为ae/ne。
[0115]
投票规则:若某组织中有n套候选re,n是偶数,某个erna样本在(n/2,n]套候选re中都存在,则所述erna样本为所述组织的re;若某组织中有n套候选re,n是奇数,某个erna样本在(n/2,n]套候选re中都存在,则所述erna样本为所述组织的re。
[0116]
s42、将投票得到的re和ae/ne作为特征加入对应组织在每个年龄样本下的每个erna样本的每套组蛋白修饰特征和每个非增强子样本的每套组蛋白修饰特征中,以达到结合不同样本的组蛋白修饰数据的目的,其中,re特征值定义为1,ae/ne特征值定义为0。因此,得到对应组织在每个年龄样本下的一个6维的特征矩阵。
[0117]
s5、构建多个识别erna的深度神经网络模型,每个深度神经网络模型依次包括dense层、dropout层、dense层、批标准化层、concatenate层、全连接(fc)层、sigmoid层;
[0118]
将某个组织中的一个erna样本和一个非增强子样本作为样本si,根据s2得到的样本si的序列特征和s4得到的样本si在每个年龄样本下的特征矩阵,将序列特征和某个特征矩阵输入某个深度神经网络模型进行训练,输出样本si是否为组织特异性erna,直至满足迭代次数上限或loss损失不变,得到训练好的某个深度神经网络模型,按照上述训练方法对所有深度神经网络模型进行训练,得到每个年龄样本下训练好的深度神经网络模型,根据每个深度神经网络模型输出结果的准确率,选择准确率最高的深度神经网络模型作为最终的深度神经网络模型,则此深度神经网络模型输入的特征矩阵对应的年龄样本下的组蛋白修饰特征就是当前组织最优年龄样本下的组蛋白修饰特征。具体过程如下:
[0119]
深度神经网络模型如图6所示。首先,将特征矩阵a
l
=[a
1 a
2 a
3 a
4 a
5 a6]输入深度神经网络模型内,经过配有激活函数relu的两层dense层和dropout正则化层的处理,将a
l
与权重系数矩阵w
(l+1)
和偏倚向量b
l+1
进行一系列线性运算和激活运算,即:
[0120]a(l+1)
=relu(z
(l+1)
=relu(w
(l+1)a(l)
+b
l+1
)
[0121]
[0122]
其中,层数l=0,1,2,w
(l+1)
是第l+1层的权重系数矩阵,b
l+1
是第l+1层的偏倚向量,a
(l+1)
是第l+1层的输出矩阵。为了防止过拟合和提高效率,本发明还加入了dropout正则化。
[0123]
接下来,将dense层输出的特征矩阵a
(l+1)
经过批标准化层(bn层,batch normalization)处理,得到特征矩阵一,将特征矩阵一和对应的序列特征输入concatenate(融合)层内进行融合,输出一个新的特征矩阵二,将特征矩阵二输入全连接层,全连接层为一层,输出特征矩阵三,将特征矩阵三输入sigmoid激活函数层,输出样本si是否为组织特异性erna。
[0124]
总体而言,基于上述运算识别输入样本si为erna的概率过程由以下公式定义:
[0125]
ernaprob(si)=sigmoid(dense([bn(a
(l+1)
),s
feature
]))
[0126]
s6、获取人类基因组内待测的dna序列,并确定需要待测的组织,根据s2提取所述dna序列的序列特征,根据s3提取待测组织不同年龄样本下的多种组蛋白修饰特征,根据不同年龄样本下的多种组蛋白修饰特征,通过s4得到待测dna序列的re和ae,并将re和ae作为特征加入s5中得到对应组织最优年龄样本下的组蛋白修饰特征中,得到待测dna序列在最优年龄样本下的特征矩阵,将特征矩阵和序列特征作为数据样本,将数据样本输入s5得到的最终的深度神经网络模型内,输出dna序列是否为组织特异性erna。
[0127]
此处只将其加入到一个年龄样本下的组蛋白修饰特征,不需要加入到其它年龄样本下,因为s5中我们确定了最优模型,即确定了最终最优年龄样本。我们在此处s6中再次提取多个年龄样本下的组蛋白修饰特征,其目的仅在于通过聚类和投票的方式获得re和ae,并作为特征加入最优年龄样本下的组蛋白修饰特征,起到融合不同年龄样本下组蛋白修饰特征的目的,即获得最优年龄样本下的特征矩阵。
[0128]
本发明采用5折交叉验证和网格搜索策略确定上述模型(包括bert+bi-lstm模型和深度神经网络模型)中的超参数,如epoch、批处理大小和隐藏单元数量。
[0129]
首先,把每个组织的训练集分为数量一致且相互独立的5个子集。对于给定的一组超参数,选择1个子集作为验证集,用于评估此组超参数的准确性,其余4个子集作为模型的训练数据集,上述过程重复5次,对5次验证结果进行平均,用以评估此组超参数的准确性。例如有5组超参数,就相当于有5个候选模型,对于每个候选模型都进行5折交叉验证,会得到每个候选模型识别erna的准确率,即五组超参数的评价结果,将这5个结果进行对比,选择准确率最高的模型中的超参数,最终获得最佳的一组超参数设置。在获得模型的最佳超参数后,据此再用(训练集+验证集)数据训练出一个新模型作为最终的模型。
[0130]
对于目标函数,使用二进制交叉熵损失训练模型,即,
[0131][0132]
其中,si表示第i个样本,yi表示其对应的真标签,n表示训练样本的总数。用adam优化器优化训练损失,adam优化算法是随机梯度下降算法的扩展式。
[0133]
本发明采用五种常用的评估指标来评估此方法的性能,包括准确度(acc)、敏感度(sn)、特异度(sp)、马修斯相关系数(mcc)和受试者工作特征(roc)曲线下面积(auc)。性能评价指标定义如下:
[0134][0135][0136][0137][0138]
其中,tp、tn、fp和fn分别代表真阳性、真阴性、假阳性和假阴性。
[0139]
实施例
[0140]
下面以一组具体实验例对本发明的识别效果作进一步描述。
[0141]
如s1中所述,从人类erna数据库(hera)中下载胃组织的erna数据,总共3943个erna样本,从现有文献中随机选择3943个胃组织的非增强子数据,并将非增强子扩展为与erna等长的序列。将胃组织中所有样本的以4:1区分为训练集和独立测试集,即训练集有6308个样本(erna和非增强子各有3154个样本),独立测试集有1578个样本(erna和非增强子各有789个样本)。从encode数据库中下载胃组织不同年龄样本的5种组蛋白修饰chip-seq数据(h3k4me1、h3k4me3、h3k9me3、h3k27ac和h3k36me3)。具体包括:34years胃组织样本的五种组蛋白修饰数据、37years胃组织样本的五种组蛋白修饰数据、51years胃组织样本的五种组蛋白修饰数据、53years胃组织样本的五种组蛋白修饰数据、54years胃组织样本的五种组蛋白修饰数据。
[0142]
如s2所述,提取胃组织中每个erna样本和每个非增强子样本的序列特征。具体为:以窗口大小lf=300b划分每个erna样本和每个非增强子样本,所以对于每个erna样本或非增强子样本能够得到若干个窗口。以深度学习bert+bi-lstm模型选择最能表征每个erna样本序列特征的最佳窗口,并使用此最佳窗口提取每个erna样本和每个非增强子样本的序列特征s
feature
。
[0143]
如s3所述,提取胃组织中erna和非增强子的组蛋白修饰特征。根据上述五个不同年龄的胃组织样本的组蛋白修饰数据,计算每个胃组织样本的每种组蛋白修饰数据的平均长度l
peak
,将平均长度l
peak
和lf进行比较,确定提取每种组蛋白修饰特征的窗口大小,根据窗口大小划分对应胃组织样本下的每个erna样本和每个非增强子样本,确定提取每种组蛋白修饰特征的最佳窗口,以及最佳窗口内的组蛋白修饰特征,得到每个erna样本对应的当前胃组织样本下的5种组蛋白修饰特征,以及每个非增强子样本对应的当前胃组织样本下的5种组蛋白修饰特征。由于使用了五个胃组织样本的组蛋白修饰数据,那么就会获得每个erna样本的5套组蛋白修饰数据。同样获得非增强子的5套组蛋白修饰特征。
[0144]
如s4中所述,将每个erna样本的5套组蛋白修饰特征和每个非增强子样本的5套组蛋白修饰特征合并,通过k-means聚类和投票的方式从所有erna样本和所有非增强子样本中选出re和ae/ne;将re、ae/ne分别作为特征加入到每一套组蛋白修饰特征中,形成6维的特征矩阵。
[0145]
如s5中所述,基于特征矩阵和序列特征构建识别特定组织中erna的深度神经网络模型。
[0146]
最后,在本发明中使用了同一组织中不同年龄样本的组蛋白修饰数据,每个组织中至少有一个年龄样本的组蛋白修饰数据。对于有多个年龄样本的组织,我们基于每个年龄样本分别构建深度神经网络模型,通过五种指标评估深度神经网络模型的准确性,即评价不同年龄样本识别erna的准确性,然后选择最优深度神经网络模型中使用的年龄样本。
[0147]
胃组织中不同年龄样本识别erna的准确性比较如图7所示,其中样本37岁识别erna的五种性能指标最高,因此选择该样本构建胃组织中erna的识别模型(深度神经网络模型)。胰腺组织中不同年龄样本识别erna的准确性比较如图8所示,其中样本30岁有三个指标(acc、sp、auc)高于其它样本,选择该样本构建胰腺组织中erna的识别模型(深度神经网络模型)。肝组织中不同年龄样本识别erna的准确性比较如图9所示,其中样本25岁有三个指标(acc、sp、auc)高于其它样本,选择该样本构建肝组织中erna的识别模型(深度神经网络模型)。肺组织中不同年龄样本识别erna的准确性比较如图10所示,其中样本51岁在五个指标上都高于其它样本,因此选择该样本构建肺组织中erna的识别模型(深度神经网络模型)。肝癌、肺腺癌、前列腺癌和胰腺癌组织均只有一个年龄样本的组蛋白修饰数据,因此分别基于每个年龄样本构建肝癌、肺腺癌、前列腺癌和胰腺癌组织中erna的识别模型(深度神经网络模型)。
[0148]
为了评估融合后特征的贡献,证明本发明提高了单纯使用dna序列数据识别组织特异性erna的准确率,我们通过五种指标在八种不同组织的独立测试集上将融合后特征与仅使用序列特征进行了比较。如图11所示,在acc、sp、mcc、auc四个指标上融合后特征均高于只使用序列特征。此外,我们通过双总体t检验的p《=0.05说明两个样本的均值差异显著。如图11所示,在acc、sp、mcc、auc四个指标上均差异显著。总之,融合后特征比单纯使用序列特征提供了更多的识别信息,大幅度提高了特定组织中识别erna的准确率。
[0149]
为了评价分类器的泛化能力,本发明使用独立数据集将构建的深度学习框架(本发明所有方法步骤,如图1)与现有方法进行了比较。首先在4种正常组织的独立数据集上,通过5种评价指标比较了本发明和单纯基于序列特征的识别方法,seqpose方法、ienhancer-rd方法、lstmatt方法、frl方法。在正常胃组织的独立测试集上,本发明的深度学习框架在5种评价指标上全部优于其他方法,如表1所示,表1为在正常胃组织的独立测试集上与最先进识别方法效果对比示意表。在正常肺、肝和胰腺组织的独立测试集上本发明的深度学习框架有4个指标优于其他方法,如表2-4所示,表2为在正常肺组织的独立测试集上与最先进识别方法效果对比示意表,表3为在正常肝组织的独立测试集上与最先进识别方法效果对比示意表,表4为在正常胰腺组织的独立测试集上与最先进识别方法效果对比示意表。以上结果表明,本发明的深度学习框架在4种正常组织的独立测试集上性能均表现很好,切实提高了识别组织特异性erna的准确率。
[0150]
表1胃组织测试集上模型比较
[0151][0152]
表2肺组织测试集上模型比较
[0153][0154]
表3肝组织测试集上模型比较
[0155][0156]
表4胰腺组织测试集上模型比较
[0157][0158]
为了检验本方法同样适应于癌症组织中erna的识别,分别在4种癌症组织的独立数据集上,通过5种评价指标比较了本方法和单纯基于序列特征的识别方法,seqpose方法、ienhancer-rd方法、lstmatt方法、frl方法。在肝癌、肺腺癌和前列腺癌组织的独立测试集上本方法有4个指标同样优于其他方法,如表5-7所示,表5为在肝癌组织的独立测试集上与最先进识别方法效果对比示意表,表6为在肺腺癌组织的独立测试集上与最先进识别方法效果对比示意表,表7为在前列腺癌组织的独立测试集上与最先进识别方法效果对比示意表。在胰腺癌组织的独立测试集上,本发明的深度学习框架在2个评价指标上优于其他方法,如表8所示,表8为在胰腺癌组织的独立测试集上与最先进识别方法效果对比示意表。由于胰腺癌中组蛋白修饰较为复杂,导致模型识别erna的acc偏低,但是本发明的深度学习框架在评价指标auc上优于其它识别方法,说明本发明的深度学习框架的整体性能要优于其他方法。以上结果表明,在4种癌症组织中本发明的深度学习框架的整体性能均表现良好。其中在肝癌、肺腺癌和前列腺癌组织中具有很强的稳健性,切实提高了识别组织特异性erna的准确率。
[0159]
表5肝癌测试集上模型比较
[0160][0161]
表6肺腺癌测试集上模型比较
[0162][0163]
表7前列腺癌测试集上模型比较
[0164][0165][0166]
表8胰腺癌测试集上模型比较
[0167]
技术特征:
1.一种组织特异性erna的识别方法,其特征在于:它包括以下步骤:s1、获取不同组织的erna数据集,根据每个组织erna数据集中erna样本的数量,从现有文献中随机选择与对应组织中erna样本同等数量的非增强子样本,将每个组织的所有非增强子样本作为对应组织的非增强子数据集,并获取每个组织不同年龄样本的多种组蛋白修饰数据,每个年龄样本有5种组蛋白修饰数据;s2、对每个组织内的每个erna样本进行窗口划分,确定每个erna样本上最能表征样本序列特征的最佳窗口,提取最佳窗口内的序列特征,得到对应erna样本的序列特征,将上述最佳窗口作为与所述erna样本相对的非增强子样本的最佳窗口,并提取最佳窗口内的序列特征,得到非增强子样本的序列特征;s3、对每个组织内的每个erna样本进行窗口划分,根据s1中获取的对应组织不同年龄样本的多种组蛋白修饰数据,确定对应组织中每个erna样本上最能表征每个年龄样本的每种组蛋白修饰数据的最佳窗口,提取最佳窗口内的组蛋白修饰特征,得到对应erna样本在不同年龄样本下的多种组蛋白修饰特征,将上述最佳窗口作为与上述erna样本相对的非增强子样本的最佳窗口,提取最佳窗口内的组蛋白修饰特征,得到非增强子样本在不同年龄样本下的多种组蛋白修饰特征;s4、在某个组织中、某个时刻表达的erna由re和ae构成,re为经常表达的erna、ae为偶然表达的erna,将每个组织中所有erna样本和所有非增强子样本在每个年龄样本下的多种组蛋白修饰特征进行合并,得到对应组织的多组合并结果,根据每组合并结果,采用k-means方法对合并结果对应的所有erna样本和所有非增强子样本进行聚类,聚类结果包括候选re、候选ae或ne两种,ne为非增强子,重复上述过程,得到多组聚类结果,利用投票的方式从多组聚类结果的候选re中选取对应组织下的re,并将除re外的所有候选re和候选ae或ne作为ae,将re和ae作为特征分别加入对应组织在每个年龄样本下的每个erna样本的每套组蛋白修饰特征和每个非增强子样本的每套组蛋白修饰特征中,得到对应组织在每个年龄样本下的特征矩阵;s5、构建多个深度神经网络模型,每个深度神经网络模型依次包括dense层、dropout层、dense层、批标准化层、concatenate层、全连接层、sigmoid层;将某个组织中的一个erna样本和一个非增强子样本作为样本s
i
,根据s2得到的样本s
i
的序列特征和s4得到的样本s
i
在每个年龄样本下的特征矩阵,将序列特征和某个特征矩阵输入某个深度神经网络模型进行训练,输出样本s
i
是否为组织特异性erna,直至满足迭代次数上限或loss损失不变,得到训练好的某个深度神经网络模型,按照上述训练方法对所有深度神经网络模型进行训练,得到每个年龄样本下训练好的深度神经网络模型,根据每个深度神经网络模型输出结果的准确率,选择准确率最高的深度神经网络模型作为最终的深度神经网络模型,则此深度神经网络模型输入的特征矩阵对应的年龄样本下的组蛋白修饰特征就是当前组织最优年龄样本下的组蛋白修饰特征;s6、获取人类基因组内待测的dna序列,并确定待测组织,提取所述dna序列的序列特征和待测组织不同年龄样本下的多种组蛋白修饰特征,根据不同年龄样本下的多种组蛋白修饰特征,通过s4得到待测dna序列的re和ae,并将re和ae作为特征加入s5中得到对应组织最优年龄样本下的组蛋白修饰特征中,得到待测dna序列在最优年龄样本下的特征矩阵,将特征矩阵和序列特征作为数据样本,将数据样本输入s5得到的最终的深度神经网络模型内,
输出dna序列是否为组织特异性erna。2.根据权利要求1所述的一种组织特异性erna的识别方法,其特征在于:s1具体过程为:从hera数据库和eric数据库中获取胃、肺、肝、胰腺、肝癌、肺腺癌、前列腺癌和胰腺癌八种组织的erna样本,将每个组织的所有erna样本作为对应组织的erna数据集,每个组织中包含多条erna样本,所有组织中的erna样本长度都一样,不同组织的erna样本总数量是不同的,集合获取的所有erna样本作为正例集;根据每个组织中erna样本的数量,从现有文献中随机选择与对应组织中erna样本同等数量的非增强子样本,并将每个非增强子扩展为与erna等长,将每个组织的所有非增强子样本作为对应组织的非增强子数据集,将所有非增强子数据集作为反例集;从encode数据库中下载每个组织中不同年龄样本的5种组蛋白修饰数据,5种组蛋白修饰数据包括h3k4me1、h3k4me3、h3k9me3、h3k27ac和h3k36me3,即:胃组织包括五个年龄样本:34years胃组织样本、37years胃组织样本、51years胃组织样本、53years胃组织样本、54years岁胃组织样本,从encode数据库中下载每个年龄样本对应的5种组蛋白修饰数据;肺组织包括五个年龄样本:3years肺组织样本、37years肺组织样本、51years肺组织样本、54years肺组织样本、59years岁肺组织样本,从encode数据库中下载每个年龄样本对应的5种组蛋白修饰数据;肝组织包括三个年龄样本:16years肝组织样本、25years肝组织样本、31years肝组织样本,从encode数据库中下载每个年龄样本对应的5种组蛋白修饰数据;胰腺组织包括三个年龄样本:30years胰腺组织样本、34years胰腺组织样本、59years胰腺组织样本,从encode数据库中下载每个年龄样本对应的5种组蛋白修饰数据;肝癌、肺腺癌、前列腺癌和胰腺癌均仅有一个样本,分别为heg2肝癌样本、pc-9肺腺癌样本、pc-3前列腺癌样本、pan1胰腺癌样本,从encode数据库中下载每个样本对应的5种组蛋白修饰数据。3.根据权利要求2所述的一种组织特异性erna的识别方法,其特征在于:s2具体过程为:s21、在每个组织内,确定划分每个erna样本的窗口大小,将划分每个erna样本的窗口大小作为划分对应非增强子样本的窗口大小;s22、根据窗口大小划分每个erna样本和对应的非增强子样本;s23、在每个erna样本上,通过bert+bi-lstm模型选择最能表征样本序列特征的最佳窗口,提取最佳窗口内的序列特征,得到对应erna样本的序列特征,将上述最佳窗口作为与所述erna样本相对的非增强子样本的最佳窗口,并提取最佳窗口内的序列特征,得到非增强子样本的序列特征,bert+bi-lstm模型依次包括bert模型和bi-lstm神经网络。4.根据权利要求3所述的一种组织特异性erna的识别方法,其特征在于:s21具体过程为:每个erna样本的原始增强子注释来源于fantom数据库、encode和roadmap epigenomics project数据库,fantom数据库中增强子的平均长度为l
f
,因此,以l
f
作为确定划分每个erna样本和对应非增强子样本的窗口大小。
5.根据权利要求4所述的一种组织特异性erna的识别方法,其特征在于:s22具体过程为:以每个erna样本中间碱基的区域作为第一个窗口w
i
,再分别向第一个窗口w
i
的上游和下游依次取l
f
bp,得到窗口w
i-1
和窗口w
i+1
,直至将每个erna样本全部划分完成,得到划分后的每个erna样本s={
…
,w
i-1
,w
i
,w
i+1
,
…
};同理,执行上述操作,得到与上述erna样本对应的,且窗口划分后的非增强子样本。6.根据权利要求5所述的一种组织特异性erna的识别方法,其特征在于:s23具体过程为:将每个erna样本视为一个句子,将滑动窗口大小设为k,k∈n+,步长为1,利用滑动窗口将每个erna样本上每个窗口内的序列分割成(l
f-k+1)个长度为kbp的词,利用预训练模型bert将每个词生成动态词向量,得到包含动态词向量的每个erna样本;将包含动态词向量的某个erna样本上所有窗口内的动态词向量依次送入bi-lstm网络的打分器内,对每个窗口表征当前erna样本序列特征的程度进行打分,选择分数最高的一个窗口作为表征当前erna样本序列特征的最佳窗口,并将最佳窗口内的序列输入bi-lstm网络中,提取序列特征s
feature
作为到当前erna样本的序列特征,将上述最佳窗口作为与当前erna样本对应的非增强子样本的最佳窗口,提取并得到所述非增强子样本最佳窗口内的序列特征;同理,执行上述操作,得到表征每个erna样本序列特征的最佳窗口和最佳窗口内的序列特征,以及表征每个非增强子样本序列特征的最佳窗口和最佳窗口内的序列特征。7.根据权利要求6所述的一种组织特异性erna的识别方法,其特征在于:s3具体过程为:s31、根据每个组织的不同年龄样本,获取每个年龄样本的每种组蛋白修饰数据的信号峰平均长度l
peak
,得到每个年龄样本对应的5种组蛋白修饰数据的信号峰平均长度l
peak
;s32、根据每个年龄样本的每种组蛋白修饰数据的信号峰平均长度和s21中的窗口大小,确定每种组蛋白修饰数据下划分每个erna样本的窗口大小,将划分每个erna样本的窗口大小作为划分对应非增强子样本的窗口大小,具体过程为:若每个年龄样本的某种组蛋白修饰数据的信号峰平均长度l
peak
小于等于l
f
,则按照l
f
对某种组蛋白修饰数据下的每个erna样本和每个非增强子样本进行窗口划分;若每个年龄样本的某种组蛋白修饰数据的信号峰平均长度l
peak
大于l
f
,则按照l
peak
对某种组蛋白修饰数据下的每个erna样本和每个非增强子样本进行窗口划分;s33、根据每个年龄样本的每种组蛋白修饰数据的窗口大小划分对应组蛋白修饰数据下每个erna样本和每个非增强子样本,得到对应组蛋白修饰数据下划分后的每个erna样本和每个非增强子样本,具体过程为:根据每个年龄样本的某种组蛋白修饰数据的窗口大小l对每个erna样本和每个非增强子样本进行划分,以每个erna样本中间碱基的区域作为第一个窗口w
j
,再分别向上游和下游依次取lbp,得到窗口w
j-1
和窗口w
j+1
,直至将每个erna样本全部划分完成,得到所述组蛋白修饰数据下划分后的每个erna样本s1={
…
,w
j-1
,w
j
,w
j+1
,
…
};同理,执行上述操作,得到所述组蛋白修饰数据下划分后的每个非增强子样本;
s34、在某组蛋白修饰数据下划分后的每个erna样本上选择最能表征样本上某组蛋白修饰数据的最佳窗口,并提取最佳窗口内的组蛋白修饰特征,得到erna样本的某组蛋白修饰特征,将上述最佳窗口作为与所述erna样本相对的非增强子样本的最佳窗口,并提取最佳窗口内的组蛋白修饰特征,得到非增强子样本的某种组蛋白修饰特征,具体过程为:将某组蛋白修饰数据下划分后的全部erna样本以中心碱基对齐的方式叠放在一起,统计叠放后的全部erna样本在同一窗口内含有同种组蛋白修饰数据的erna数量,选取erna数量最多的窗口作为最能表征erna样本上某组蛋白修饰数据的最佳窗口,并提取最佳窗口内的组蛋白修饰特征,得到对应erna样本的某组蛋白修饰特征,将上述最佳窗口作为与所述erna样本相对的非增强子样本的最佳窗口,并提取最佳窗口内的组蛋白修饰特征,得到非增强子样本的某种组蛋白修饰特征。8.根据权利要求7所述的一种组织特异性erna的识别方法,其特征在于:s4具体过程为:s41、将每个组织中所有erna样本和所有非增强子样本在每个年龄样本下的多种组蛋白修饰特征进行合并,得到多组合并结果,根据每组合并结果,采用k-means方法对合并结果对应的所有erna样本和所有非增强子样本进行聚类,聚成结果分为两类,一类为候选re,另一类为候选ae或候选ne,重复上述过程,得到多组聚类结果,即得到多组候选re,对多组候选re进行投票,选出得分最高的候选re作为对应组织的re,并将除re外的所有候选re和候选ae或候选ne作为ae/ne;s42、将投票得到的re和ae/ne作为特征加入对应组织在每个年龄样本下的每个erna样本的每套组蛋白修饰特征和每个非增强子样本的每套组蛋白修饰特征中,其中,re特征值定义为1,ae/ne特征值定义为0,得到对应组织在每个年龄样本下的一个6维的特征矩阵。9.根据权利要求8所述的一种组织特异性erna的识别方法,其特征在于:s41中投票为:若某组织中有n套候选re,n是偶数,某个erna样本在(n/2,n]套候选re中都存在,则所述erna样本为所述组织的re;若某组织中有n套候选re,n是奇数,某个erna样本在(n/2,n]套候选re中都存在,则所述erna样本为所述组织的re。10.根据权利要求9所述的一种组织特异性erna的识别方法,其特征在于:s5中每个深度神经网络模型的训练过程具体为:首先,将特征矩阵a
l
=[a
1 a
2 a
3 a
4 a
5 a6]输入深度神经网络模型内,经过配有激活函数relu的两层dense层和dropout正则化层的处理,将a
l
与权重系数矩阵w
(l+1)
和偏倚向量b
l+1
进行一系列线性运算和激活运算,即:a
(l+1)
=relu(z
(l+1)
)=relu(w
(l+1)
a
(l)
+b
l+1
)其中,层数l=0,1,2,w
(l+1)
是第l+1层的权重系数矩阵,b
l+1
是第l+1层的偏倚向量,a
(l+1)
是第l+1层的输出矩阵;将dense层输出的特征矩阵a
(l+1)
经过批标准化层处理,得到特征矩阵一,将特征矩阵一和对应的序列特征输入concatenate层内进行融合,输出一个新的特征矩阵二,将特征矩阵二输入全连接层,全连接层为一层,输出特征矩阵三,将特征矩阵三输入sigmoid激活函数层,输出样本s
i
是否为组织特异性erna。
技术总结
一种组织特异性eRNA的识别方法,具体涉及一种基于深度学习的组织特异性eRNA的识别方法,为解决eRNA识别方法仅依赖eRNA的序列特征进行识别,导致识别结果的准确率不高的问题。它包括获取某组织的eRNA数据集和非增强子数据集,以及此组织不同年龄样本的多种组蛋白修饰数据;提取每个eRNA和每个非增强子的序列特征,以及每个eRNA和每个非增强子在不同年龄样本下的每种组蛋白修饰特征;合并此组织中所有eRNA和非增强子在每个年龄样本下的多种组蛋白修饰特征,利用聚类和投票得到此组织的RE和AE,将RE和AE加入此组织中不同年龄样本的组蛋白修饰特征,通过深度神经网络模型识别组织特异性eRNA。属于生物信息学领域。异性eRNA。属于生物信息学领域。异性eRNA。属于生物信息学领域。
技术研发人员:章天骄 李良雨 汪国华
受保护的技术使用者:东北林业大学
技术研发日:2023.03.22
技术公布日:2023/9/26
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:两相浸没式冷却系统的制作方法 下一篇:用于泵的主衬垫的制作方法