一种模拟高深度测序TSS特征的方法与流程
未命名
09-29
阅读:136
评论:0

一种模拟高深度测序tss特征的方法
技术领域
1.本发明属于生物技术领域,涉及一种模拟高深度测序tss特征的方法。
背景技术:
2.游离dna(cfdna)是游离于血液循环系统中的来自细胞的dna片段,主要来自于细胞凋亡进程中片段化的dna、坏死细胞的dna碎片、细胞分泌的外泌体。cfdna片段长度约为166bp,对应的是核小体dna(145-147bp)的长度加上连接dna的长度(约20bp),它由于核小体的保护得以稳定存在而不被降解。cfdna的分析是液体活检一个快速发展的领域。rna聚合酶ii与基因组的结合会影响核小体在转录起始位点(tsss)的分布,一般来说基因启动子的转录核心区通常没有核小体的分布,全基因组图谱也显示表达活跃和沉默的基因的核小体分布显著不同,这些结果提示核小体的分布与真核生物的基因表达相关。因此,通过对cfdna进行高通量测序,分析tss区测序序列的分布可以预测基因表达。一般来说,cfdna在tss的覆盖深度与基因表达呈负相关,即基因tss区域具有越低的cfdna片段覆盖,则该基因表达越丰富。
3.目前对游离dna的应用多是低深度测序(尤其是无创产前诊断),低深度测序一方面导致某些tss区域没有测序片段的覆盖,另一方面导致某些tss区域的覆盖具有随机性。对cfdna进行高深度测序可以扩大基因组的覆盖范围,增加tss区域测序片段覆盖的稳定性,但也增加了测序成本,难以在无创领域中直接推广。
4.cn113160889a公开了一种基于cfdna组学特性的癌症无创早筛方法,包括cfdna组学特征模型和机器学习训练模型,包括建立cfdna组学特征模型;通过血液采集提取cfdna;将提取的cfdna进行建库和测序;并提取cfdna组学特征,用于比对。结合cfdna长度分布特征,拷贝数变异密度分布特征以及cfdna启动子周围开放性特征,通过cfdna低深度的全基因组测序方式,全面地刻画cfdna在胃癌病人中的特征,准确地识别早期胃癌病人。但此方法为低深度测序,存在基因组覆盖范围小、tss区域测序片段覆盖不稳定等问题。
5.cn113838533a公开了一种癌症检测模型及其构建方法和试剂盒,通过对血浆游离dna的全基因组测序,挖掘出了可应用于癌症检测的核小体分布特征、末端序列特征以及片段大小分布特征,通过构建这三个指标的分类模型,得到每个指标对于样本的预测得分,然后使用逻辑回归模型,对这些得分进行整合并加入拷贝数变异特征信息,得到最终分类预测模型,该癌症检测模型显著提高了癌症检测的效率和准确性。
6.综上所述,目前游离dna的应用多为低深度测序,存在基因组覆盖范围小、tss区域测序片段覆盖不稳定等问题。如何提供一种经济方便且具备高准确性和高稳定性的测序方法,已成为目前生物技术领域亟待解决的问题之一。
技术实现要素:
7.针对现有技术的不足和实际需求,本发明提供一种模拟高深度测序tss特征的方法,解决了目前游离dna低深度测序存在的可分析tss区域少、tss区域测序片段覆盖不稳定
等问题,达到了增加可分析tss区域的个数,增加tss区域测序片段覆盖的稳定性的效果。
8.为达到此发明目的,本发明采用以下技术方案:
9.第一方面,本发明提供了一种模拟高深度测序tss特征的方法,所述方法包括以下步骤:
10.(1)获取参考基因组捕获的游离dna样本测序数据和每个基因tss的上下游区域的序列覆盖情况;
11.(2)基于游离dna的低深度测序结果获取构建模拟高深度测序结果tss值的特征;
12.(3)基于游离dna的低深度测序结果获取的特征构建模拟高深度测序结果的tss值模型。
13.本发明基于低深度测序结果提取特征工程并构建模型,不需要对cfdna进行高深度测序便可获得与高深度测序相当的tss特征,能够有效扩大可分析tss区域,增加tss区域测序片段覆盖的稳定性,降低测序成本。
14.优选地,所述步骤(1)具体包括以下步骤:
15.(1-1)获取样本的高通量测序原始数据与参考基因组进行比对,统计每个基因tss上下游区域的序列每个位点的覆盖深度;
16.(1-2)对每个基因的tss按照式(1)进行标准化分别得到每个基因tss上下游的特征;
17.tss
inormalized
=tss
idepth
/total tss
depth
*106ꢀꢀꢀ
式(1);
18.其中tss
inormalized
为基因i的转录起始位点区域上下游区域覆盖深度标准化后的值,tss
idepth
为基因i的转录起始位点区域上下游区域的覆盖深度,total tss
depth
为所有基因的转录起始位点区域上下游区域的覆盖深度加和。
19.优选地,所述区域选自距离基因转录起始位点上下游0.5-1.5kb、1.5-2.5kb、2.5-3.5kb、3.5-4.5kb、4.5-5.5kb或5.5-6.5kb的位点中的至少三个的组合。
20.例如区域长度可以为上下游1kb、2kb和3kb;可以为上下游1kb、2kb和4kb;可以为上下游1kb、3kb和6kb。
21.上述0.5-1.5中的具体点值可以选择0.5、0.6、0.7、0.9、1、1.2、1.3、1.4、1.5等。
22.上述1.5-2.5中的具体点值可以选择1.5、1.6、1.7、1.9、2、2.2、2.3、2.4、2.5等。
23.上述2.5-3.5中的具体点值可以选择2.5、2.6、2.7、2.9、3、3.2、3.3、3.4、3.5等。
24.上述3.5-4.5中的具体点值可以选择3.5、3.6、3.7、3.9、4、4.2、4.3、4.4、4.5等。
25.上述4.5-5.5中的具体点值可以选择4.5、4.6、4.7、4.9、5、5.2、5.3、5.4、5.5等。
26.上述5.5-6.5中的具体点值可以选择5.5、5.6、5.7、5.9、6、6.2、6.3、6.4、6.5等。
27.优选地,所述步骤(2)具体包括以下步骤:
28.(2-1)提取每个基因的染色体信息、起始位点、终止位点、正负链、基因长度、与上一个邻近基因的基因间隔、上一个邻近基因和下一个邻近基因;
29.(2-2)根据(1-2)和(2-1)获得的每个基因的信息,构建每个基因用于预测高深度tss结果的特征工程,作为模型构建的输入特征值。
30.优选地,所述特征值包括:
31.每个基因的染色体信息、起始位点、终止位点、正负链、基因长度、上一个邻近基因的基因间隔、每个基因的三个tss
normalized
值、每个基因的三个tss normalized
的rank、上一个邻
近基因的三个tss
normalized
值、上一个邻近基因的三个tss
normalized
值的rank、下一个邻近基因的三个tss
normalized
值和下一个邻近基因的三个tss
normalized
值的rank,所述三个tss
normalized
值包括:tss
0.5-1.5kb normalized
、tss
1.5-2.5kb normalized
、tss
2.5-3.5kb normalized
、tss
3.5-4.5kb normalized
、tss
4.5-5.5kb normalized
或tss
5.5-6.5kb normalized
中至少三个的组合,其中rank表示基因的tss
depth
在样本中所有基因tss
depth
的排序。
32.优选地,所述步骤(3)具体包括以下步骤:
33.(3-1)使用机器学习方法在训练集中基于(2-2)确认的特征构建映射模型;
34.(3-2)使用10次交叉验证的方法对模型参数进行优化,确认最终预测模型。
35.优选地,步骤(3-1)中所述机器学习方法包括逻辑回归、支持向量机、随机森林、决策树、线性回归或朴素贝叶斯中的任意一种或至少两种的组合
36.优选地,所述游离dna样本包括血浆游离dna、细胞培养液游离dna或精浆游离dna中的任意一种或至少两种的组合
37.第二方面,本发明提供了一种模拟高深度测序tss特征的模型,所述模拟高深度测序tss特征的模型由第一方面所述的模拟高深度测序tss特征的方法构建得到。
38.第三方面,本发明提供了一种模拟高深度测序tss特征的装置,所述装置包括:
39.游离dna tss的分析模块、特征构建模块和模型构建模块。
40.所述游离dna tss的分析模块用于执行包括:
41.获取参考基因组捕获的游离dna样本测序数据和每个基因tss的上下游区域长度的序列覆盖情况;
42.所述特征构建模块用于执行包括:
43.构建模拟高深度测序结果tss值的特征;
44.所述模型构建模块用于执行包括:
45.基于游离dna的低深度测序结果构建模拟高深度测序结果的tss值模型。
46.优选地,所述游离dna tss的分析模块用于执行具体包括:
47.(1-1)获取样本的高通量测序原始数据与参考基因组进行比对,统计每个基因tss上下游区域的序列每个位点的覆盖深度;
48.(1-2)对每个基因的tss按照式(1)进行标准化分别得到每个基因tss上下游的特征;
49.所述特征构建模块用于执行具体包括:
50.(2-1)提取每个基因的染色体信息、起始位点、终止位点、正负链、基因长度、与上一个邻近基因的基因间隔、上一个邻近基因和下一个邻近基因;
51.(2-2)根据(1-2)和(2-1)获得的每个基因的信息,构建每个基因用于预测高深度tss结果的特征值,作为模型构建的输入值;
52.所述模型构建模块用于执行具体包括:
53.(3-1)使用机器学习方法在训练集中基于(2-2)确认的特征构建映射模型;
54.(3-2)使用10次交叉验证的方法对模型参数进行优化,确认最终预测模型。
55.与现有技术相比,本发明具有如下有益效果:
56.本发明不需要对cfdna进行高深度测序,只需在低深度测序结果基础上构建模型对数据进行转化,便可获得与高深度测序相当的tss特征,能够有效扩大可分析tss区域,增
加tss区域测序片段覆盖的稳定性,降低了tss值为0的区域的个数以及tss值在样本中的变异度,在保证tss计算值准确度的同时大大降低了测序成本。
附图说明
57.图1为本发明分析流程图;
58.图2为低深度测序经模型模拟前后的tss值分别与高深度测序tss值的相关性统计图;
59.图3为低深度测序经模型模拟前后的tss值和高深度测序tss值为0的个数图;
60.图4为低深度测序经模型模拟前后的tss值和高深度测序tss值的变异系数图。
具体实施方式
61.为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例和附图对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。
62.实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
63.实施例1
64.本实施例构建模拟高深度测序tss特征的模型。
65.(1)游离dna样本的获取
66.获取34例血浆游离dna样本,同时进行高深度和低深度测序,其中高深度测序平均测序深度达到4x以上,低深度测序平均测序深度达到0.2x左右。
67.(2)游离dna的分析
68.(2-1)低深度测序结果:在进行游离dna高通量测序后,将序列与人类基因组参考序列hg19比对,确定每条序列在人类基因组上的位置,统计每个基因tss上下游1kb、2kb和4kb的序列每个位点的覆盖深度,对每个基因tss上下游1kb、2kb和4kb的覆盖分别加和得到每个基因tss上下游1kb、2kb和4kb的tss
depth
,将每个基因的tss按照下述公式进行标准化得到每个基因tss上下游1kb、2kb和4kb的特征,
69.tss
inomalized
=tss
idepth
/total tss
depth
*106ꢀꢀꢀ
式(1);
70.(2-2)高深度测序结果:对于高深度测序结果的tss特征提取与上述低深度测序描述的方法一致,但只保留tss上下游1kb标准化后的特征值作为模型构建的输出值。
71.(3)输入特征构建
72.(3-1)基因信息的获取:提取每个基因的染色体信息、起始位点、终止位点、正负链、基因长度、与上一个邻近基因的基因间隔、上一个邻近基因(left gene)和下一个邻近基因(right gene);
73.(3-2)特征信息的提取:根据获得的每个基因的信息,构建每个基因用于模拟高深度tss结果的特征值,具体包括如下:每个基因染色体信息、起始位点、终止位点、正负链、基因长度、与上一个邻近基因的基因间隔、每个基因的tss
1kb normalized
、tss
2kb normalized
、tss
4kb normalized
、每个基因tss
1kb normalized
的rank、每个基因tss
2kb normalized
的rank、每个基因
tss
4kb normalized
的rank、上一个邻近基因的tss
1kb normalized
、tss
2kb normalized
、tss
4kb normalized
、上一个邻近基因tss
1kb normalized
的rank、上一个邻近基因tss
2kb normalized
的rank、上一个邻近基因tss
4kb normalized
的rank、下一个邻近基因的tss
1kb normalized
、tss
2kb normalized
、tss
4kb normalized
、下一个邻近基因tss
1kb normalized
的rank、下一个邻近基因tss
2kb normalized
的rank和下一个邻近基因tss
4kb normalized
的rank。
74.其中rank表示基因的tss
depth
在样本中所有基因tss
depth
的排序。
75.(4)构建模拟高深度测序tss特征的模型
76.(4-1)基于(3-2)得到的输入特征和(2-2)得到的输出特征,每个样本均获得28000个基因的tss输入特征和输出特征,本发明取21例血浆游离dna样本的28000个基因共588,000条数据进行模型构建,13个例血浆游离dna样本的28000个基因共364,000条数据作为测试集来验证模型效果;
77.(4-2)在模型构建的数据中,通过4:1将数据分为训练集和验证集,使用机器学习中广义线性模型(glm.nb)的方法并通过10次交叉验证的方法对模型参数进行优化,确认最终模型。模型构建代码如下:
[0078][0079][0080]
其中trainx为(3-2)得到的输入特征,trainy为(2-2)得到的输出特征。
[0081]
(5)计算模型在构建模型和测序模型的样本中模拟高深度测序tss特征的效果,结果如表1所示。
[0082]
表1
[0083][0084]
结果:在构建模型的样本中,模型预测值与真实值的r为0.7472
±
0.0570,mae(平均绝对误差)为8.5536
±
0.9723;在测试模型的样本中,模型预测值与真实值的r为0.7359
±
0.0589,mae为8.8391
±
1.0636;r和mae在构建和测试模型的样本中无显著差异,表明模型效果较稳定,在构建模型的样本数据集中不存在过拟合现象。
[0085]
实施例2
[0086]
本实施例验证实施例1所构建模型的效果。
[0087]
(1)比较低深度测序经模型模拟前后的tss值分别与高深度测序tss值的相关性。结果如图2所示,经模型模拟的低深度tss值与高深度测序tss值的相关性显著高于原始低深度测序tss值与高深度测序tss值的相关性;
[0088]
(2)tss值为0表示该区域没有测序reads覆盖,比较低深度测序经模型模拟前后的tss值和高深度测序tss值为0的个数。结果如图3所示,高深度测序tss值为0的中位值为94.5;低深度测序原始tss值为0的个数最多,中位值高达106;低深度测序经模型模拟后的tss值为0的个数显著降低,中位值为62个。该结果提示通过模型对低深度测序数据的模拟,可以有效降低tss值为0的个数;
[0089]
(3)基因tss值的变异系数(cv)反映了不同样本在该基因tss区域测序reads覆盖的稳定性,比较低深度测序经模型模拟前后的tss值和高深度测序tss值的变异系数(cv)。结果如图4所示,高深度测序tss值的cv中位值为16.5%;低深度测序tss值的cv最高,中位值高达34.7%;模型预测的tss特征的cv最高显著降低,中位值为13.9%。该结果表明通过模型对低深度测序数据的模拟,可以有效降低基因tss值在样本中的变异度。
[0090]
综上所述,本发明基于低深度测序结果提取特征工程并构建模型,不需要对cfdna进行高深度测序便可获得与高深度测序相当的tss特征,能够有效扩大可分析tss区域的个数,增加tss区域测序片段覆盖的稳定性,在保证tss值计算准确度的同时大大降低了测序成本。
[0091]
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。
技术特征:
1.一种模拟高深度测序tss特征的方法,其特征在于,所述方法包括以下步骤:(1)获取参考基因组捕获的游离dna样本测序数据和每个基因tss的上下游区域的序列覆盖情况;(2)基于游离dna的低深度测序结果获取构建模拟高深度测序结果tss值的特征;(3)基于游离dna的低深度测序结果获取的特征构建模拟高深度测序结果的tss值模型。2.根据权利要求1所述的模拟高深度测序tss特征的方法,其特征在于,所述步骤(1)具体包括以下步骤:(1-1)获取样本的高通量测序原始数据与参考基因组进行比对,统计每个基因tss上下游区域的序列每个位点的覆盖深度;(1-2)对每个基因的tss按照式(1)进行标准化分别得到每个基因tss上下游的特征;tss
inormalized
=tss
idepth
/total tss
depth
*106ꢀꢀꢀꢀ
式(1);其中tss
inormalized
为基因i的转录起始位点区域上下游区域覆盖深度标准化后的值,tss
idepth
为基因i的转录起始位点区域上下游区域的覆盖深度,total tss
depth
为所有基因的转录起始位点区域上下游区域的覆盖深度加和;优选地,所述区域选自距离基因转录起始位点上下游0.5-1.5kb、1.5-2.5kb、2.5-3.5kb、3.5-4.5kb、4.5-5.5kb或5.5-6.5kb的位点中的至少三个的组合。3.根据权利要求1或2所述的模拟高深度测序tss特征的方法,其特征在于,所述步骤(2)具体包括以下步骤:(2-1)提取每个基因的染色体信息、起始位点、终止位点、正负链、基因长度、与上一个邻近基因的基因间隔、上一个邻近基因和下一个邻近基因;(2-2)根据(1-2)和(2-1)获得的每个基因的信息,构建每个基因用于预测高深度tss结果的特征工程,作为模型构建的输入特征。4.根据权利要求3所述的模拟高深度测序tss特征的方法,其特征在于,所述特征值包括:每个基因的染色体信息、起始位点、终止位点、正负链、基因长度、上一个邻近基因的基因间隔、每个基因的三个tss
normalized
值、每个基因的三个tss
normalized
的rank、上一个邻近基因的三个tss
normalized
值、上一个邻近基因的三个tss
normalized
值的rank、下一个邻近基因的三个tss
normalized
值和下一个邻近基因的三个tss
normalized
值的rank;所述三个tss
normalized
值包括:tss
0.5-1.5kb normalized
、tss
1.5-2.5kb normalized
、tss
2.5-3.5kb normalized
、tss
3.5-4.5kb normalized
、tss
4.5-5.5kb normalized
或tss
5.5-6.5kb normalized
中至少三个的组合;其中rank表示基因的tss
depth
在样本中所有基因tss
depth
的排序。5.根据权利要求1-4中任一项所述的模拟高深度测序tss特征的方法,其特征在于,所述步骤(3)具体包括以下步骤:(3-1)使用机器学习方法在训练集中基于(2-2)确认的特征构建映射模型;(3-2)使用10次交叉验证的方法对模型参数进行优化,确认最终预测模型。6.根据权利要求5所述的模拟高深度测序tss特征的方法,其特征在于,步骤(3-1)中所述机器学习方法包括逻辑回归、支持向量机、随机森林、决策树、线性回归或朴素贝叶斯中的任意一种或至少两种的组合。
7.根据权利要求1-6中任一项所述的模拟高深度测序tss特征的方法,其特征在于,所述游离dna样本包括血浆游离dna、细胞培养液游离dna或精浆游离dna中的任意一种或至少两种的组合。8.一种模拟高深度测序tss特征的模型,其特征在于,所述模拟高深度测序tss特征的模型由权利要求1-7中任一项所述的模拟高深度测序tss特征的方法构建得到。9.一种模拟高深度测序tss特征的装置,其特征在于,所述装置包括:游离dna tss的分析模块、特征构建模块和模型构建模块;所述游离dna tss的分析模块用于执行包括:获取参考基因组捕获的游离dna样本测序数据和每个基因tss上下游区域长度的序列覆盖情况;所述特征构建模块用于执行包括:构建模拟高深度测序结果tss值的特征;所述模型构建模块用于执行包括:基于游离dna的低深度测序结果构建模拟高深度测序结果的tss值模型。10.根据权利要求9所述的模拟高深度测序tss特征的装置,其特征在于,所述游离dna tss的分析模块用于执行具体包括:(1-1)获取样本的高通量测序原始数据与参考基因组进行比对,统计每个基因tss上下游区域的序列每个位点的覆盖深度;(1-2)对每个基因的tss按照式(1)进行标准化分别得到每个基因tss上下游的特征;所述特征构建模块用于执行具体包括:(2-1)提取每个基因的染色体信息、起始位点、终止位点、正负链、基因长度、与上一个邻近基因的基因间隔、上一个邻近基因和下一个邻近基因;(2-2)根据(1-2)和(2-1)获得的每个基因的信息,构建每个基因用于预测高深度tss结果的特征值,作为模型构建的输入值;所述模型构建模块用于执行具体包括:(3-1)使用机器学习方法在训练集中基于(2-2)确认的特征构建映射模型;(3-2)使用10次交叉验证的方法对模型参数进行优化,确认最终预测模型。
技术总结
本发明公开了一种模拟高深度测序TSS特征的方法。所述方法包括以下步骤:(1)获取参考基因组捕获的游离DNA样本测序数据和每个基因的TSS上下游区域的序列覆盖情况;(2)基于游离DNA的低深度测序结果获取构建模拟高深度测序结果TSS值的特征;(3)基于游离DNA的低深度测序结果的特征构建模拟高深度测序结果的TSS值模型。本发明基于低深度测序结果提取特征工程并构建模型便可获得与高深度测序相当的TSS特征,能够有效增加可分析基因TSS区域的个数,增加可分析基因TSS区域测序片段覆盖的稳定性,在保证TSS值计算准确度的同时大大降低了测序成本。成本。成本。
技术研发人员:邢彦如 付永胜 刘欢 孔令印 梁波
受保护的技术使用者:苏州贝康医疗器械有限公司
技术研发日:2023.06.27
技术公布日:2023/9/25
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/