基因组组装缺口的填补方法和装置与流程
未命名
10-19
阅读:104
评论:0
1.本发明涉基因组组装与注释领域,具体而言,涉及一种基因组组装缺口的填补方法和装置。
背景技术:
2.基因测序技术,或称dna测序,对生物和医疗行业具有重大意义。随着测序技术的不断发展,随着基因组测序技术的飞速发展,越来越多的基因组已经完成了全基因组密码的破译,而且随着第三代基因组测序技术逐渐成熟,越来越多小型基因组(低于4g)组装到了零缺口(gap)水平,但大型基因组(大于等于4g)的缺口填补仍然是组装的难题。
3.基因组组装的缺口是指在基因组序列组装过程中未能得到准确填补的缺口,这些缺口通常是由于测序技术限制、测序数据质量低、基因组序列复杂性等原因导致的,从而使基因组组装的结果中存在较多的片段(contigs或scaffolds)信息,为了获得等完整、准确的基因组序列,从而更好地了解基因在生物体内的功能和遗传特性,需要对基因组片段中的缺口进行填补。
4.但目前大型基因的缺口填补过程中,通常需要的内存较大,成本较高,且容易跑断,耗时非常久,效率较低。因此,如何低成本、快速地提供一种修补大型基因组组装缺口的方法,目前尚未有效解决方案。
技术实现要素:
5.本发明的主要目的在于提供一种基因组组装缺口的填补方法和装置,以解决现有技术中需要内存大、成本高的问题。
6.为了实现上述目的,根据本发明的一个方面,提供了一种基因组组装缺口的填补方法,该填补方法包括:从原组装基因组序列中提取出含有缺口的序列,含有缺口的序列包括缺口以及缺口的上下游序列;利用测序数据对含有缺口的序列中的缺口进行填补,得到缺口填补的序列;用缺口填补的序列替换原组装基因组中的含有缺口的序列。
7.进一步地,利用测序数据对含有缺口的序列中的缺口进行填补,得到缺口填补的序列包括:将测序数据与含有缺口的序列进行序列比对,获得比对到含有缺口的序列的第一测序读段;利用第一测序读段对含有缺口的序列进行填补,得到缺口填补的序列。
8.进一步地,利用测序数据对含有缺口的序列中的缺口进行填补,得到缺口填补的序列包括:将测序数据与原组装基因组序列进行全基因序列比对,获得比对到含有缺口的序列的第二测序读段;利用第二测序读段对含有缺口的序列进行填补,得到缺口填补的序列。
9.进一步地,对含有缺口的序列中的缺口进行填补时,采用软件tgs-gapcloser进行。
10.为了实现上述目的,根据本发明的第二个方面,提供了一种基因组组装缺口的填补装置,该装置包括:提取模块、填补模块和替换模块,其中,提取模块被设置为从原组装基
因组序列中提取出含有缺口的序列,含有缺口的序列包括缺口以及缺口的上下游序列;填补模块被设置为利用测序数据对含有缺口的序列中的缺口进行填补,得到缺口填补的序列;替换模块被设置为用缺口填补的序列替换原组装基因组中的含有缺口的序列。
11.进一步地,填补模块包括:第一比对单元,被设置为将测序数据与含有缺口的序列进行序列比对,获得比对到含有缺口的序列的第一测序读段;第一填补单元,被设置为利用第一测序读段对含有缺口的序列进行填补,得到缺口填补的序列。
12.进一步地,填补模块包括:第二比对单元,被设置为将测序数据与原组装基因组序列进行全基因序列比对,获得比对到含有缺口的序列的第二测序读段;第二填补单元,被设置为利用第二测序读段对含有缺口的序列进行填补,得到缺口填补的序列。
13.进一步地,第一填补单元和/或第二填补单元为tgs-gapcloser。
14.根据本发明的第三个方面,提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种基因组组装缺口的填补方法。
15.根据本发明的第四个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种基因组组装缺口的填补方法。
16.应用本发明的技术方案,本技术的填补方法通过提取原组装基因组上含缺口区域的上下游序列,仅需对提取出含缺口的序列进行处理,减少后续处理的数据量。在利用测序数据对含有缺口的序列进行缺口填补时,由于仅需对提取出来的序列进行填补,而非对全基因组进行填补,因而数据量相对较小,内存占用也较小,成本低且处理速度也相对较快。
17.在某些优选实施例中,通过提取全基因组上缺口区域上下游序列并进行比对,得到能比对到缺口区域的测序读段(reads),进行精准的区域缺口填补。相较于常规的tgs-gapcloser对全基因组填补,本技术的方案不仅适用于小型基因组,在大型基因组方面优势更加明显,且能够快速高效的对大型基因组进行缺口填补,极大的节约了运行内存及运行时间。
附图说明
18.构成本技术的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
19.图1示出了根据本发明的实施例2提供的一种批基因组组装缺口的填补方法的流程示意图;
20.图2示出了根据本发明的实施例3提供的一种批基因组组装缺口的填补方法的流程示意图;
21.图3示出了根据本发明的实施例5提供的一种批基因组组装缺口的填补装置的结构示意图;
22.图4示出了根据本发明的一实施例提供的一种批基因组组装缺口的填补方法的终端的硬件结构框图。
具体实施方式
23.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相
互组合。下面将结合实施例来详细说明本发明。
24.如背景技术部分提到的,针对≥4g的大型基因组,现有的组装序列的缺口填补过程中,通常需要的内存较大,成本较高,且容易跑断,耗时非常久,效率较低。为改善这一状况,发明人分析了现有填补方法所存在的缺陷,发现目前常用的填补缺口的方法是利用tgs-gapcloser以及测序平台的数据直接对全基因组进行填补缺口。对大型基因组而言,本来基因组就大,所需处理的数据量大,相应地,测序数据的量也较大,因而,要想提供处理速度或效率,就需要非常大的内存来处理如此大量的数据。否则,耗时非常长,且处理过程很容易中断(发明人曾进行过测试,对于4g的基因组而言,通常需要30
×
的测序深度,即测序数据的数据量是120g,将这些数据提交至2000g的节点进行处理时,经常未处理完就中断了)。这对于提供这种服务的企业而言,内存小处理速度非常慢,成本花费数万元,甚至还可能会中断无法实现填补操作,因此,如果扩大内存,同样也会提高成本。
25.根据上述分析,发明人在不增加成本的前提下,尝试从降低数据量角度来提高处理速度。在该改进思路下,申请人提出了本技术的一系列保护方案。
26.在本技术一种典型的实施方式中,提供了一种基因组组装缺口的填补方法,该方法包括:
27.s1,从原组装基因组序列中提取出含有缺口的序列,含有缺口的序列包括缺口以及缺口的上下游序列;
28.s2,利用测序数据对含有缺口的序列中的缺口进行填补,得到缺口填补的序列;
29.s3,用缺口填补的序列替换原组装基因组中的含有缺口的序列。
30.该实施例的填补方法通过提取原组装基因组上含缺口区域的上下游序列,仅需对提取出含缺口的序列进行处理,减少后续处理的数据量。在利用测序数据对含有缺口的序列进行缺口填补时,由于仅需对提取出来的序列进行填补,而非对全基因组进行填补,因而数据量相对较小,内存占用也较小,成本低且处理速度也相对较快。
31.上述包含缺口的序列是指包含缺口以及缺口上下游各一定长度的序列,比如可以是50kb~150kb之间的任意长度的序列,具体地,可以是上下游各50kb、60kb、70kb、80kb、90kb、100kb、110kb、120kb、130kb、140kb或150kb序列。s1中的原组装基因组序列指组装完的带有缺口的全基因组组装序列。
32.在一种优选的实施例中,利用测序数据对含有缺口的序列中的缺口进行填补,得到缺口填补的序列包括:将测序数据与全基因组序列进行序列比对,获得比对到含有缺口的序列的精准测序读段;利用第一测序读段对含有缺口的序列进行填补,得到缺口填补的序列。
33.该优选实施例的填补方法通过提取全基因组上缺口区域上下游序列,仅需对提取出的序列进行处理,减少后续处理数据量。将测序数据与缺口区域上下游序列序列进行比对,由于比对的对象数据量相对小很多,因而处理速度也相对更快,尽管比对获得的测序读段可能由于序列相似性等原因并非最优读段,进而可能会影响填补结果的完整性和准确性。
34.在另一种优选的实施例中,利用测序数据对含有缺口的序列中的缺口进行填补,得到缺口填补的序列包括:将测序数据与原组装基因组序列进行全基因序列比对,获得比对到含有缺口的序列的第二(精确)测序读段;利用第二(精确)测序读段对含有缺口的序列
进行填补,得到缺口填补的序列。
35.该优选实施例的填补方法通过提取全基因组上缺口区域上下游序列并将测序数据与全基因组序列进行比对,得到能比对到缺口区域的测序读段(reads),分别对待补序列和用于填补的序列都进行了筛选和提取,不仅大大减少了数据量,提高处理速度,而且与原组装基因组的全基因组序列比对能够得到与缺口区域比对结果最优的读段,从而有利于对区域缺口进行精准填补,提高填补的完整性和准确性。
36.需要说明的是,上述测序数据可以是二代测序数据,也可以三代测序数据。但对于大型基因组而言,更优选采用测序读段较长的三代测序数据。
37.上述对含有缺口的序列中的缺口进行填补时,可以采用现有的软件tgs-gapcloser进行。
38.下面将结合具体的实施例来进一步详细解释本技术的有益效果。
39.实施例2
40.本实施例提供一种基因组组装缺口的填补方法,具体流程如图1所示,该方法包括如下步骤:
41.(1)从原组装基因组序列中获取缺口位置,并提取缺口上下游100kbp区域,作为待补序列。
42.(2)使用软件minimap2将三代测序下机数据(经过30
×
筛选的长读长数据)与待补序列进行序列比对,使用软件samtools提取出比对到待补序列的三代序列的读段(reads)id,进而得到比对到待补序列的读段(reads)。
43.(3)使用软件tgs-gapcloser进行区域迭代填补缺口。
44.(4)将补完缺口后的序列替换到原组装基因组序列中,获得填补后的终版基因组序列。
45.实施例3
46.本实施例提供一种基因组组装缺口的填补方法,具体流程如图2所示,该方法包括如下步骤:
47.(1)从原组装基因组序列中获取缺口位置,并提取缺口上下游100kbp区域,作为待补序列。
48.(2)使用软件minimap2将三代测序下机数据(经过30
×
筛选的有效数据)与原组装基因组序列进行全基因组序列比对,使用软件samtools提取出比对到待补序列的三代序列的读段(reads)id,通进而得到比对到待补序列的精准序列读段(reads)。
49.(3)使用软件tgs-gapcloser进行区域迭代填补缺口。
50.(4)将补完缺口后的序列替换到原组装基因组序列中,获得填补后的终版基因组序列。
51.需要说明的是,上述图1和图2中的部分操作可以采用现有已知的软件模块来实现,比如,从测序数据中筛选30
×
的长读长数据(30
×
是发明人经过测试,具有较好的覆盖度和准确度的一个推荐值),需要先将原始下机的读段(reads)进行从长到短排序,后提取最长的30
×
的数据,例如可以使用seqkit软件进行排序,使用samtools软件提取。也可以是自行撰写的软件来实现,上述2个实施例中是发明人自行撰写的,具体软件代码不限,只要能够实现上述目的即可,这对本领域技术人员而言,通过常规的技术手段即可实现。
52.实施例4
53.本实施例分别针对烟草(基因组4.5g)、棉花(基因组2.3g)和梨(基因组0.9g)的基因组组装序列的缺口,采用实施例2和3的方法以及常规的tgs-gapcloser填补方法进行缺口填补,填补后并将测序数据使用软件minimap2比对到终版基因组,用软件igv查看比对结果,计算填补准确性。填补前后的数据比对分别如下表1、表2和表3:
54.表1:
[0055][0056][0057]
表2:
[0058][0059]
表3:
[0060][0061]
结合表1至表3的效果数据,分析三种不同的方法出现的结果不同的原因如下:常规tgs-gapcloser填补缺口,软件内部的算法是基因组序列与测序的读段(reads)比对(这种比对的原则是将基因组序列作为待比对序列,而测序读段作为参考序列,因而比对数据量大,耗时耗内存),该比对过程需要消耗的资源非常多,且很容易导致比对过程中断或死机。实施例2和3中,在使用tgs-gapcloser填补缺口之前,使用软件minimap2将测序的读段(reads)与全基因组/含有缺口的序列比对(此种比对的原则是测序读段为待比对序列,而
全基因组/含缺口的序列为参考序列,这种比对速度快,内存占用小),后使用samtools提取出能比对到缺口区域的读段(reads),该过程消耗资源少且耗时短,后续tgs-gapcloser填补缺口时,输入的读段(reads)和基因组文件是有效的精确序列,因此后续消耗资源少且耗时短。
[0062]
进一步地,在缺口的准确性方面,实施例2中测序的读段(reads)与含有缺口的序列比对,由于序列相似性,得到的能够比对上的reads可能并不是最优的第一比对读段,用于后续填补缺口可能导致填补不准确。而实施例3中测序的读段(reads)是与组装基因组的全基因组序列比对,能够尽可能的排除序列相似性的干扰,获得比对结果最优的比对读段,因而用于后续填补缺口能够使填补准确性更高。
[0063]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
[0064]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本技术可借助软件加必需的检测仪器等硬件设备的方式来实现。基于这样的理解,本技术的技术方案中数据处理的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例或者实施例的某些部分的方法。
[0065]
本技术可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
[0066]
本技术所提供的方法可以在终端、计算机终端或者类似的运算装置中执行。以运行在终端上为例,图4是本发明实施例的一种方法的终端的硬件结构框图。如图4所示,终端可以包括一个或多个(图4中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图4所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。
[0067]
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的读段拼接、分簇、一致性处理等方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0068]
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器
(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
[0069]
显然,本领域的技术人员应该明白,上述的本技术的部分模块或步骤可以在通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本技术不限制于任何特定的硬件和软件结合。
[0070]
实施例5
[0071]
本实施例提供了一种基因组组装缺口的填补装置,如图3所示,该装置包括:提取模块10、填补模块20和替换模块30;其中,
[0072]
提取模块,被设置为从原组装基因组序列中提取出含有缺口的序列,含有缺口的序列包括缺口以及缺口的上下游序列;
[0073]
填补模块,被设置为利用测序数据对含有缺口的序列中的缺口进行填补,得到缺口填补的序列;
[0074]
替换模块,被设置为用缺口填补的序列替换原组装基因组中的含有缺口的序列。
[0075]
可选地,填补模块包括:第一比对单元和第一填补单元,其中第一比对单元被设置为将测序数据与含有缺口的序列进行序列比对,获得比对到含有缺口的序列的第一测序读段;第一填补单元被设置为利用第一测序读段对含有缺口的序列进行填补,得到缺口填补的序列。
[0076]
可选地,填补模块包括:第二比对单元和第二填补单元,其中第二比对单元被设置为将测序数据与原组装基因组序列进行全基因序列比对,获得比对到含有缺口的序列的第二测序读段;第二填补单元被设置为利用第二测序读段对含有缺口的序列进行填补,得到缺口填补的序列。
[0077]
可选地,第一填补单元和/或第二填补单元为tgs-gapcloser。
[0078]
实施例6
[0079]
本实施例提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行前述基因组组装缺口的填补方法。
[0080]
本实施例还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行前述基因组组装缺口的填补方法。
[0081]
从以上的描述中,可以看出,本技术上述的实施例实现了如下技术效果:本技术的填补方法和装置通过提取全基因组上缺口区域上下游序列并进行比对,得到能比对到缺口区域的测序读段(reads),进行精准的区域缺口填补。相较于常规的tgs-gapcloser对全基因组填补,本技术不仅适用于小型基因组,在大型基因组方面优势更加明显,且能够快速高效的对大型基因组进行缺口填补,极大的节约了运行内存及运行时间。
[0082]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种基因组组装缺口的填补方法,其特征在于,所述方法包括:从原组装基因组序列中提取出含有缺口的序列,所述含有缺口的序列包括缺口以及所述缺口的上下游序列;利用测序数据对所述含有缺口的序列中的所述缺口进行填补,得到缺口填补的序列;用所述缺口填补的序列替换所述原组装基因组中的所述含有缺口的序列。2.根据权利要求1所述的填补方法,其特征在于,利用测序数据对所述含有缺口的序列中的所述缺口进行填补,得到缺口填补的序列包括:将所述测序数据与所述含有缺口的序列进行序列比对,获得比对到所述含有缺口的序列的第一测序读段;利用所述第一测序读段对所述含有缺口的序列进行填补,得到所述缺口填补的序列。3.根据权利要求1所述的填补方法,其特征在于,利用测序数据对所述含有缺口的序列中的所述缺口进行填补,得到缺口填补的序列包括:将所述测序数据与所述原组装基因组序列进行全基因序列比对,获得比对到所述含有缺口的序列的第二测序读段;利用所述第二测序读段对所述含有缺口的序列进行填补,得到所述缺口填补的序列。4.根据权利要求1-3中任一项所述的填补方法,其特征在于,对所述含有缺口的序列中的所述缺口进行填补时,采用软件tgs-gapcloser进行。5.一种基因组组装缺口的填补装置,其特征在于,所述装置包括:提取模块,被设置为从原组装基因组序列中提取出含有缺口的序列,所述含有缺口的序列包括缺口以及所述缺口的上下游序列;填补模块,被设置为利用测序数据对所述含有缺口的序列中的所述缺口进行填补,得到缺口填补的序列;替换模块,被设置为用所述缺口填补的序列替换所述原组装基因组中的所述含有缺口的序列。6.根据权利要求5所述的装置,其特征在于,所述填补模块包括:第一比对单元,被设置为将所述测序数据与所述含有缺口的序列进行序列比对,获得比对到所述含有缺口的序列的第一测序读段;第一填补单元,被设置为利用所述第一测序读段对所述含有缺口的序列进行填补,得到所述缺口填补的序列。7.根据权利要求5所述的装置,其特征在于,所述填补模块包括:第二比对单元,被设置为将所述测序数据与所述原组装基因组序列进行全基因序列比对,获得比对到所述含有缺口的序列的第二测序读段;第二填补单元,被设置为利用所述第二测序读段对所述含有缺口的序列进行填补,得到所述缺口填补的序列。8.根据权利要求7所述的装置,其特征在于,所述第二填补单元为tgs-gapcloser。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的基因组组装缺口的填补方法。10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权
利要求1至4中任意一项所述的基因组组装缺口的填补方法。
技术总结
本发明提供了一种基因组组装缺口的填补方法和装置。该填补方法包括:从原组装基因组序列中提取出含有缺口的序列,含有缺口的序列包括缺口以及缺口的上下游序列;利用测序数据对含有缺口的序列中的缺口进行填补,得到缺口填补的序列;用缺口填补的序列替换原组装基因组中的含有缺口的序列。通过提取原组装基因组上含缺口区域的上下游序列,仅需对提取出含缺口的序列进行处理,减少后续处理的数据量。在利用测序数据对含有缺口的序列进行缺口填补时,由于仅需对提取出来的序列进行填补,而非对全基因组进行填补,因而数据量相对较小,内存占用也较小,成本低且处理速度也相对较快。成本低且处理速度也相对较快。成本低且处理速度也相对较快。
技术研发人员:吴雅静 王龙 马策 彭珍 康玲 吴越 李萍 刘孟
受保护的技术使用者:天津诺禾致源生物信息科技有限公司
技术研发日:2023.07.28
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/