一种宏基因组磷元素循环注释绘图方法与流程
未命名
08-03
阅读:85
评论:0

1.本发明属于宏基因组技术领域,本发明涉及一种宏基因组磷元素循环注释绘图方法
背景技术:
2.随着高通量测序技术的发展,我们越来越多地可以利用宏基因组测序技术来破译不同生境下微生物的功能能力和活动,并重建其在生物地球化学循环过程中的作用。目前,宏基因组可用的数据分析工具能够在一定程度上注释和描述代谢功能,但由于缺乏专门用于p循环功能的数据库,获取这些功能图谱和确定代谢途径可能需要手动检查数千个基因,导致这一部分的数据挖掘工作量巨大。
3.磷(p)元素是地球上一种重要的营养元素,参与了能量代谢、基因组成和细胞结构等过程,生态系统中的微生物在磷循环过程中发挥了巨大作用。但是对于微生物群落中起关键的磷循环基因和微生物及其生态功能尚不清楚。
4.该方法采用perl语言为框架,结合最新磷代谢数据库pcycdb(一个具有139个基因家族和10个磷代谢过程的磷循环数据库)和物种数据库(gtdb),将利用宏基因组测序方式获得的高质量微生物基因组进行磷代谢基因注释,实现对宏基因组数据进行深入挖掘,通过循环模式图,确定磷代谢过程所涉及的功能基因及其丰度,对环境样品微生物群落磷循环能力进行分析及比较,并通过对识别到的相关功能基因所属物种进行分类学注释,识别环境样本中参与磷循环的主要功能微生物种属。
技术实现要素:
5.一种宏基因组磷元素循环注释绘图方法,具体包括以下步骤:s1:将通过高通量测序得到的基因序列fastq格式文件1和fastq格式文件2,作为输入文件;s2:通过宏基因组binning软件后的bin文件,每个bin文件代表一个微生物物种基因组序列以及对应的基因组的基因预测的基因碱基序列s3:过滤低质量序列的数据过滤模块;过滤reads尾部质量值20以下的碱基;设置50bp的窗口,从头部开始移动窗口,如果窗口内的平均质量值低于50,则从窗口处截去后端碱基;去除包含n碱基数目》2的reads;去除含有adaptor接头污染的reads;去除50 bp以下的reads;利用bwa软件将序列比对宿主dna序列,并去除比对相似性高的污染序列。
6.s4:输入文件在linux系统下以perl语言代码,结合pcycdb、gtdb数据库和diamond、gtdb-tk、salmon等多款软件操作运行。
7.s5:数据kegg-pathway分析;合并所有基因组的基因序列,利用cd-hit-est软件进行序列去冗余;利用salmon软件和非冗余基因集计算基因的丰度;利用diamond 软件将非冗余基因集和数据库pcycdb 进行序列比对;利用perl语言代码脚本runall_for_extract_the_best_hit.pl对比对结果选择每个序列的最优比对结果;利用数据库将比对结果对应
到与磷元素循环有关的基因上;根据s2中的丰度信息计算与磷元素循环有关的基因的覆盖度;利用perl语言代码脚本kegg.pathway.plot.pl整理磷元素相关kegg通路矩阵并进行映射绘图s6:绘制微生物磷元素贡献桑基图,将每个bin 的基因序列信息和pcycdb数据库进行比对,获得磷元素最优比对结果;利用数据库将比对结果对应到与磷元素循环有关的基因上;利用salmon软件和每个bin文件的基因集计算基因的丰度,获得每个bin文件的p元素相关的基因丰度;利用gtdbtk软件对每个bin文件中的物种信息进行注释;利用perl语言代码脚本draw_metabolic_sankey_diagram.r,对物种-磷元素丰度矩阵信息,绘制物种-磷元素信号通路的贡献桑基图。
技术特征:
1.一种宏基因组磷元素循环注释绘图方法,其特征在于,具体包括以下步骤:s1:将通过高通量测序得到的基因序列fastq格式文件1和fastq格式文件2,作为输入文件;s2:通过宏基因组binning软件后的bin文件,每个bin文件代表一个微生物物种基因组序列以及对应的基因组的基因预测的基因碱基序列s3:过滤低质量序列的数据过滤模块;s4:输入文件在linux系统下以perl语言代码,结合pcycdb、gtdb数据库和diamond、gtdb-tk、salmon等多款软件操作运行。2.根据权利要求1中所述的一种宏基因组磷元素循环注释绘图方法,其特征在于:所述s3中过滤低质量序列的数据过滤模块负责对输入的高通量测序数据进行质控,去除低质量数据,保证进入后续分析流程的数据质量可靠,具体过程为:s1:过滤reads尾部质量值20以下的碱基;设置50bp的窗口,从头部开始移动窗口,如果窗口内的平均质量值低于50,则从窗口处截去后端碱基;s2:去除包含n碱基数目>2的reads;s3:去除含有adaptor接头污染的reads;s4:去除50 bp以下的reads;s5:利用bwa软件将序列比对宿主dna序列,并去除比对相似性高的污染序列。3.根据权利要求1中所述的一种宏基因组磷元素循环注释绘图方法,其特征在于:所述s4中输入文件在linux系统下以perl语言代码,结合pcycdb、gtdb数据库和diamond、gtdb-tk、salmon等多款软件操作运行,数据kegg-pathway分析,具体过程为:s1:首先合并所有基因组的基因序列,利用cd-hit-est软件进行序列去冗余;s2:利用salmon软件和非冗余基因集计算基因的丰度;s3:利用diamond 软件将非冗余基因集和数据库pcycdb 进行序列比对;s4:利用perl语言代码脚本runall_for_extract_the_best_hit.pl对比对结果选择每个序列的最优比对结果;s5:利用数据库将比对结果对应到与磷元素循环有关的基因上;s6:根据s2中的丰度信息计算与磷元素循环有关的基因的覆盖度;s7:利用perl语言代码脚本kegg.pathway.plot.pl整理磷元素相关kegg通路矩阵并进行映射绘图。4.根据权利要求1中所述的一种宏基因组磷元素循环注释绘图方法,其特征在于:所述s4中输入文件在linux系统下以perl语言代码,结合pcycdb、gtdb数据库和diamond、gtdb-tk、salmon等多款软件操作运行,微生物磷元素贡献桑基图,具体过程为:s1:分别将权力要求1中s2的每个bin 的基因序列信息和pcycdb数据库进行比对,获得磷元素最优比对结果;s2:利用数据库将s1中比对结果对应到与磷元素循环有关的基因上;s3:利用salmon软件和每个bin文件的基因集计算基因的丰度,获得每个bin文件的p元素相关的基因丰度;s4:利用gtdbtk软件对每个bin文件中的物种信息进行注释;s5:利用perl语言代码脚本draw_metabolic_sankey_diagram.r,对物种-磷元素丰度
矩阵信息,绘制物种-磷元素信号通路的贡献桑基图。
技术总结
本发明涉及宏基因组技术领域。一种宏基因组磷元素循环注释绘图方法,本发明为解决宏基因组缺乏专门用于磷元素循环功能的数据库,且输出图谱及确定代谢途径复杂、数据量大等问题,本发明利用软件对以宏基因组测序方式获得的高质量微生物基因组进行磷代谢基因注释,通过绘制循环模式图,确定磷代谢过程所涉及的功能基因及其丰度,对微生物群落磷元素循环能力进行分析及比较,并通过对识别到的相关功能基因所属物种进行分类学注释,识别样本中参与磷循环的主要功能微生物种属,实现对宏基因组数据进行深入挖掘,通过多元化的方式分析结果的同时,还可以绘制清晰简洁的磷元素循环途径示意图,能快速准确的定位目标基因。能快速准确的定位目标基因。
技术研发人员:何灵江 雷鸣 王梦琪
受保护的技术使用者:苏州元华生物科技有限公司
技术研发日:2022.11.29
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/