DNA靶向基因编辑工具的开发
未命名
09-24
阅读:64
评论:0
dna靶向基因编辑工具的开发
技术领域
1.本公开内容涉及生物技术及医学领域。更具体地,本公开内容涉及新的cas9家族蛋白、筛选新的cas9家族蛋白的方法、以及相应的dna编辑系统及其应用。本公开内容尤其涉及低分子量cas9蛋白及相关的dna编辑系统。
背景技术:
2.crispr-cas系统被称为新一代基因组工程工具的关键组件,在细菌,古细菌等微生物中起着适应性免疫机制的作用,可保护微生物免受病毒和其他外来核酸的侵害。crispr-cas免疫应答主要包括三个阶段:适应阶段、表达和加工阶段和干扰阶段。与其他防御机制类似,crispr-cas系统在与移动遗传元件不断竞争的背景下发展,这导致cas蛋白序列和crispr-cas基因座结构的极端多样化。
3.自2011年以来,依据crispr-cas系统的基因组成,基因座结构以及序列相似性聚类等方法,目前可以将crispr-cas系统分成2大类,其中class 1类系统具有由多个cas蛋白质组成的效应器模块,其中一些形成crrna结合复合物,这些复合物通过额外cas蛋白来介导pre-crrna处理和干扰。相比之下,class 2类系统包含一个单一的具有多功能域结合区的cas效应蛋白,它能结合crrna参与干扰所需的所有活动,在某些变体中,还包括参与pre-crrna成熟过程。目前class 2类型crispr-cas系统1主要分3个亚型:type ii(如cas9),type v3(如cas12a),和type vi 4(如cas9d)。其中type vi效应cas蛋白则主要靶向rna,而type ii和type v亚型主要靶向dna。
4.由于class 2类crispr-cas系统相较与class 1类crispr-cas系统具有显著的优势,自其被发现以来,已吸引了大批学者们对它们进行了深入的研究和改造,并开发出多种依赖crispr-cas的基因操作工具,包括crispra,crispri,单碱基编辑技术等。利用这些工具也促进一部分学者们开始从基础研究向临床应用研究发展,特别是目前已有部分基因治疗相关药物上市,这又推进了人类的健康事业的发展。由于很多时候,基因疗法依赖于递送介质,常用的包装工具是逆转录病毒,腺病毒或者腺相关病毒等,但是它装载容量有限,如目前常用的aav递送载体的装载量只有4.7kb,不利于分子量大的crispr-cas相关工具包装到aav中。尽管有学者尝试采用共转多个包装不同调控原件的病毒,但是这种处理的结果远不如all-in-one的包装体系。
5.2020年有学者在大型细菌病毒噬菌体中找到了分子量只有cas9和cas12a基因组编辑酶的一半的casφ(也被归为cas12j亚家族)蛋白,它能在真核生物细胞上发挥切割dna的功能。近期张锋团队还找到cas9和cas12的始祖蛋白iscb(约400个氨基酸)和tnpb家族,它们也是guide rna依赖的核酸酶,只包含有单一核酸切割结构域(如ruvc),这些研究结果暗示自然界中可能存在更低分子量的单效应cas酶。然而目前尚未发现更小且高效的cas9蛋白,因此需要开发新的数据挖掘算法来进一步探索紧凑型的crispr-cas9系统单效应蛋白,以便可以更好应用于基因治疗。
6.既往研究策略主要依据cas1蛋白的序列保守型来确定临近cas蛋白,但是这种方
式会遗漏一些不存在cas1蛋白的单效应蛋白。依据crispr-array与cas蛋白的共存性,促使学者们直接从预测crispr array入手,然后寻找临近crispr-cas关联蛋白,但是受制于当前预测crispr array的算法局限性,并没有哪种算法被大家归为金标准。此外,候选蛋白确定问题上,主要依赖dna和蛋白序列比对,这很容易忽略蛋白空间折叠的影响。因此,亟需开发的新的寻找自然界分子量更小的class 2类crispr-cas9系统相关单效应蛋白的计算方法和实验验证方法。
技术实现要素:
7.针对现有筛选新型crispr-cas蛋白技术的不足和实际需求,本公开内容提供了一种快速寻找包含ruvc和/或hnhc结构域(至少1个)的新型guide rna引导具有dnase活性的crispr-cas9蛋白的方法并从生物信息分析层面(例如,序列比对、蛋白结构预测等)和实验层面验证了候选蛋白的dnase活性。这些蛋白潜在应用于dna层面的编辑、调控、检测等方面,具有广阔的学术价值和商业应用价值。
8.本公开内容所解决的技术问题是如何快速寻找紧凑型的dna酶切活性结构域(ruvc和hnhc)较多的候选crispr-cas9蛋白及其系统;其次是验证候选crispr-cas9蛋白及其系统的活性;并最终获得了多种新型cas9蛋白。
9.本公开内容实现了以下技术效果:(1)开发了快速筛选新型cas9家族蛋白的分析方法,该方法可以对新更新的原核微生物dna序列和宏基因组序列进行cripsr array系统的分析和相关效应蛋白的筛选;(2)筛选的低分子量的cas9家族成员,拓展crispr-cas9的应用范围。由于候选cas9蛋白低分子量能很好的通过腺相关病毒等递送载体包装,从而实现相关疾病的诊疗,如神经相关退行性疾病的诊疗,在植物领域则可以开展育种,逆境胁迫等方面的研究,在微生物领域可以进行相关工程菌的改造等;(3)本方法在筛选过程中,除利用cas9蛋白的已知ruvc结构域和/或hnhc结构域进行筛选外,还将其他种类的蛋白质中具备dna切割活性的保守型结构域包括在内,从而提供了筛选新的cas9蛋白的可能,并且由于这些新cas9蛋白中这些新的功能结构域的鉴定,为进一步改造cas9蛋白提供了新的思路和可能性。
10.在本公开内容的一个方面中,提供了cas9蛋白。
11.在一个优选的实施方案中,所述cas9蛋白包含如seq id no:1-48中任一项所述的氨基酸序列,或具有一个或更多个残基的保守氨基酸取代的seq id no:1-48中任一项所述的氨基酸序列。
12.在一个优选的实施方案中,所述cas9蛋白的dna切割活性被保留。
13.在一个优选的实施方案中,所述cas9蛋白的ruvc和/或hnhc等dna切割结构域经进一步修饰或改造,而使其dna切割活性降低或消除,成为dna切割活性降低或消除的dcas9。
14.在一个优选的实施方案中,所述cas9蛋白与一个或更多个异源功能性结构域融合。
15.在一个优选的实施方案中,所述融合在所述cas9蛋白的n端、c端或者内部。
16.在一个优选的实施方案中,所述一个或更多个异源功能性结构域具有以下活性:脱氨酶如胞苷脱氨基酶和脱氧腺苷脱氨基酶、甲基化酶、去甲基化酶、转录激活、转录抑制、
核酸酶、单链rna裂解、双链rna裂解、单链dna裂解、双链dna裂解、dna或rna连接酶、报告蛋白、检测蛋白、定位信号、或其任意组合。在本公开内容的另一个方面中,提供了一种核酸分子,其包含编码上述cas9蛋白的核苷酸序列。
17.在一个优选的实施方案中,所述核酸分子针对在特定宿主细胞中的表达而进行了密码子优化。
18.在一个优选的实施方案中,所述宿主细胞是原核或真核生物细胞,优选人细胞。
19.在一个优选的实施方案中,所述核酸分子包含与编码cas9的核苷酸序列有效链接的启动子,其为组成型启动子、诱导型启动子、合成启动子、组织特异性启动子、嵌合型启动子或发育特异性启动子。
20.在本公开内容的另一个方面中,提供了一种表达载体,其包含上述核酸分子,以dna或rna或蛋白等形式表达上述氨基酸序列或核苷酸序列。
21.在一个优选的实施方案中,所述表达载体为腺相关病毒(aav)、腺病毒、重组腺相关病毒(raav)、慢病毒、逆转录病毒、单纯孢疹病毒、溶瘤病毒等。
22.在本公开内容的另一个方面中,提供了一种递送系统,其包含(1)上述表达载体,或上述cas9蛋白;以及(2)递送载体。
23.在一个优选的实施方案中,所述递送载体是纳米脂质体颗粒(lnp)、阳离子聚合物(如pei)、类病毒颗粒(vlp)、纳米颗粒、脂质体、外泌体、微囊泡或基因枪等。
24.在本公开内容的另一个方面中,提供了一种crispr-cas系统,其包含:(1)上述cas9蛋白或核酸分子,或者其衍生物或功能片段;(2)用于靶向目标dna的grna序列。
25.在一个优选的实施方案中,其中所述grna序列包含同向重复(dr)序列,反式作用crispr rna(tracrrna)和靶向靶rna部分的间隔区域的序列(spacer序列)。
26.在一个优选的实施方案中,其中所述dr序列为表1中所示序列;所述tracrrna序列为表2中所示序列;其中所述间隔区序列为10-60个核苷酸,优选15-25个核苷酸,更优选19-21个核苷酸。
27.在一个优选的实施方案中,所述dr序列可以是对应以下任一项的衍生物,其中所述衍生物(i)与表1中所示序列中的任一个相比,具有一个或多个(例如1、2、3、4、5、6、7、8、9或10)个核苷酸的添加、缺失、或取代;(ii)与表1中所示序列中任何一个具有至少20%、30%、40%、50%、60%、70%、80%、90%、95%或97%的序列同一性;(iii)在严格条件下与表1中所示序列任意一个,或与(i)和(ii)中的任意一个杂交;或(iv)是(i)-(iii)中任何一个的互补物,条件是所述衍生物非表1中所示序列中的任何一个,并且所述衍生物编码一个rna,或本身即是一个rna,所述rna与seq id no:43-121编码的任意rna基本保持相同的二级结构。
28.在一个优选的实施方案中,tracrrna序列为表2中所示序列;该序列包含一段能与dr序列反向互补的配对碱基,一般能形成至少6个碱基配对、8个碱基配对、10个碱基对或者12个碱基对,它们可以是连续配对,或者间隔配对。
29.在一个优选的实施方案中,所述tracrrna序列可以是对应以下任一项的衍生物,其中所述衍生物(i)与表2中所示序列中的任一个相比,具有一个或多个(例如1、2、3、4、5、6、7、8、9或10)个核苷酸的添加、缺失、或取代;(ii)与表2中所示序列中任何一个具有至少20%、30%、40%、50%、60%、70%、80%、90%、95%或97%的序列同一性;(iii)在严格条
件下与表2中所示序列任意一个,或与(i)和(ii)中的任意一个杂交;或(iv)是(i)-(iii)中任何一个的互补物,条件是所述衍生物非表2中所示序列中的任何一个,并且所述衍生物编码一个rna,或本身即是一个rna,所述rna与seq id no:122-159编码的任意rna基本保持相同的二级结构。
30.在一个优选的实施方案中,所述crispr-cas系统还包含:(3)靶rna。
31.在一个优选的实施方案中,所述crispr-cas系统引起靶dna序列的切割、序列插入或删除、单碱基编辑、序列修饰(包括表观遗传修饰)、序列的改变或降解。
32.在一个优选的实施方案中,所述靶dna是双链dna,单链dna,双链环状dna或单链dna。
33.在本公开内容的另一个方面中,提供了一种细胞,其包含上述cas9蛋白、核酸分子、表达载体、递送系统或crispr-cas系统。
34.在一个优选的实施方案中,所述细胞为原核细胞或真核细胞,优选人细胞。
35.在本公开内容的另一个方面中,提供了一种降解或切割目的细胞中靶dna、改变或修饰目的细胞中靶dna的序列的方法,其包括使用上述cas9蛋白、核酸分子、表达载体、递送载体或crispr-cas系统。
36.在一个优选的实施方案中,所述目的细胞为原核细胞或真核细胞,优选人细胞。
37.在一个优选的实施方案中,其中所述目的细胞为离体细胞、体外细胞或体内细胞。
附图说明
38.图1a:展示的是dz776蛋白切割293t细胞系内源基因tyr的对照组reads分布结果,可以看到除了lib2在sg1(靶向tyr的第1个sgrna)附近出现2个断层外,对照组lib1和lib2大部分都是完整比对的。说明对照组背景干净可用。
39.图1b:展示的是dz776蛋白切割293t细胞系内源基因tyr的实验组reads分布结果,可以看到除了lib3和lib4都在sg1(靶向tyr的第1个sgrna)和sg4(靶向tyr的第4个sgrna)附近都出现多个断层。说明候选蛋白dz776在sgrna附近发生了切割,产生了大片段的缺失。
40.图1c:展示的是dz776蛋白切割293t细胞系内源基因tyr的实验组和对照组reads分布比较结果,可以看到尽管对2个对照组有一个(lib2)在sg1附近出现了2个断层,但是它和实验组组的断层不一样,二者差异明显。进一步说明我们候选蛋白dz776切割的活性。
41.图1d:展示的是dz776蛋白切割293t细胞系内源基因tyr的实验组和对照组reads分布比较结果,可以看到在sg4附实验组组出现很多断层,而对照组没有发生大片段的缺失。进一步说明我们候选蛋白dz776切割的活性。
42.图2a:展示的是候选蛋白dz765切割293t细胞系内源基因tyr的实验组和对照组的reads分布比较结果,可以看到在sg1附近实验组lib11和lib12都出现了大规模的断层(缺失)。尽管对照组lib10也现了2个缺失片段,但是跟实验组的缺失模式不一样。进一步说明我们候选蛋白dz765切割内源基因的能力。
43.图2b:展示的是候选蛋白dz765切割293t细胞系内源基因tyr的实验组和对照组的reads分布比较结果,可以看到在sg4附近实验组lib11和lib12都出现了大规模的断层(缺失)。而对照组lib10则没有出现缺失片段,进一步说明我们候选蛋白dz765切割内源基因的能力。
44.图3:展示的是候选蛋白dz775切割293t细胞系内源基因tyr的实验组和对照组的reads分布比较结果,可以看到在sg1附近实验组lib16出现了大规模的断层(缺失)。尽管对照组lib13和lib14也现了1~2个缺失片段,但是跟实验组的缺失模式不一样。进一步说明我们候选蛋白dz775切割内源基因的能力。
45.图4:展示的是候选蛋白dz762切割293t细胞系内源基因tyr的实验组和对照组的reads分布比较结果,可以看到在sg1和sg4附近,实验组lib19和lib20都出现了大规模的断层(缺失),而且实验组lib20还在sg1附近检测到小的indel突变。尽管对照组lib17和lib18在sg1附近也现了1~2个缺失片段,但是跟实验组的缺失模式不一样。进一步说明我们候选蛋白dz762切割内源基因的能力。
具体实施方式
46.下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于举例说明本发明,而不应视为限定本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
47.如在说明书中所使用的,没有数量词修饰的名词可意指一个/种或更多个/种。如在权利要求书中所使用的,当与词语“包含/包括”结合使用时,没有数量词修饰的名词可意指一个/种或多于一个/种。
48.权利要求书中术语“或/或者”的使用用于意指“和/或”,除非明确地指出仅指替代方案或替代方案是相互排斥的,尽管本公开内容支持仅指替代方案和“和/或”的限定。如本文中使用的“另一/另一些”可意指至少第二或更多个/种。
49.在整个本技术中,术语“约”用于表示值包括装置的误差、用于确定该值的方法的固有变化,或者存在于研究对象之间的固有变化。这样的固有变异可以是标注值的
±
10%的变异。
50.在整个申请中,除非另有说明,否则核苷酸序列以5’至3’方向列出,并且氨基酸序列以n端至c端方向列出。
51.通过以下详细描述,本发明的其他目的、特征和优点将变得明显。然而,应理解,尽管表明了本发明的一些优选实施方案,但是详细描述和具体实施例仅以举例说明的方式给出,因为根据该详细描述,在本发明的精神和范围内的多种变化和修改对于本领域技术人员而言将变得明显。定义
52.ncbi(https://www.ncbi.nlm.nih.gov/)是指美国国家生物信息中心,是一个面向全世界的公共数据库,本领域技术人员利用该数据库提供的核酸数据库进行下载原核生物的基因组,蛋白质组相关数据库等,也可以利用该数据提供的blast比对软件进行序列比对的分析。
53.img(https://img.jgi.doe.gov/)是指微生物基因组整合数据库,是新一代基因组数据库的代表,不仅能够完整收录现有数据库的内容,还提供了更完善的数据上传、注释和分析服务,将测序数据储存到img/m数据库。该数据可以下载纯培养细菌测序基因组、宏基因组、宏基因组组装基因组、单细胞测序基因组的数据。
54.crispr(cluster regularly interspaced short palindromic repeats)是原核生物,主要是指细菌和古细菌体内的一串dna序列,包括同向重复(direct repeat,dr)区域和非重复间隔区(spacer)区域。而cripsr系统除了包含crispr array外,还包括相关的cas蛋白。它们一起构成了细菌低于外来病毒入侵的免疫系统。
55.hnh核酸酶结构域是指一种切割dna的内源核酸酶的切割结构域,在crispr-cas9蛋白中,它包含的hnh核酸酶结构域,主要负责切割外源dna与间隔序列互补的链。
56.ruvc结构域是:指一种切割dna的内源核酸酶的切割结构域,在crispr-cas9蛋白中,它包含的hnh核酸酶结构域,主要负责切割外源dna与间隔序列互补的链,而ruvc结构域主要负责切割外源dna的另一条链。ruvc结构域,目前包括三种类型,包括ruvci,ruvcii以及ruvciii,是cas9蛋白的重要切割dna的结构域。
57.abe系统是adenine base editors的简称,即嘌呤碱基转换技术,能够实现a/t到g/c的单碱基改变。最常用的酶是adar酶(adenosine deaminases acting on rna,一种作用于rna的腺苷脱氨酶)。主要是通过将腺嘌呤脱氨基成肌苷,在dna或者rna中进行读码的时候会被看成g,从而实现a/t到g/c的突变。由于细胞对肌苷的切出修复不敏感,因而这种突变可以维持较高的产物纯度。
58.cbe系统是cytidine base editor的简称,即嘧啶碱基转换技术,目前有be1、be2和be3个工具,其中be3的效率最高,因而在基因治疗,动物模型制作以及功能基因筛选等领域被广泛应用。
59.原间隔基序邻接基序是指crispr-cas系统的效应蛋白在靶向目标核酸序列时,常常表现出对原间隔基序邻接基序(protospacer adjacent motif,pam)和/或原间隔区侧翼序列(protospacer flanking sequence,pfs)的偏好性。
60.真核细胞例如哺乳动物细胞,包括人类细胞(人类原代细胞或已建立的人类细胞系)。所述细胞可以是非人类哺乳动物细胞,例如来自非人类灵长类动物(例如猴子)、奶牛/公牛/家牛、绵羊、山羊、猪、马、狗、猫、啮齿动物(例如兔子、小、大鼠、仓鼠)等。所述细胞来自鱼(例如鲑鱼)、鸟(例如禽鸟,包括小鸡、鸭、鹅)、爬行动物、贝类(例如牡蛎、蛤、龙虾、虾)、昆虫、蠕虫、酵母等。所述细胞可以来自植物,例如单子叶植物或双子叶植物。所述植物可以是粮食作物,例如大麦、木薯、棉花、花生、玉米、小米、油棕果、土豆、豆类、油菜籽或低芥酸菜子、大米、黑麦、高粱、大豆、甘蔗、糖甜菜、向日葵和小麦。所述植物可以是谷物(例如大麦、玉米、小米、大米、黑麦、高粱和小麦)。所述植物可以是块茎(例如木薯和土豆)。在一些实施方案中,所述植物可以是糖料作物(例如甜菜和甘蔗)。所述植物可以是含油作物(例如大豆、花生、油菜籽或低芥酸菜子、向日葵和油棕果)。所述植物可以是纤维作物(例如棉花)。所述植物可以是树木,例如桃树或油桃树、苹果树、梨树、杏树、核桃树、开心果树、柑橘属树(例如橙子、葡萄柚或柠檬树)、草、蔬菜、水果或藻类。所述植物可以是茄属植物;芸苔属(brassica)植物;莴苣属(lactuca)植物;菠菜属(spinacia)植物;辣椒属(capsicum)植物;棉花、烟草、芦笋、胡萝卜、卷心菜、西兰花、花椰菜、番茄、茄子、胡椒、生菜、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等。crispr系统
61.crispr(成簇规律间隔短回文重复序列)/cas9(crispr相关蛋白9)介导的rna编辑正在成为用于疾病诊疗、植物育种等方面的有前景的工具。
62.crispr是包含碱基序列的短重复的dna基因座。每个重复之后是来自先前暴露于病毒的“间隔区dna”的短区段。在约40%的测序的真细菌基因组和90%的测序的古细菌中发现crispr。crispr通常与编码与crispr相关的蛋白质的cas基因相关。crispr/cas系统是原核免疫系统,其赋予对外来遗传元件(例如质粒和噬菌体)的抗性并提供获得性免疫的形式。crispr间隔区识别并沉默真核生物体中的这些外源遗传元件(例如rnai)。
63.crispr重复序列的大小为24至48个碱基对。它们通常显示一些二重对称,这意味着形成二级结构例如发夹,但不是真正的回文结构。重复序列被相似长度的间隔区分开。一些crispr间隔区序列与来自质粒和噬菌体的序列准确地匹配,尽管一些间隔区与原核生物的基因组匹配。响应于噬菌体感染,可迅速添加新的间隔区。
64.crrna是指crispr rna的缩写,在包含dr序列和靶向目标区域的spacer序列。
65.指导rna(grna)是指crispr-cas系统用于引导效应蛋白在核酸特定位点作用的一段rna,在crispr-cas9系统它是crrna和tracrrna的组合,用于crispr-cas9靶向dna序列的识别。核酸酶
66.cas核酸酶。crispr相关(cas)基因通常与crispr重复-间隔区阵列相关。截至2013年,已描述了超过四十个不同的cas蛋白家族。在这些蛋白家族之中,cas1看来在不同的crispr/cas系统中是普遍存在的。cas基因和重复序列结构的特定组合已用于限定8种crispr亚型(ecoli、ypest、nmeni、dvulg、tneap、hmari、apern和mtube),其中一些与编码重复序列相关神秘蛋白(repeat-associated mysterious protein,ramp)的另外的基因模块相关。在单个基因组中可存在多于一种crispr亚型。crispr/cas亚型的散发性分布(sporadic distribution)表明该系统在微生物进化期间经历水平基因转移。
67.外源dna明显地由cas基因编码的蛋白质加工成小元件(长度为约30个碱基对),然后以某种方式将其插入到靠近前导序列的crispr基因座中。来自crispr基因座的rna是组成型表达的,并且被cas蛋白加工成由具有侧翼重复序列的单独外源来源序列元件构成的小rna。rna指导其他cas蛋白在rna或dna水平上沉默外源遗传元件。证据表明crispr亚型之间的功能多样性。cse(cas亚型ecoli)蛋白(在大肠杆菌(e.coli)中称为casa-e)形成功能性复合体cascade,其将crispr rna转录物加工成保留cascade的间隔区-重复序列单元。在另一些原核生物中,cas6加工crispr转录物。有趣的是,大肠杆菌中基于crispr的噬菌体灭活需要cascade和cas3,但不需要cas1和cas2。在激烈火球菌(pyrococcus furiosus)和另一些原核生物中发现的cmr(cas ramp模块)蛋白与小的crispr rna形成功能性复合体,其识别和切割互补靶rna。rna指导的crispr酶被分类为v型限制酶。实施例实施例1:新型cas9蛋白从头筛选
68.我们还进行了从头寻找crispr-cas9其他家族成员。简单来说,该分析系统包括2大块,一部分crispr array区域的鉴定,我们首先下载ncbi和img截止到2021年7月份的全部细菌,古细菌基因组以及宏基因组的序列,利用crispr array鉴定软件(如pilercr)进行鉴定crispr array区域;另一部分是该区域上下游附近cas相关蛋白的搜寻,即取该区域上下游临近的6个蛋白,共计12个蛋白进行目标结构域分析。最终候选蛋白的氨基酸序列编号、dna切割结构域种类等信息参见表3。
69.其中本筛选体系的crispr-cas9蛋白同时具有的hnh结构域和ruvc结构域。它们是候选蛋白发挥dna切割的重要结构域。实施例2:新型候选cas9蛋白的敲低293t内源基因功能验证
70.为了验证候选蛋白切割内源基因的能力,我们从候选蛋白(见表3)中,选择了dz776、dz65、dz775、dz62等蛋白进行切割内源基因(tyr)实验,我们首先针对293t这tyr内源基因随机设计2个sgrna(含有crrna和tracrrna),并构建相应的质粒,即为sg1和sg4。然后将sgrna和候选蛋白瞬转293t细胞系,48h后,流式分选top15%的阳性细胞进行deep-seq建库和测序。测序结果比对到包含靶向tyr基因的sg1和sg4附近的tyr序列。通过去冗余和pcr扩增序列,最终得到能够用于igv可视化的bam文件。如图1到图4以及表4所示。可以看到我们候选的蛋白在内源基因tyr设计sgrna附近实验组发生一定程度的断层,而对照组则背景很干净,在tyr设计sgrna附近几乎不发生断层,说明我们候选蛋白潜在具有切割dna的能力。当然也有一部分候选蛋白功能验证的实验组和对照组差异不明显,这可能跟候选蛋白靶向dna的序列偏好性pam有关。因为以往研究报道cas9蛋白,如spcas9,cjcas9等在靶向dna序列的时候有很强的偏好性(pam)。而此处我们紧紧随机设计靶向目标基因的sgrna并没有去筛选对应cas蛋白靶向dna的pam偏好性。实施例3:新型候选cas9蛋白pam功能筛选
71.为了进一步挖掘候选蛋白靶向dna的偏好性,我们还设计了寻找蛋白pam的检测实验,简单来说就是首先在致死基因(如ccdb)前设计添加5
’‑
6n(nnnnnn)-spacer(target sequence)-抗性基因的library质粒或者spacer(target sequence)-nnnnnn(6n)-3
’‑
抗性基因的library质粒(统一标记为6n library质粒)。同时针对target sequence设计guide rna的质粒。质粒构建好后,首先针对6n library的质粒转染大肠杆菌。然后将候选蛋白的质粒和对应靶向目标区域的guide rna一起共转染大肠杆菌。与此同时做1组阴性对照,该对照为候选蛋白相关质粒与非靶向目标区域的guide rna(即nontarget)质粒进行共转。理论上如果蛋白能够切割目标区域的dna就有一定的概率造成候选蛋白的移码突变,具有切割活性的候选蛋白将会导致细菌因为不再受到致死蛋白的表达而存活,然后将活下来的菌全部进行抽提并做deep-seq测序。通过生物信息学方法,分析实验组和对照组差异的5’或者3’偏好序列就可以计算对应蛋白的pam。实施例4:新型紧凑型候选cas9蛋白的碱基编辑功能验证
72.当前用于单碱基编辑的系统主要有两种,一种是abe系统,另一种是cbe系统。简单来说,通过候选cas9蛋白的dna切割结构域(ruvc结构域和hnh结构域)进行突变处理,获得只有结合dna而没有切割活性的候选dcas9蛋白,然后融合adar酶序列,构建abe单碱基编辑系统的质粒,然后对特定序列,比如tp53基因进行定点碱基突变处理的sgrna设计并构建相应的质粒载体。然后通过共转染人源293t细胞系,48小时后进行流式细胞分选获得共转染的细胞系。然后进行在sgrna上下游50bp设计引物,并扩增目的区域dna片段,然后进行deep-seq建库和测序。测序结束后通过生物信息方法分析tp53基因sgrna设计附近dna的突变情况就可以获得对应的abe系统的单碱基编辑效能分析。从而通过不断的优化sgrna来实现构建目标区域的最优单碱基编辑系统。实施例5:候选cas9蛋白与已知cas9蛋白的同源性分析
73.依据未知蛋白在已知蛋白的覆盖度越高且相似度占比越大则未知蛋白与已知蛋
白的同源性越近的原理进行。对所筛选到的候选蛋白后,我们先从ncbi数据库以及专利文献中下载cas9的相关蛋白序列,如spcas9,cjcas9,sacas9,fncas9等,然后与我们的数据一起合并构建本地blastp的索引文件,然后将候选蛋白序列比对到本地blastp索引库中进行蛋白序列比对分析。对于蛋白之间相似度(identity)小于20%或者没法比对到本地索引库的部分我们统一标注为20%;类似的,对于覆盖度(coverage)小于5%或者没法比对到本地索引库的标记为1%。本发明方法所鉴定出的新cas9蛋白与已知各家族cas9蛋白的同源性水平极低。例如,dz765、dz776、dz775、dz772等与目前已知的各cas9类别的同源性均在65%以下。
74.候选cas9蛋白的dr序列参见下表1。表1.候选cas9蛋白的dr序列
75.候选蛋白的tracrrna序列信息总结表,参见表2表2.候选cas9蛋白的tracrrna编码序列
76.最终候选cas9蛋白的氨基酸序列编号、长度和结构域超家族类型等信息参见表3。表3.候选cas9蛋白总结表
77.候选cas9蛋白的切割内源基因tyr的突变汇总,参见表4。
表4切割293t内源基因tyr的突变总结
技术特征:
1.cas9蛋白,其包含如seq id no:1至42中任一项所述的氨基酸序列,或具有一个或更多个残基的保守氨基酸取代的seq id no:1至42中任一项所述的氨基酸序列。2.根据权利要求1所述cas9蛋白,其dna切割活性被保留。3.根据权利要求1所述cas9蛋白,其ruvc结构域和/或hnhc切割结构域经进一步修饰或改造,而使其dna切割活性降低或消除,成为dna切割活性降低或消除的dcas9。4.根据权利要求1至3中任一项所述的cas9蛋白,其中所述cas9蛋白与一个或更多个异源功能性结构域融合,其中所述融合在所述cas9蛋白的n端、c端或者内部。5.根据权利要求4所述的cas9蛋白,其中所述一个或更多个异源功能性结构域具有以下活性:脱氨酶如胞苷脱氨基酶和脱氧腺苷脱氨基酶、甲基化酶、去甲基化酶、转录激活、转录抑制、核酸酶、单链dna裂解、双链dna裂解、dna或rna连接酶、报告蛋白、检测蛋白、定位信号、或其任意组合。6.核酸分子,其包含编码权利要求1至5中任一项所述cas9蛋白的核苷酸序列。7.根据权利要求6所述的核酸分子,其针对在特定宿主细胞中的表达而进行了密码子优化。8.根据权利要求7所述的核酸分子,其中所述宿主细胞是原核或真核生物细胞,优选人细胞。9.根据权利要求6至8中任一项所述的核酸分子,其包含与编码cas9的核苷酸序列有效链接的启动子,其为组成型启动子、诱导型启动子、组织特异性启动子、人工合成启动子、嵌合型启动子或发育特异性启动子。10.表达载体,其包含权利要求6至9中任一项所述核酸分子,以dna或rna或蛋白等形式表达权利要求1的氨基酸序列或权利要求6至9中任一项的核苷酸序列。11.根据权利要求10所述的表达载体,其为dna、rna、蛋白或病毒载体,其中病毒载体包括腺相关病毒(aav)、重组腺相关病毒(raav)、腺病毒、慢病毒、逆转录病毒、单纯孢疹病毒、溶瘤病毒。12.递送系统,包含(1)权利要求10所述的表达载体,或权利要求6至11中任一项所述的cas9蛋白;以及(2)递送载体。13.根据权利要求12所述的递送系统,其中所述递送载体是病毒载体、纳米颗粒、纳米脂质体颗粒(lnp)、阳离子聚合物(如pei)、脂质体、外泌体、类病毒颗粒(vlp),微囊泡或基因枪,其中病毒载体包括:腺相关病毒(aav)、重组腺相关病毒(raav)、腺病毒、慢病毒、逆转录病毒、单纯孢疹病毒、溶瘤病毒等。14.crispr-cas系统,其包含:(1)根据权利要求1至5中任一项所述的cas9蛋白或者其衍生物或功能片段,或权利要求6至9中任一项所述核酸分子;(2)用于靶向目标dna的grna序列;(3)靶dna。15.根据权利要求14所述的crispr-cas系统,cas9蛋白的功能片段应指含有一个或多个seq id no:1至42中任何一个氨基酸(例如1、2、3、4、5、6、7、8、9或10个残基)的添加、缺失和/或取代(例如保守取代)。16.根据权利要求15所述的crispr-cas系统,cas9蛋白的衍生物应指至少具有与seq id no:1至42中任意一个蛋白片段达到≥70%氨基酸序列同一性(如70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的一致性)。
17.根据权利要求14所述的crispr-cas系统,其中所述grna序列包含同向重复(dr)序列,反式作用crispr rna(crrna)(简称为tracrrna)和靶向靶dna部分的间隔区域的序列。18.根据权利要求17所述的crispr-cas系统,其中所述dr序列为表1中所示序列;tracrrna序列为表2中所示序列;其中所述间隔区序列为10-50个核苷酸,优选15-25个核苷酸,更优选20个核苷酸。19.根据权利要求18所述crispr-cas系统,其中所述dr序列可以是对应以下任一项的衍生物,其中所述衍生物(i)与表1中所示序列中的任一个相比,具有一个或多个(例如1、2、3、4、5、6、7、8、9或10)个核苷酸的添加、缺失、或取代;(ii)与表1中所示序列中任何一个具有至少20%、30%、40%、50%、60%、70%、80%、90%、95%或97%的序列同一性;(iii)在严格条件下与表1中所示序列任意一个,或与(i)和(ii)中的任意一个杂交;或(iv)是(i)-(iii)中任何一个的互补物,条件是所述衍生物非表1中所示序列中的任何一个,并且所述衍生物编码一个rna,或本身即是一个rna,所述rna与seq id no:43-121编码的任意rna基本保持相同的二级结构。20.根据权利要求17所述的crispr-cas系统,其中所述tracrrna序列为表2中所示序列;该序列包含一段能与dr序列反向互补的配对碱基,一般能形成至少6个碱基配对、8个碱基配对、10个碱基对或者12个碱基对,它们可以是连续配对,或者间隔配对。21.根据权利要求20所述的crispr-cas系统,其中所述的tracrrna可以是对应以下任一项的衍生物,其中所述衍生物(i)与表2中所示序列中的任一个相比,具有一个或多个(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20)个核苷酸的添加、缺失、或取代;(ii)与表2中所示序列中任何一个具有至少20%、30%、40%、50%、60%、70%、80%、90%、95%或97%的序列同一性;(iii)在严格条件下与表2中所示序列任意一个,或与(i)和(ii)中的任意一个杂交;或(iv)是(i)-(iii)中任何一个的互补物,条件是所述衍生物非表2中所示序列中的任何一个,并且所述衍生物编码一个rna,或本身即是一个rna,所述rna与seq id no:122-159编码的任意rna基本保持相同的二级结构。22.根据权利要求14所述的crispr-cas系统,其中所述靶dna来源于人工合成dna序列、病毒、原核生物或真核生物。23.根据权利要求14所述的crispr-cas系统,其引起靶dna序列的切割、序列的改变、单碱基编辑、序列插入或删除、序列修饰或降解等。24.根据权利要求22所述的crispr-cas系统,其中所述靶dna是双链dna,单链dna,或双链环状dna。25.细胞,其包含权利要求1至5中任一项所述cas9蛋白、权利要求6至9中任一项所述核酸分子、权利要求10或11所述表达载体、权利要求12或13所述递送系统、或权利要求14至24中任一项所述crispr-cas系统。26.根据权利要求25所述的细胞,其为原核细胞或真核细胞,优选人细胞。27.降解或切割目的细胞中靶dna、修饰目的细胞中靶dna的序列的方法,其包括使用权利要求1至5中任一项所述cas9蛋白、权利要求6至9中任一项所述核酸分子、权利要求10或11所述表达载体、权利要求12或13所述递送系统、或权利要求14至24中任一项所述crispr-cas系统。28.根据权利要求27所述的方法,所述目的细胞为原核细胞或真核细胞,优选人细胞。
29.根据权利要求28所述的方法,其中所述目的细胞为离体细胞、体外细胞或体内细胞。
技术总结
DNA靶向基因编辑工具的开发。本公开内容涉及生物技术及医学领域。更具体地,本公开内容涉及新的Cas9家族蛋白、筛选新的Cas9家族蛋白的方法、以及相应的DNA编辑系统及其应用。本公开内容尤其涉及Cas9蛋白及相关的DNA编辑系统。所述新型Cas9蛋白的分子量很低,几乎将具有guide RNA引导的且具有DNase活性的CRISPR-Cas蛋白推向了极限,并且包含RuvC,HNHc等结构域。本公开内容首次提出快速寻找具有超低分子量,依赖guide RNA引导且具有DNase活性的CRISPR-Cas9蛋白的筛选方法,并获得了多种新的Cas9蛋白及其新的家族,具有广阔的应用前景和巨大的市场价值。和巨大的市场价值。
技术研发人员:周海波 许争争 冯灿斌
受保护的技术使用者:中国科学院脑科学与智能技术卓越创新中心
技术研发日:2022.03.14
技术公布日:2023/9/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/