插入有特定基因的干细胞治疗剂的基因插入位点分析系统及分析方法与流程
未命名
09-24
阅读:70
评论:0
1.本发明涉及插入有特定基因的干细胞治疗剂的基因插入位点分析系统及分析方法。
背景技术:
2.为了治疗合成新药无法治疗的罕见疑难疾病,正在开发作为新一代生物药品的基因治疗剂(gene therapy)、细胞治疗剂(cell therapy)及插入有基因的细胞治疗剂(gene-cell therapy)。
3.基因治疗剂(gene therapy)因致癌可能性的存在及技术限制而无法克服现实限制,细胞治疗剂(cell therapy)利用活细胞进行治疗,起初用作利用皮肤细胞或软骨细胞进行皮肤再生和软骨缺损的治疗剂,但是,随着积极研究,相比于以肿瘤、退行性疾病为目的的简单细胞治疗剂(第一代细胞治疗剂),最近,插入功能增强用基因的细胞治疗剂(第二代细胞治疗剂)已逐渐成为开发核心。细胞治疗剂主要使用成体干细胞(造血干细胞或间充质干细胞)。众所周知,造血干细胞是指通过增殖和分化持续不断生成血液的细胞,有助于造血干细胞增殖的间充质干细胞在骨髓(bone marrow)约存在100万个,具有从骨髓分化帮助各种器官再生的作用。基于间充质干细胞的细胞治疗剂可通过分化有效促进受损组织的再生,而并非代替受损组织。事实证明,单独的间充质干细胞缺乏再生治疗的有效性,因此,需要向间充质干细胞插入功能增强用基因进行传代培养来开发细胞治疗剂。
4.如上所述的体外操作过程(体外操作方法-功能增强用基因插入、传代培养、培养条件等)及细胞本身的分化能力等具有遗传不稳定性。遗传不稳定性由突变、错配修复缺陷(mismatch repair deficiency)、染色体不稳定性(chromosomal instability)等机制造成。错配修复缺陷是指各种基因的超变异(genetic hypermutability)状态,在长度突变(length mutation)、碱基序列反复较短的微卫星中的发现频率较高。染色体不稳定性(chromosomal instability)是指对染色体数量或结构整体造成影响,由于细胞之间存在差异,因此,染色体异常可因细胞而异。
5.当发生如上所述的结构缺陷时,由于能够传递到下一传代细胞,并且,当增殖反复时,可发生存在染色体异常的复制。考虑到细胞或基因的耐久性、脱靶效应(编辑无用基因的问题)等,美国食品药品监督管理局(fda)判断仅通过上市前的临床试验事实上无法确认与基因治疗剂(gene therapy)或插入有基因的细胞治疗剂(gene-cell therapy)相关的所有理论风险,因此,以假设上市后的临床研究能够及时解决理论风险为前提,认为长期追踪观察尤为重要。使用染色体插入型病毒的插入基因的干细胞治疗剂(体外治疗,ex-vivo therapy)存在遗传毒性的风险。作为实例,存在将lmo2、bmi1、cnd2、evi1等基因插入3kb~10kb的造血干细胞(hsc,hematopietic stem cell)后经过6年诱发白血病的事例。与造血干细胞不同的是,间充质干细胞(msc,mesenchymal stem cells)作为基质细胞(stromal cell),在活体内不会发生因某细菌种在直接相邻其他种菌落周围的部位生长地更加旺盛
而形成菌落的菌落现象(体内定殖,in vivo colonization),由于没有体内残留性,因此,不存在遗传毒性的风险。然而,为了验证安全性,针对被插入有基因的病毒感染的间充质干细胞需要对每个传代培养物及染色体进行基因插入位点相关关系分析。通常,基因碱基序列分析通过如下方式执行,即,从骨髓(bone marrow)采集间充质干细胞并将其感染转基因病毒(反转录病毒、腺病毒、慢病毒等),对每个传代培养物提取dna并通过线性扩增介导聚合酶链式反应(lam-pcr,linear amplification mediated-polymerase chain reaction)技术进行扩增后,通过多种下一代测序(ngs,next generation sequencing)平台进行分析或通过基因组步移(genomewalker)方法进行分析。但是,现有的分析方法不仅具有有关灵敏度、重现性、准确性及存在有害基因的问题,而且,因无法积极应用最新信息通信(ict,information&communications technology)技术而难以有效分析大量碱基序列分析数据。
6.上述背景技术为本发明人在导出本技术公开内容的过程中掌握或习得的内容,因此,不可视作本技术之前公众公开的已知技术。
技术实现要素:
7.技术问题
8.本发明实施例的目的在于,提供插入有特定基因的干细胞治疗剂的基因插入位点分析系统及分析方法,为了制造基因细胞治疗剂而从骨髓采集间充质干细胞并进行第一次传代培养后,通过体外组织(被特定基因插入的病毒感染)及传代培养从细胞内核提取dna并基于下一代测序(ngs,next generation sequencing)技术确保碱基序列分析数据来对每个传代培养物及染色体提取存储基因插入位点(integration site)(起始位置和终止位置)、数量、生物型(biotype)信息,由此,不仅提供可制定多种形态分析报告书的系统,而且,可应用作为最新技术的云计算(saas,software as a service)技术,从而通过一个系统使开发基因细胞治疗剂的国内外组织(企业、公共机构、大学等)能够作为独立系统运行。
9.本发明实施例所要解决的技术目的并不限定于上述目的,本发明所属领域的普通技术人员可通过以下记载内容明确理解未提及的其他技术目的。
10.技术方案
11.以下说明本发明实施例的插入有特定基因的干细胞治疗剂的基因插入位点分析系统及分析方法。
12.插入有特定基因的干细胞治疗剂的基因插入位点分析系统包括:基本信息管理单元,用于管理运行插入有特定基因的干细胞治疗剂的基因插入位点分析系统所需的代码信息、设备信息、工作人员信息、工作信息、客户信息、合作企业信息、参数信息、参照基因信息、致癌基因信息及碱基序列转换表信息;基因插入位点分析单元,用于管理上述基因插入位点分析系统所需的订单信息、合同信息、项目信息、基因插入位点分析信息及项目执行结果信息,上述订单信息包括客户订购、工作指示、物料订购信息;以及数据库(db)管理单元,用于管理由上述基本信息管理单元及上述基因插入位点分析单元生成或参照的基本信息数据库、订单信息数据库、合同信息数据库、项目信息数据库、基因插入位点信息数据库、碱基序列分析信息数据库及项目进展信息数据库,上述基本信息数据库包括公司信息数据库、用户信息数据库、参照基因组信息数据库、癌症中体细胞突变目录(cosmic)信息数据库、设备信息数据库、人力信息数据库、物料信息数据库、标准工作信息数据库、碱基序列转
换表数据库、代码信息数据库、参数信息数据库。
13.根据本发明一实施方式,上述基本信息管理单元包括基本信息管理模块,上述基本信息管理模块包括:公司信息管理模块,用于管理公司信息;用户信息管理模块,用于管理用户信息数据库;参照基因组信息管理模块,用于管理参照基因组信息数据库;癌症中体细胞突变目录信息管理模块,用于管理癌症中体细胞突变目录信息数据库;设备信息管理模块,用于管理设备信息数据库;人力信息管理模块,用于管理人力信息数据库;物料信息管理模块,用于管理物料信息数据库;标准工作信息管理模块,用于管理标准工作信息数据库;碱基序列转换表管理模块,用于管理碱基序列转换表数据库;代码信息管理模块,用于管理代码信息数据库;以及参数信息管理模块,用于管理参数信息数据库。
14.根据本发明一实施方式,上述基因插入位点分析单元包括:订单信息管理模块,用于管理订单信息;合同信息管理模块,用于管理合同信息;项目管理模块,用于管理项目信息;基因插入位点分析模块,用于管理基因插入位点信息;以及项目成果管理模块,用于管理项目进展信息。
15.另一方面,插入有特定基因的干细胞治疗剂的基因插入位点分析方法包括如下步骤:基本信息管理步骤,将运行插入有特定基因的干细胞治疗剂的基因插入位点分析系统所需的基本信息记录在数据库中;项目开始步骤,在项目信息数据库中登记与客户的协议过程,在订单信息数据库中登记订购信息,在合同信息数据库中登记基于订单信息的合同条件,在项目进展数据库中登记项目信息,并执行项目;测序数据处理步骤,包括对上述项目执行步骤中生成的测序数据执行的数据预处理步骤、数据结构化步骤、数据标注登记步骤、分析用数据提取登记步骤;基因插入位点分析步骤,包括用于设定分析对象的检索条件设定步骤、分析方法选择步骤、用于确认分析结果的分析报告书确认步骤及在数据库中登记分析结果的步骤;以及项目结束步骤,制定待提交给客户的分析报告书,登记客户反馈,执行总投入成本计算及收款后结束项目。
16.根据本发明一实施方式,上述项目执行步骤包括:测序工作信息登记步骤,为了测序工作而在订单信息数据库及项目进展信息数据库中登记测序工作信息,在上述测序工作信息登记步骤中,当从头到尾依次读取测序数据的过程中读取到最后记录时,将测序工作结果信息登记在基因插入位点信息数据库及项目进展信息数据库中。并且,在上述测序工作信息登记步骤中,读取上述测序数据为4的倍数+1的记录,将重复的数据登记为一个固有值,将可变值分开并登记在额外的记录中。而且,在上述测序工作信息登记步骤中,以4个字节为单位读取上述测序数据为4的倍数+2的记录来将碱基序列转换表数据库中的相应值转换为二进制数。其中,当以4个字节为单位从上述测序数据中读取的值存在n或u或者上述碱基序列转换表数据库中没有相应值时,将值存储在基因插入位点信息数据库的碱基信息错误表中。而且,在上述测序工作信息登记步骤中,将上述测序数据为4的倍数+4的记录作为质量分数压缩并存储在基因插入位点信息数据库的碱基信息质量分数表中。
17.根据本发明一实施方式,生成用于上述基因插入位点分析的数据并对每个传代培养物进行分析来将其数据登记在基因插入位点信息数据库中,对每个传代培养物及每个染色体的基因之间的相关关系进行分析。
18.根据本发明一实施方式,在上述基因插入位点分析步骤中,可对从骨髓同时采集的间充质干细胞和插入有多个基因的间充质干细胞在相同条件下进行传代培养并利用t值
技术比较分析表达量信息。其中,对于上述表达量信息,可比较分析每个传代的总表达量、基因总数量、每个生物型的表达量、每个染色体的表达量、每个染色体的基因数量、每个染色体和生物型的表达量、每个基因的表达量、插入基因的表达量、与插入基因相邻的基因及上述插入基因的表达量。
19.发明的效果
20.本发明实施例具有如下效果。
21.第一,相对于插入有多个基因的干细胞治疗剂,可预先确定在临床实验计划审批申请(ind,investigational new drug)阶段不存在理论上的风险性。
22.第二,可针对插入有多个基因的干细胞对每个传代培养物有效执行碱基序列数据与人体碱基序列分析数据的比较,可对每个传代培养物及染色体分析基因的相关关系。
23.第三,可通过综合管理客户请求用于分析插入有特定基因的干细胞治疗剂的基因插入位点到制定用于申请临床实验计划审批的报告书之间的全部过程来保障可靠度。
24.第四,可应用作为最新计算机技术的云计算(cloud computing)技术及软件即服务(saas,service as a software)技术来使得国内外的许多研究人员将其作为独立系统使用。
25.本发明实施例的插入有特定基因的干细胞治疗剂的基因插入位点分析系统及分析方法的效果并不限定于以上提及的效果,本发明所属技术领域的普通技术人员可通过以下记载内容明确理解未提及的其他效果。
附图说明
26.图1为示出本发明一实施例的插入有特定基因的干细胞治疗剂的基因插入位点分析系统的结构示意图。
27.图2为简要示出图1的基因插入位点分析系统从客户的分析请求到提交最终基因插入位点分析报告书为止的业务流程框图。
28.图3a为示出本发明一实施例的插入有特定基因的干细胞治疗剂的基因插入位点分析系统的结构框图。
29.图3b为示出图3a的基本信息管理模块的结构框图。
30.图3c为示出图3a的基本信息数据库的结构框图。
31.图4为简要说明本发明一实施例的应用插入有特定基因的干细胞治疗剂的基因插入位点分析系统对插入间充质干细胞的基因插入位点进行分析并基于客户请求提交基因插入位点分析报告书的方法的流程图。
32.图5为用于进一步详细说明图4的基本信息管理步骤的流程图。
33.图6为用于进一步详细说明图4的项目开始步骤的流程图。
34.图7为用于进一步详细说明图6的项目执行步骤的流程图。
35.图8为用于进一步详细说明图7的测序工作信息登记步骤的流程图。
36.图9为用于说明图4的测序数据处理步骤的流程图。
37.图10为用于进一步详细说明图9的数据预处理(pre-processing)步骤的流程图。
38.图11为简要说明图4的基因插入位点分析步骤的流程图。
39.图12为简要说明图4的项目结束步骤的流程图。
40.图13a为示出在图7的测序工作信息登记步骤中生成的下一代测序数据(ngsdata;fastq)的基本信息的图。
41.图13b为示出用于管理图13a的下一代测序数据(ngsdata;fastq)的基因插入位点信息数据库的实体关系模型(erd,entity-relationship diagram)的框图。
42.图14为示出在图10的分析对象用数据登记步骤中生成的基因插入位点信息数据库的分析对象表的实体组(entity group)的实体关系模型的框图。
43.图15a为在没有空白的情况下用于将图13b的碱基序列数据转换为二进制数的碱基序列转换表数据库。
44.图15b为在存在空白的情况下用于将图13b的碱基序列数据转换为二进制数的碱基序列转换表数据库。
具体实施方式
45.以下,参照附图详细说明多个实施例。但应当理解的是,实施例可产生多种变更,因此,本技术的发明要求保护范围并不局限或限定于实施例。实施例的所有变更、等同技术方案及替代技术方案均属于保护范围。
46.用于实施例的术语仅用于说明,不应解释为限定含义。除非在文脉上明确表示其他含义,否则单数的表达包括复数的表达。在本说明书中,“包括”或“具有”等术语仅用于指定本说明书中所记载的特征、数字、步骤、工作、结构要素、部件或其组合的存在,并不预先排除一个或一个以上的其他特征、数字、步骤、工作、结构要素、部件或其组合的存在或附加可能性。
47.除非另有定义,否则包括技术术语或科学术语在内的在此使用的所有术语的含义与本发明所属技术领域的普通技术人员通常理解的含义相同。通常使用的词典中定义的术语应解释成含义与相关技术在文脉上所具有的含义相同,除非在本说明书中明确定义,否则不应以理想化或过于形式化的含义加以解释。
48.并且,在参照附图进行说明的过程中,与附图标记无关地,对相同的结构要素赋予了相同的附图标记并省略对其的重复说明。在说明实施例的过程中,当判断为有关公知技术的具体说明有可能不必要地混淆本发明的主旨时,将省略其详细说明。
49.并且,当说明本发明的结构要素时,可使用第一、第二、a、b、(a)、(b)等术语。这种术语仅用于对一个结构要素和其他结构要素进行区分,相应结构要素的本质或次序或顺序等并不限定于上述术语。当某结构要素与另一结构要素“相连接”、“相结合”或“相联接”时,不仅表示某结构要素可直接与另一结构要素相连接或相联接,而且,也可理解为各个结构要素通过其他结构要素“相连接”、“相结合”或“相联接”。
50.针对本发明一实施例包括的结构要素、具有共同功能的结构要素可在其他实施例使用相同名称进行说明。除非存在相反的记载,否则本发明一实施例记载的说明也可适用于其他实施例,并且,将省略重复范围内的具体说明。
51.以下,参照图1至图15b说明本发明一实施例的插入有特定基因的干细胞治疗剂的基因插入位点分析系统(以下,称为“基因插入位点分析系统”)10及其方法。作为参考,图1为用于说明本发明一实施例的基于云计算技术的插入有特定基因的干细胞治疗剂的基因插入位点分析系统10的运行概念的示意图。图2为简要示出图1的基因插入位点分析系统10
为了执行基因插入位点分析而管理与客户的合同、从客户接收基因插入后传代培养的干细胞并执行dna提取、库构建、测序数据生成、测序数据质量管理及分析、基因插入位点分析、基因插入位点分析报告书制定及项目管理的一系列业务流程的框图。图3a为用于说明本发明一实施例的基因插入位点分析系统10的结构框图,图3b为示出图3a的基本信息管理模块21的结构框图,图3c为示出图3a的基本信息数据库41的结构框图。
52.参照图1至图2,基因插入位点分析系统(gene integration site analysis system)10可应用云计算(cloud computing)技术及软件即服务(saas,service as a software)技术来使得国内外的许多研究人员将其作为独立系统使用。并且,基因插入位点分析系统10可根据客户请求执行dna提取、库构建、测序数据处理及分析、基因插入位点分析,并执行报告书制定工作,从而对包括为了对提取客户请求的插入有特定基因的干细胞进行传代培养的碱基序列分析临床实验计划审批申请(ind,investigational new drug)而制定报告书的全部过程进行综合管理。
53.参照图3a至图3c,基因插入位点分析系统10包括基本信息管理单元20、基因插入位点分析单元30及数据库管理单元40。
54.基本信息管理单元20包括:基本信息管理模块21,用于管理运行基因插入位点分析系统10所需的基本信息。基本信息管理模块21包括:公司信息管理模块211,用于管理公司信息数据库411;用户信息管理模块212,用于管理用户信息数据库212;参照基因组信息管理模块213,用于管理参照基因组(人类基因组(grch/hg38))信息数据库413;癌症中体细胞突变目录信息管理模块214,用于管理癌症体细胞突变目录(cosmic,catalogue of somatic mutations in cancer)信息数据库414;设备信息管理模块215,用于管理工作执行设备信息数据库415;人力信息管理模块216,用于管理人力信息数据库416;物料信息管理模块217,用于管理物料信息数据库417;标准工作信息管理模块218,用于管理为了获取插入有特定基因的干细胞的碱基序列数据而执行各种工作(dna提取、库构建、lam-pcr扩增、下一代测序(ngs sequencing)等)所需的标准工作信息数据库418;碱基序列转换表管理模块219,用于管理将碱基序列数据转换为二进制数所需的碱基序列转换表数据库419;代码信息管理模块21a,用于管理代码信息数据库41a;以及参数信息管理模块21b,用于管理参数信息数据库41b。
55.基因插入位点分析单元30基于客户请求生成订购订单,在签订合同后,登记合同信息并开始管理项目,接收客户插入有基因的细胞并经过dna提取、库构建、lam-pcr扩增、下一代测序分析步骤来执行基因插入位点分析,从而制定最终报告书并提交给客户来执行项目结束处理。基因插入位点分析单元30包括:订单信息管理模块31,用于管理各种订单信息(客户订购订单、dna提取工作订单、库构建订单、测序订单);合同信息管理模块32,用于管理与客户的合同信息;项目管理模块33,用于管理履行客户合同所需的项目信息;分析模块34,利用作为测序订单结果的测序数据分析基因插入位点;以及项目成果管理模块35,用于向客户提交分析结果并结束项目。
56.订单信息管理模块31按照与客户协议确定的合同条件在订单信息数据库42登记订购订单信息、自己制作或外包制作(dna提取工作、库构建、lam-pcr扩增、下一代测序)等工作订单信息、所需物料的购买订单信息。合同信息管理模块32在合同信息数据库43中登记与客户协议确定的合同信息。项目管理模块33在项目信息数据库44登记客户的订购信息
及与合同信息相关的项目信息。基因插入分析模块34提取下一代测序数据及用于基因插入分析的数据并登记在基因插入位点信息数据库45。项目成果管理模块35在项目进展信息数据库46登记项目进展信息、基因插入位点分析结果。
57.数据库管理单元40包括基本信息数据库41、订单信息数据库42、合同信息数据库43、项目信息数据库44、基因插入位点信息数据库45、项目进展信息数据库46。
58.基本信息数据库41包括公司信息数据库411、用户信息数据库412、参照基因组信息数据库413、癌症中体细胞突变目录信息数据库414、设备信息数据库415、人力信息数据库416、物料信息数据库417、标准工作信息数据库418、代码信息数据库41a、参数信息数据库41b,使得数据库管理系统(dbms,data base management system)管理基本信息管理单元20及基因插入位点分析单元30的各个模块生成或参照的数据。
59.其中,公司信息数据库411包括运营公司及客户(企业、公共机构、大学等)的商业登记号码或固定号码、序列号、组织名称、代表电话号码、传真号码、地址、代表姓名等。用户信息数据库412包括姓名、密码、联系信息(手机、办公室、传真等)、邮箱地址、职位代码、权限代码、邮件接收状态、sms消息接收状态等。参照基因组信息数据库413包括通过人类基因组项目(hgp,human genome project)确认的人类基因种类和功能信息,可参照美国国家生物技术信息中心(ncbi,national center for biotechnology information)管理的数据库,或者,可通过复制存储在本地计算机来参照。癌症中体细胞突变目录信息数据库414包括基因名称、entrez数据库的身份证标识(id)号、基因位点(染色体插入位点(integration site)的起始位点、结束位点)、对于癌的作用等信息。设备信息数据库415包括设备号码、设备名称、设备规格、设备制造商、购买价格、每小时的使用价格等信息。人力信息数据库416包括执行工作的工作人员所需的能力信息、每小时的使用价格等信息。物料信息数据库417包括与标准工作信息数据库418所需物料信息相对应的物料号码、物料名称、投入单位、单价、供应商代码信息等。标准工作信息数据库418包括用于管理分析基因插入位点信息所需的各种工作信息的工作号码、工作名称、工作时间、执行工作的设备信息、所需物料信息、执行工作的工作人员所需的能力信息、前后工作信息等。碱基序列转换表数据库419可为了将基因组的碱基序列(作为dna的基本单位核苷酸的组成成分中的一种的核碱基(按照顺序排列a(腺嘌呤)、t(胸腺嘧啶)、g(鸟嘌呤)、c(胞嘧啶))数据有效存储为转换表而将4字节(byte)(32位(bit))转换为可变位(1位~8位)字节。代码信息数据库41a包括标准工作信息号码、标准设备使用时间、标准物料代码、标准物料消耗量、标准人工成本代码、标准工作时间、标准工作单价信息等。代码信息数据库包括各种代码信息。参数信息数据库41b包括噪声(noise)基准值、相同基因的合计间隔、测序分析量、细胞种类、感染病毒种类、插入基因种类、基因插入位点(integration site)前后映射(mapping)误差(噪声数据(noise data))范围、当相同基因的转录位点(transcription site)在规定范围内时视作相同位点的规定范围值、在将混合样本(pooled sample)视作对象时的测序分析量值(1g、3g、10g等)等信息。
60.以下,参照图4至图15b说明应用本发明实施例的基因插入位点分析系统10对被插入有特定基因的病毒感染的干细胞治疗剂的每个传代培养物及每个染色体的基因插入位点进行分析的方法。作为参考,图4为简要说明利用图3a的基因插入位点分析系统10对客户请求的插入有特定基因的干细胞进行基因插入位点分析并将其结果提交给客户的方法的
流程图。图5为用于说明图4的基本信息管理步骤100的流程图。图6为用于说明图4的项目开始步骤200的流程图,图7为用于说明图6的项目执行步骤250的流程图,图8为用于说明图7的测序工作信息登记步骤254的流程图。图9为用于说明图4的测序数据处理步骤300的流程图,图10为用于说明图9的数据预处理(pre-processing)步骤310的流程图。图11为用于说明图4的基因插入位点分析步骤400的流程图。图12为用于说明图4的项目结束步骤500的流程图。而且,图13a为示出在图7的测序工作信息登记步骤254生成的下一代测序数据(fastq)的基本信息的图,图13b为示出用于管理图13a的下一代测序数据(fastq)的基因插入位点信息数据库的实体关系模型(erd,entity-relationship diagram)的框图。图14为示出在图10的分析对象用数据登记步骤314生成的基因插入位点信息数据库的分析对象表的实体组(entity group)的实体关系模型的框图。图15a及图15b为用于将图13b的碱基序列数据转换为二进制数的碱基序列转换表数据库,图15a为没有空白情况下的数据库,图15b为存在空白情况下的数据库。
61.首先,在基本信息管理步骤100中,将基本信息记录在各个数据库。
62.具体地,参照图5,在基本信息管理步骤100中,当步骤被划分为准备步骤时,通过公司信息管理模块211在公司信息数据库411中登记运行基因插入位点分析系统10的公司信息(111),通过用户信息管理模块212在用户信息数据库412中登记属于运行公司的用户信息(112),通过参照基因组信息管理模块213在参照基因组信息数据库413中登记参照基因组信息(113),通过癌症中体细胞突变目录信息管理模块214在癌症中体细胞突变目录信息数据库414中登记包括癌症体细胞突变目录的癌症中体细胞突变目录信息(114),通过设备信息管理模块215在设备信息数据库415中登记为了获取插入有特定基因的干细胞的碱基序列数据而执行各种工作的设备信息(115),通过人力信息管理模块216在人力信息数据库416中登记执行相应工作所需的人力信息(所需能力、每小时的单价等)(116),通过物料信息管理模块217在物料信息数据库417中登记执行相应工作所需的物料信息(117),通过标准工作信息管理模块218在标准工作信息数据库418中登记相应工作的标准工作信息(118),通过碱基序列转换表管理模块219在碱基序列转换表数据库419中登记用于压缩碱基序列信息的碱基序列转换表(119),通过代码信息管理模块21a在代码信息数据库41a中登记运行系统所需的代码信息(11a),通过参数信息管理模块21b在参数信息数据库41b中登记运行系统所需的各种参数(11b)。
63.而且,当步骤被划分为运行步骤时,若挖掘新客户,则通过公司信息管理模块211在公司信息数据库411中登记客户信息(11c),通过用户信息管理模块212在用户信息数据库412中登记属于客户公司的用户信息(11d),通过参数信息管理模块21b在参数信息数据库41b中登记符合客户要求的参数信息(11e)。
64.再次参照图4,在基本信息管理步骤100之后,执行项目开始步骤200。
65.参照图6,在项目开始步骤200中,利用估算管理210将与客户的协议过程登记在项目信息数据库44。当签订协议并接收结果订单时,在订单信息数据库42中登记订购信息(220),在合同信息数据库43中登记基于订单信息的合同条件(230),为了客户的传代培养管理而在项目进展数据库44中登记项目信息(240),由此开始项目执行步骤250。
66.而且,参照图7,在项目执行步骤250中,接收客户传代培养的细胞及相关信息并登记在项目进展信息数据库46(251),为了dna提取工作而在订单信息数据库42及项目进展信
息数据库46登记dna提取工作订单信息(252),为了库构建工作而在订单信息数据库42及项目进展信息数据库46登记库构建工作订单信息(253),为了测序工作而在订单信息数据库42及项目进展信息数据库46登记测序工作信息(254)。
67.并且,参照图8,在测序工作信息登记步骤254中,在下一代测序工作人员从头到尾依次读取与工作结果一并提交的测序数据(fastq)的过程中(2541),若读取到最后记录的测序数据,则将测序工作结果信息登记在基因插入位点信息数据库45及项目进展信息数据库46(2548)。
68.在依次读取测序数据的过程中(2541),若所读取的测序数据记录为4的倍数+1且属于第一记录(n=0),则登记在标头表(fastqheader)1302,与测序数据的前导(图13b的第一行)相对应,因此,提取标头信息的固有值(固定信息)并登记在基因插入位点信息数据库45的固定信息表(fastq_line#1-overview)1303(2542),将标头信息的可变值(可变信息)登记在基因插入位点信息数据库45的可变信息表(fastq_line#1-detail)1304(2543),接着读取下一记录(2541)。
69.并且,在依次读取测序数据的过程中(2541),若所读取的测序数据记录为4的倍数+2,则属于碱基序列数据,因此,可按照4字节(4byte)读取从碱基序列转换表数据库419的参考序列表(reference sequence)1301中确认相应值(可变二进制数,1位~8位)。例如,参照图15a,在碱基序列aaaa的情况下,二进制数为0,在碱基序列aaac的情况下,二进制数为1,在碱基序列tttg的情况下,二进制数为1111110,在碱基序列tttt的情况下,二进制数为11111111。将所确认的值登记在基因插入位点信息数据库45的碱基信息表(fastq_line#2_detail-char)1305后,执行4字节(byte)处理。当按照上述方式处理时,如图13b所示,读取151字节后,将148字节(1184位)转换为位点信息(84位)、转换信息(261位),压缩率达到71.9%。并且,若在按照4字节读取的数据中存在1个至3个空白,则在碱基序列转换表数据库419的参考序列表1301中确认相应值(可变二进制数,1位~8位),参照图15b的碱基序列转换表赋予相应二进制数。例如,在aaab的情况下,二进制数为0,在aacb的情况下,二进制数为1,在tttb的情况下,二进制数为111111,在aabb的情况下,二进制数为1000000,在tbbb的情况下,二进制数为1010011。如图13b所示,剩余3字节(空白1字节,4字节32位)、位点信息(6位)、转换信息(6位)的12位管理,因此,压缩率达到62.5%。将按照上述方式确认的值登记在基因插入位点信息数据库45的碱基信息表(fastq_line#2_detail-blank)1306后,执行4字节(byte)处理。并且,若所读取的数据包括n或u,则属于错误信息,因此,将其登记在基因插入位点信息数据库45的碱基信息-错误表(fastq_line#2_detail-not match)2545后,接着读取下一记录(2541)。其中,在如图13b所示的情况下,因没有错误数据而无法登记。
70.并且,在依次读取测序数据的过程中(2541),若所读取的测序数据记录为4的倍数+3,则表示简单连接(值为“+”),接着读取下一记录(2546)。
71.而且,在依次读取测序数据的过程中(2541),若所读取的测序数据记录为4的倍数+4,则表示质量分数(quality score)值,应用数据压缩技术(霍夫曼编码方法(huffman coding method))进行压缩来将其登记在基因插入位点信息数据库45的碱基信息-质量分数表(fastq_line#4_quality score)1308(2547),接着读取下一记录(2541)。例如,如图13b所示,当通过霍夫曼编码方法(huffman coding method)转换时,151字节(1208位)被压
缩为39字节及55位(7字节),压缩率达到74.2%。
72.再次参照图4,在项目开始步骤200之后,执行测序数据处理步骤300。
73.参照图9,测序数据处理步骤300包括数据预处理(pre-processing)步骤310、数据结构化步骤320、数据标注登记步骤330、分析用数据提取登记步骤340。
74.参照图10,数据预处理步骤310包括无用数据删除步骤311、参照数据映射步骤312、重复数据删除步骤313及分析对象用数据登记步骤314。
75.其中,测序数据处理步骤300是指普通基因组碱基序列分析流程,用于分析基因组表达受特定环境影响的程度、分析引起疾病的基因等。但是,在本发明实施例中,为了分析功能增强用插入有特定基因的干细胞而需要执行对每个传代培养物及染色体基因的插入位点相关分析,因此,可省略数据预处理步骤310的无用数据删除步骤311、重复数据删除步骤313。
76.并且,在参照数据映射步骤312中,在按照逆顺序执行测序工作信息登记步骤254的同时将数据二进制化的部分(4n+2行(line))转换为原始数据,并将所转换的原始数据映射在参照基因组信息数据库413来确认基因信息(312)。而且,在所确认的基因信息中删除重复数据(313),或者,在不删除的情况下,将分析对象用数据登记在基因插入位点信息数据库45的分析对象数据表(314)。
77.在数据结构化步骤320中,当数据分布在特定基因的特定基因插入位点(integration site)的前后部分时,执行合并步骤(320)。
78.在数据标注登记步骤330中,执行与邻近基因关联或基因本体分析、基因组特征关联分析及将峰值与基因表达数据关联等工作。
79.在分析用数据提取登记步骤340中,生成用于基因插入位点分析的数据并登记在基因插入位点信息数据库45的分析对象数据表。
80.再次参照图4,在测序数据处理步骤300之后,执行基因插入位点分析步骤400。
81.参照图11,基因插入位点分析步骤400包括检索条件设定步骤410、分析方法选择步骤420、分析报告书确认步骤430及分析结果登记步骤440。
82.在检索条件设定步骤410中,设定用于在测序数据处理步骤300生成的基因插入位点信息数据库45检索的条件值。即,为了按照上一传代数或特定传代数检索客户信息、项目信息、传代培养信息而设定检索条件。
83.接着,利用所设定的检索条件搜索数据后,确定分析方法(420),通过执行所确定的分析方法并经过搜索执行报告书确认步骤430来在项目进展信息数据库46中登记分析结果(440)。
84.其中,对每个传代培养物分析基因插入位点的过程如下所示,对从骨髓同时采集的间充质干细胞和插入有多个基因的间充质干细胞在相同条件下进行传代培养并利用t值(t-value)技术比较分析表达量信息。其中,作为表达量信息包含每个传代的总表达量、基因总数量、每个生物型的表达量、每个染色体的表达量、每个染色体的基因数量、每个染色体和生物型的表达量、每个基因的表达量、插入基因的表达量、与插入基因相邻的基因及上述插入基因的表达量等。通过t值技术比较上述两个样本组之间的平均值,如下述式(1)所示:
85.式(1)
[0086][0087]
其中,t为样本平均差的统计指标,为两个样本组的平均差,为两个样本组之间平均差异的不确定性。
[0088]
不确定性可由以下式(2)表示:
[0089]
式(2)
[0090][0091]
其中,s1、s2为各个样本的标准偏差(standard deviation),n1、n2为各个样本的数量。
[0092]
由此,可基于式(1)及式(2)表示以下式(3):
[0093]
式(3)
[0094][0095]
另一方面,若假设两个样本组的n1与n2相同且方差相同,则式(3)可由以下式(4)表示:
[0096]
式(4)
[0097][0098]
其中,s
p
为并合标准偏差(pooled standard deviation),由表示。
[0099]
并且,若假设两个样本组的n1与n2不同且方差相同,则式(3)可由式(5)表示:
[0100]
式(5)
[0101][0102]
其中,
[0103]
再次参照图4,在基因插入位点分析步骤400之后,执行项目结束步骤500。
[0104]
参照图12,项目结束步骤500包括分析报告书提交步骤510、客户反馈登记步骤520、总投入成本计算及收款步骤430、项目结束处理步骤540。
[0105]
在分析报告书提交步骤510中,通过参照在基因插入位点分析步骤400登记的项目进展信息数据库46并按照pdf文件制定插入有特定基因的干细胞治疗剂的基因插入位点分析报告书来提交给客户。
[0106]
接着,通过接收客户对于分析报告书的反馈来在项目进展信息数据库46中登记客户反馈(520)。而且,若接收客户反馈,则参照订单信息42的工作订单数据库42确认工作时间、所需物料、投入人力及时间信息等来计算总投入成本,随后,将其登记在项目进展信息数据库46来要求客户付款(430)。并且,通过比较标准成本信息、总投入成本计算及在收款步骤中计算的总投入成本来计算损失,随后,将其登记在项目进展信息数据库46并结束处理项目(540)。
[0107]
以上,虽然参照限定性附图说明了实施例,但是,本发明所属技术领域的普通技术人员可基于以上内容进行多种技术性修改及变形。例如,即使所说明的技术以与所说明的方法不同的顺序执行和/或所说明的系统、结构、装置、电路等结构要素以与所说明的方法不同的实施方式结合或组合,或者,即使被其他结构要素或等同技术方案所代替或置换也可实现适当结果。
[0108]
因此,其他实施方式、其他实施例及等同于发明要求保护范围的内容也属于本发明的保护范围内。
技术特征:
1.一种插入有特定基因的干细胞治疗剂的基因插入位点分析系统,其特征在于,包括:基本信息管理单元,用于管理运行插入有特定基因的干细胞治疗剂的基因插入位点分析系统所需的代码信息、设备信息、工作人员信息、工作信息、客户信息、合作企业信息、参数信息、参照基因信息、致癌基因信息及碱基序列转换表信息;基因插入位点分析单元,用于管理上述基因插入位点分析系统所需的订单信息、合同信息、项目信息、基因插入位点分析信息及项目执行结果信息,上述订单信息包括客户订购、工作指示、物料订购信息;以及数据库管理单元,用于管理由上述基本信息管理单元及上述基因插入位点分析单元生成或参照的基本信息数据库、订单信息数据库、合同信息数据库、项目信息数据库、基因插入位点信息数据库、碱基序列分析信息数据库及项目进展信息数据库,上述基本信息数据库包括公司信息数据库、用户信息数据库、参照基因组信息数据库、癌症中体细胞突变目录信息数据库、设备信息数据库、人力信息数据库、物料信息数据库、标准工作信息数据库、碱基序列转换表数据库、代码信息数据库、参数信息数据库。2.根据权利要求1所述的插入有特定基因的干细胞治疗剂的基因插入位点分析系统,其特征在于,上述基本信息管理单元包括基本信息管理模块,上述基本信息管理模块包括:公司信息管理模块,用于管理公司信息;用户信息管理模块,用于管理用户信息数据库;参照基因组信息管理模块,用于管理参照基因组信息数据库;癌症中体细胞突变目录信息管理模块,用于管理癌症中体细胞突变目录信息数据库;设备信息管理模块,用于管理设备信息数据库;人力信息管理模块,用于管理人力信息数据库;物料信息管理模块,用于管理物料信息数据库;标准工作信息管理模块,用于管理标准工作信息数据库;碱基序列转换表管理模块,用于管理碱基序列转换表数据库;代码信息管理模块,用于管理代码信息数据库;以及参数信息管理模块,用于管理参数信息数据库。3.根据权利要求1所述的插入有特定基因的干细胞治疗剂的基因插入位点分析系统,其特征在于,上述基因插入位点分析单元包括:订单信息管理模块,用于管理订单信息;合同信息管理模块,用于管理合同信息;项目管理模块,用于管理项目信息;基因插入位点分析模块,用于管理基因插入位点信息;以及项目成果管理模块,用于管理项目进展信息。4.一种插入有特定基因的干细胞治疗剂的基因插入位点分析方法,其特征在于,包括如下步骤:基本信息管理步骤,将运行插入有特定基因的干细胞治疗剂的基因插入位点分析系统所需的基本信息记录在数据库中;项目开始步骤,在项目信息数据库中登记与客户的协议过程,在订单信息数据库中登
记订购信息,在合同信息数据库中登记基于订单信息的合同条件,在项目进展数据库中登记项目信息,并执行项目;测序数据处理步骤,包括对上述项目执行步骤中生成的测序数据执行的数据预处理步骤、数据结构化步骤、数据标注登记步骤、分析用数据提取登记步骤;基因插入位点分析步骤,包括用于设定分析对象的检索条件设定步骤、分析方法选择步骤、用于确认分析结果的分析报告书确认步骤及在数据库中登记分析结果的步骤;以及项目结束步骤,制定待提交给客户的分析报告书,登记客户反馈,执行总投入成本计算及收款后结束项目。5.根据权利要求4所述的插入有特定基因的干细胞治疗剂的基因插入位点分析方法,其特征在于,上述项目执行步骤包括:测序工作信息登记步骤,为了测序工作而在订单信息数据库及项目进展信息数据库中登记测序工作信息,在上述测序工作信息登记步骤中,当从头到尾依次读取测序数据的过程中读取到最后记录时,将测序工作结果信息登记在基因插入位点信息数据库及项目进展信息数据库中。6.根据权利要求5所述的插入有特定基因的干细胞治疗剂的基因插入位点分析方法,其特征在于,在上述测序工作信息登记步骤中,读取上述测序数据为4的倍数+1的记录,将重复的数据登记为一个固有值,将可变值分开并登记在额外的记录中。7.根据权利要求5所述的插入有特定基因的干细胞治疗剂的基因插入位点分析方法,其特征在于,在上述测序工作信息登记步骤中,以4个字节为单位读取上述测序数据为4的倍数+2的记录来将碱基序列转换表数据库中的相应值转换为二进制数。8.根据权利要求7所述的插入有特定基因的干细胞治疗剂的基因插入位点分析方法,其特征在于,当以4个字节为单位从上述测序数据中读取的值存在n或u或者上述碱基序列转换表数据库中没有相应值时,将值存储在基因插入位点信息数据库的碱基信息错误表中。9.根据权利要求5所述的插入有特定基因的干细胞治疗剂的基因插入位点分析方法,其特征在于,在上述测序工作信息登记步骤中,将上述测序数据为4的倍数+4的记录作为质量分数压缩并存储在基因插入位点信息数据库(45)的碱基信息质量分数表中。10.根据权利要求4所述的插入有特定基因的干细胞治疗剂的基因插入位点分析方法,其特征在于,生成用于上述基因插入位点分析的数据并对每个传代培养物进行分析来将其数据登记在基因插入位点信息数据库中,对每个传代培养物及每个染色体的基因之间的相关关系进行分析。11.根据权利要求10所述的插入有特定基因的干细胞治疗剂的基因插入位点分析方法,其特征在于,在上述基因插入位点分析步骤中,对从骨髓同时采集的间充质干细胞和插入有多个基因的间充质干细胞在相同条件下进行传代培养并利用t值技术比较分析表达量信息。12.根据权利要求11所述的插入有特定基因的干细胞治疗剂的基因插入位点分析方法,其特征在于,对于上述表达量信息,比较分析每个传代的总表达量、基因总数量、每个生物型的表达量、每个染色体的表达量、每个染色体的基因数量、每个染色体和生物型的表达
量、每个基因的表达量、插入基因的表达量、与插入基因相邻的基因及上述插入基因的表达量。
技术总结
插入有特定基因的干细胞治疗剂的基因插入位点分析系统包括:基本信息管理单元,用于管理运行插入有特定基因的干细胞治疗剂的基因插入位点分析系统所需的信息;基因插入位点分析单元,用于管理上述基因插入位点分析系统所需的信息;以及数据库(DB)管理单元,用于管理由上述基本信息管理单元及上述基因插入位点分析单元生成或参照的数据库(DB)。点分析单元生成或参照的数据库(DB)。点分析单元生成或参照的数据库(DB)。
技术研发人员:徐海荣 金御珍 张多荣 金性洙 金湘浩
受保护的技术使用者:细胞和大脑有限公司
技术研发日:2021.08.27
技术公布日:2023/9/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/