甲基化标志物组合及甲状腺结节的良恶性预测系统
未命名
09-03
阅读:139
评论:0

1.本技术属于生物医药技术领域,涉及甲状腺结节,特别是涉及一种甲基化标志物组合及甲状腺结节的良恶性预测系统。
背景技术:
2.甲状腺癌发病率近年来呈快速上升趋势,目前占女性恶性肿瘤第四位,中国每年新发甲状腺癌超过190000例;其中,以病理类型乳头状癌的分化型甲状腺癌占比超过90%。甲状腺乳头状癌(英文全称:papillary thyroid cancer,简称ptc)预后良好,早期患者10年生存率可达90%,但是仍有约10%的中晚期患者在治疗过程中复发甚至死亡。因此,早期发现甲状腺癌可以大大提高患者生存率。
3.目前,甲状腺结节的良恶性鉴别仍是目前临床诊断的难点之一。甲状腺结节诊断主要依靠超声以及超声引导下的细针穿刺活检(英文全称:fine needle aspiration biopsy,简称:fnab),在fnab筛查中,70%为良性结节,5%可确认为恶性结节,但剩余的15-30%仍为不确定或可疑恶性。因此,甲状腺结节的良恶性鉴别对于增加ptc的早期确诊率非常关键。放射性碘131扫描是分化型甲状腺癌包括ptc癌灶残留、复发诊断、远端转移的一种常用标志物,总体灵敏度和特异性分别约76.6%,100%。虽特异性较高,但灵敏度尚不足以满足临床需求,并且放射性碘131扫描对患者身体也会造成一定的伤害。因此,寻找新的复发标志物也是ptc治疗的临床需求之一。
4.甲状腺腺瘤是由单一前体细胞发生基因突变或异常引起局部甲状腺增生、增殖的结果,是最常见的甲状腺良性肿瘤。甲状腺腺瘤可以发生在各个年龄阶段,以15~40岁中青年妇女多见,呈散发性,在发生群体和形态上较容易与甲状腺乳头状癌发生混淆。目前的分子诊断方法已广泛应用于临床诊断及预后,但这些方法适用范围相当有限并且敏感性仍有待提高。因此,我们亟需其他辅助手段来提高恶性肿瘤的检出率。
5.目前,分子诊断方法已广泛应用于临床。gene expression classifier应用较为普遍,但其阳性预测值(positive predictive value,ppv)只有47%,而且只能对新鲜的穿刺组织进行检测,限制了一些样本的应用;thyroseqv2检测良性结节经常携带的h/k/nras基因突变和ret/ptc基因重排,其ppv只有42%-77%;此外,diagnostic dna methylation signature approach(ddms)是一种基于dna甲基化特征的诊断方法,用于甲状腺癌良恶性组织的鉴别,尽管该方法准确性很高,但文章中提到有部分样本由于技术原因无法用该方法检测。
技术实现要素:
6.本技术的目的在于提供一种甲基化标志物组合及甲状腺结节的良恶性预测系统,用于解决上述背景技术中指出的问题。
7.第一方面,本技术提供一种甲基化标志物组合,用于甲状腺结节的良恶性预测,所述甲基化标志物组合至少包括人类参考基因组hg19中的任意一个基因。
8.本技术中,提供一种甲基化标志物组合,用于基于该甲基化标志物组合实现甲状腺结节的良恶性预测,进而实现了甲状腺结节精准诊断的目的。
9.于第一方面的一实现方式中,所述甲基化标志物组合至少包括以下任意一种甲基化标志物或者任意两种以上的组合:chr10:127755315:127755329,chr10:131540647:131540665,chr10:7583263:7583585,chr1:1009436:1009446,chr11:132223348:132223362,chr1:12655938:12655986,chr1:12656049:12656087,chr1:12656114:12656212,chr1:150131152:150131195,chr11:57194421:57194572,chr11:61467427:61467677,chr1:16469961:16470254,chr11:66485659:66485748,chr11:68776334:68776454,chr1:206728940:206729178,chr12:113709826:113709917,chr12:130921495:130921516,chr12:132658230:132658253,chr12:52473498:52473570,chr12:53617281:53617288,chr13:110434440:110434531,chr13:20993965:20994635,chr1:3225535:3225554,chr1:3458732:3458796,chr14:105339256:105339324,chr1:44024150:44024343,chr1:53742533:53742563,chr16:1040885:1041345,chr16:2221016:2221027,chr16:29196138:29196163,chr1:64135451:64135481,chr16:49544665:49544684,chr1:68219906:68219961,chr16:83987072:83987089,chr17:17615143:17615260,chr17:3822436:3822454,chr17:40822524:40822748,chr17:48764006:48764335,chr17:70335343:70335440,chr17:70419210:70419362,chr17:75303167:75303253,chr17:79005616:79005733,chr18:55888640:55889088,chr19:10405083:10405335,chr19:15292472:15292542,chr19:18266683:18266849,chr19:1860594:1860609,chr19:2045657:2045679,chr19:3617663:3617702,chr19:3821072:3821102,chr19:41224085:41224106,chr19:448011:448049,chr19:7915447:7915463,chr20:24745681:24745742,chr20:25990346:25990604,chr20:2732865:2732896,chr20:2732998:2733010,chr20:31097645:31097727,chr20:61049497:61049538,chr2:10546789:10546852,chr2:128158772:128159132,chr21:45323571:45323636,chr21:45559747:45560004,chr21:46036642:46036672,chr2:1480873:1480884,chr2:1481089:1481102,chr22:20779825:20779953,chr22:23605452:23605541,chr22:37419994:37420244,chr22:37942889:37943008,chr22:39674250:39674276,chr2:240291097:240291139,chr22:41723277:41723297,chr2:70823560:70823648,chr2:74663609:74663632,chr3:11079301:11079330,chr3:159818521:159818593,chr3:188012659:188012871,chr4:2258125:2258156,chr4:3485902:3485969,chr5:134582973:134583003,chr5:2112081:2112150,chr5:2740854:2740958,chr7:150069577:150069596,chr7:503736:503749,chr7:97912991:97913187,chr8:142237074:142237189,chr8:142339487:142339516,chr8:145726411:145726428,chr8:21647438:21647458,chr9:100503661:100503726,chr9:127057543:127057640,chr9:139582595:139582615,chr9:94443901:94443909。
10.第二方面,本技术提供一种基于上述的甲基化标志物组合实现的甲状腺结节的良恶性预测系统,所述甲状腺结节的良恶性预测系统包括:cpg位点检测模块,所述cpg位点检测模块用于采用简化基因组甲基化测序技术检测样本的所述甲基化标志物组合中,每一甲基化标志物的cpg位点;dna甲基化水平计算模块,所述dna甲基化水平计算模块用于根据所述cpg位点计算所述甲基化标志物的平均甲基化比例;所述平均甲基化比例作为所述甲基
化标志物的dna甲基化水平;模型构建模块,所述模型构建模块用于基于所述甲基化标志物组合构建数学模型;概率计算模块,所述概率计算模块用于根据所述数学模型和所述dna甲基化水平计算所述样本的恶性预测概率;良恶性预测模块,所述良恶性预测模块用于根据所述恶性预测概率预测所述样本的甲状腺结节的良恶性。
11.本技术中,为了解决针对目前诊断甲状腺乳头状癌和良性腺瘤的准确率不高的难题,提供一种基于甲基化标志物构建的数学模型用于辅助诊断的分子检测方法,特别涉及一种利用甲基化标志物组合检测甲状腺结节良恶性的方法,基于甲基化标志物的dna甲基化水平,利用数学模型分辨甲状腺良性结节和恶性结节,实现了甲状腺结节精准诊断的目的。
12.于第二方面的一实现方式中,所述良恶性预测模块用于根据所述恶性预测概率预测所述样本的甲状腺结节的良恶性包括:在所述恶性预测概率满足预设恶性条件时,判定所述样本的甲状腺结节为恶性;在所述恶性预测概率不满足所述预设恶性条件时,判定所述样本的甲状腺结节为良性。
13.于第二方面的一实现方式中,所述预设恶性条件为:所述恶性预测概率大于预设恶性概率阈值。
14.于第二方面的一实现方式中,所述甲状腺结节的良恶性预测系统还包括:阈值计算模块,所述阈值计算模块用于基于所述数学模型计算所述预设恶性概率阈值。
15.于第二方面的一实现方式中,所述平均甲基化比例的计算公式为:
[0016][0017]
其中,m表示所述甲基化标志物的cpg位点的总个数;n
c,i
表示第i个cpg位点甲基化的测序reads数;n
t,i
表示第i个cpg位点未甲基化的测序reads数。
[0018]
于第二方面的一实现方式中,所述概率计算模块包括:第一计算单元和第二计算单元;其中,所述第一计算单元用于计算所述数学模型的输入z;所述数学模型为逻辑回归模型;所述输入z的计算公式为:
[0019][0020]
其中,n表示所述甲基化标志物组合中甲基化标志物的总个数;wj表示第j个甲基化标志物的逻辑回归模型系数;xj表示第j个甲基化标志物的dna甲基化水平;w0表示逻辑回归模型截距;
[0021]
所述第二计算单元用于基于所述输入z计算所述恶性预测概率σ(z);所述恶性预测概率σ(z)的计算公式为:
[0022]
σ(z)=1/(1+e-z
)。
[0023]
于第二方面的一实现方式中,所述样本为甲状腺结节活检物。
[0024]
于第二方面的一实现方式中,所述甲状腺结节活检物为细针穿刺活检物。
[0025]
如上所述,本技术所述的甲基化标志物组合及甲状腺结节的良恶性预测系统,具有以下
[0026]
有益效果:
[0027]
与现有技术相比,本技术为了解决针对目前鉴别甲状腺乳头状癌和良性腺瘤的准确率不高的难题,提供一种基于甲基化标志物构建的数学模型用于辅助诊断的分子检测方
法,特别涉及一种利用甲基化标志物组合检测甲状腺结节良恶性的方法;此外,本技术提供了对样本的甲基化标志物,基于其dna甲基化水平利用数学模型分辨甲状腺良性结节和恶性结节,实现甲状腺结节精准诊断的目的。
附图说明
[0028]
图1显示为本技术的甲状腺结节的良恶性预测系统于一实施例中的结构示意图。
[0029]
图2显示为本技术的概率计算模块于一实施例中的结构示意图。
[0030]
图3显示为本技术的数学模型于一实施例中在训练集和验证集1中诊断恶性结节的roc曲线的示意图。
[0031]
图4显示为本技术的以恶性预测概率作为评分对ptc未复发与复发患者进行非参数wilcoxon秩和检验于一实施例中的示意图。
具体实施方式
[0032]
以下通过特定的具体实施例说明本技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本技术的其他优点与功效。本技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0033]
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本技术的基本构想,图示中仅显示与本技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0034]
参阅图1至图4。本技术的甲基化标志物组合及甲状腺结节的良恶性预测系统,与现有技术相比,本技术为了解决针对目前鉴别甲状腺乳头状癌和良性腺瘤的准确率不高的难题,提供一种基于甲基化标志物构建的数学模型用于辅助诊断的分子检测方法,特别涉及一种利用甲基化标志物组合检测甲状腺结节良恶性的方法;此外,本技术提供了对样本的甲基化标志物,基于其dna甲基化水平利用数学模型分辨甲状腺良性结节和恶性结节,实现甲状腺结节精准诊断的目的。
[0035]
下面通过具体实施例来详细解释说明本技术的甲基化标志物组合及甲状腺结节的良恶性预测系统。
[0036]
甲基化,是指从活性甲基化合物上将甲基催化转移到其他化合物的过程,可形成各种甲基化合物,或是对某些蛋白质或核酸等进行化学修饰形成甲基化产物。在生物系统内,甲基化是经酶催化的,这种甲基化涉及重金属修饰、基因表达的调控、蛋白质功能的调节以及核糖核酸加工。
[0037]
分子诊断,除了甲状腺恶性肿瘤的早期诊断,还包括甲状腺恶性肿瘤晚期诊断,且也包括甲状腺恶性肿瘤筛选、风险评估、预后、疾病识别;其中,早期诊断指的是在转移之前发现癌症的可能性,优选在可观察到组织或者细胞的形态学变化之前。
[0038]
于一实施例中,本技术提供一种甲基化标志物组合,用于甲状腺结节的良恶性预测,所述甲基化标志物组合至少包括人类参考基因组hg19中的任意一个基因。
[0039]
需要说明的是,人类参考基因组hg19,是拉丁文字描述为homo sapiens grch37或ncbi build 37的,指一个去除了多态性基因组序列,它是由美国国立卫生研究院(national institutes of health)的国家基因组研究所(national center for biotechnology information)负责分布。这个参考基因组由美国国家基因组研究所开发的基因数据库,同时也由专家小组进行经验调整,其内容涵盖了人类基因组的99.9%,包括染色体和编码序列以及非编码序列,这些可以有效分析和比较人类基因组中的变异类型。
[0040]
于一实施例中,所述甲基化标志物组合至少包括以下任意一种甲基化标志物或者任意两种以上的组合:chr10:127755315:127755329,chr10:131540647:131540665,chr10:7583263:7583585,chr1:1009436:1009446,chr11:132223348:132223362,chr1:12655938:12655986,chr1:12656049:12656087,chr1:12656114:12656212,chr1:150131152:150131195,chr11:57194421:57194572,chr11:61467427:61467677,chr1:16469961:16470254,chr11:66485659:66485748,chr11:68776334:68776454,chr1:206728940:206729178,chr12:113709826:113709917,chr12:130921495:130921516,chr12:132658230:132658253,chr12:52473498:52473570,chr12:53617281:53617288,chr13:110434440:110434531,chr13:20993965:20994635,chr1:3225535:3225554,chr1:3458732:3458796,chr14:105339256:105339324,chr1:44024150:44024343,chr1:53742533:53742563,chr16:1040885:1041345,chr16:2221016:2221027,chr16:29196138:29196163,chr1:64135451:64135481,chr16:49544665:49544684,chr1:68219906:68219961,chr16:83987072:83987089,chr17:17615143:17615260,chr17:3822436:3822454,chr17:40822524:40822748,chr17:48764006:48764335,chr17:70335343:70335440,chr17:70419210:70419362,chr17:75303167:75303253,chr17:79005616:79005733,chr18:55888640:55889088,chr19:10405083:10405335,chr19:15292472:15292542,chr19:18266683:18266849,chr19:1860594:1860609,chr19:2045657:2045679,chr19:3617663:3617702,chr19:3821072:3821102,chr19:41224085:41224106,chr19:448011:448049,chr19:7915447:7915463,chr20:24745681:24745742,chr20:25990346:25990604,chr20:2732865:2732896,chr20:2732998:2733010,chr20:31097645:31097727,chr20:61049497:61049538,chr2:10546789:10546852,chr2:128158772:128159132,chr21:45323571:45323636,chr21:45559747:45560004,chr21:46036642:46036672,chr2:1480873:1480884,chr2:1481089:1481102,chr22:20779825:20779953,chr22:23605452:23605541,chr22:37419994:37420244,chr22:37942889:37943008,chr22:39674250:39674276,chr2:240291097:240291139,chr22:41723277:41723297,chr2:70823560:70823648,chr2:74663609:74663632,chr3:11079301:11079330,chr3:159818521:159818593,chr3:188012659:188012871,chr4:2258125:2258156,chr4:3485902:3485969,chr5:134582973:134583003,chr5:2112081:2112150,chr5:2740854:2740958,chr7:150069577:150069596,chr7:503736:503749,chr7:97912991:97913187,chr8:142237074:142237189,chr8:142339487:142339516,chr8:145726411:145726428,chr8:21647438:21647458,chr9:100503661:100503726,chr9:127057543:127057640,chr9:139582595:139582615,chr9:94443901:94443909。
[0041]
需要说明的是,上述的甲基化标志物所列基因组坐标基于人类参考基因组hg19。
[0042]
上述甲基化标志物注释到人类参考基因组hg19中的基因名称(gene symbol)如下表1所示:
[0043]
表1
[0044]
[0045]
[0046]
[0047][0048]
如图1所示,于一实施例中,本技术还提供一种基于上述的甲基化标志物组合实现的甲状腺结节的良恶性预测系统;具体地,所述甲状腺结节的良恶性预测系统包括:
[0049]
cpg位点检测模块11,所述cpg位点检测模块11用于采用简化基因组甲基化测序技术检测样本的所述甲基化标志物组合中,每一甲基化标志物的cpg位点。
[0050]
需要说明的是,简化基因组甲基化测序(英文全称:reduced representation bisulfite sequencing,英文简称:rrbs)是通过限制性酶切的方法富集基因组dna上富含ccgg位点的片段,经bisulfite处理和高通量测序技术进行基因组cpg富集区域内的单碱基分辨率的甲基化测序。
[0051]
简化基因组甲基化测序利用重亚硫酸氢盐能够将未甲基化的胞嘧啶(c)转化为胸腺嘧啶(t)的特性,将基因组用重亚硫酸氢盐处理后测序,即可根据单个c位点上未转化为c未转化为t的reads数目与所有覆盖的reads数目的比例,计算得到甲基化率。
[0052]
cpg位点,胞嘧啶-磷酸-鸟嘌呤位点,即dna序列中胞嘧啶后紧连鸟嘌呤的位点。
[0053]
于一实施例中,所述样本的类型为组织。
[0054]
于一实施例中,所述组织为甲状腺结节活检物。
[0055]
于一实施例中,所述甲状腺结节活检物为细针穿刺活检物。
[0056]
需要说明的是,本技术中涉及的样本均为患有甲状腺结节,只不过有的是良性结节,有的是恶性结节。
[0057]
dna甲基化水平计算模块12,所述dna甲基化水平计算模块12用于根据所述cpg位点计算所述甲基化标志物的平均甲基化比例(英文全称:average methylation fraction,英文简称:amf)。
[0058]
dna甲基化:脊椎动物的dna甲基化一般发生在cpg位点。经dna甲基转移酶催化胞嘧啶转化为5-甲基胞嘧啶。人类基因中约80%-90%的cpg位点已被甲基化,但是在某些特定区域,如富含胞嘧啶和鸟嘌呤的cpg岛则未被甲基化。这与包含所有广泛表达基因在内的56%的哺乳动物基因中的启动子有关。1%-2%的人类基因组是cpg群,并且cpg甲基化与转录活性成反比。
[0059]
于本实施例中,将所述平均甲基化比例作为所述甲基化标志物的dna甲基化水平。
[0060]
于一实施例中,所述平均甲基化比例的计算公式为:
[0061][0062]
其中,m表示所述甲基化标志物的cpg位点的总个数;n
c,i
表示第i个cpg位点甲基化的测序reads数;n
t,i
表示第i个cpg位点未甲基化的测序reads数。
[0063]
测序reads数,是基因测序中非常重要的一个指标,它直接影响到对基因组的理解和分析;测序reads数为相应类别的测序结果在相应甲基化测序区间的甲基化信息中的出现次数。
[0064]
模型构建模块13,所述模型构建模块13用于基于所述甲基化标志物组合构建数学模型。
[0065]
于一实施例中,所述数学模型为逻辑回归(logistic regression)模型。
[0066]
概率计算模块14,所述概率计算模块14用于根据所述数学模型和所述dna甲基化水平计算所述样本的恶性预测概率。
[0067]
如图2所示,于一实施例中,所述概率计算模块14包括:第一计算单元141和第二计算单元142。
[0068]
具体地,所述第一计算单元141用于计算所述数学模型的输入z;所述输入z的计算公式为:
[0069][0070]
其中,n表示所述甲基化标志物组合中甲基化标志物的总个数;wj表示第j个甲基化标志物的逻辑回归模型系数;xj表示第j个甲基化标志物的dna甲基化水平;w0表示逻辑回归模型截距。
[0071]
需要说明的是,该逻辑回归模型系数和逻辑回归模型截距均是预先确定好的定值,其具体设为多少,均不作为限制本技术的条件,在实际应用中,可根据具体应用场景来设定。
[0072]
所述第二计算单元142用于基于所述输入z计算所述恶性预测概率σ(z);所述恶性预测概率σ(z)的计算公式为:
[0073]
σ(z)=1/(1+e-z
)。
[0074]
其中,e表示自然对数的底数,其是一个无限不循环小数,其值是2.718281828459
……
,在实际应用中,取2.71828。
[0075]
良恶性预测模块15,所述良恶性预测模块15用于根据所述恶性预测概率预测所述样本的甲状腺结节的良恶性。
[0076]
于一实施例中,所述良恶性预测模块15用于根据所述恶性预测概率预测所述样本的甲状腺结节的良恶性包括:在所述恶性预测概率满足预设恶性条件时,判定所述样本的甲状腺结节为恶性;在所述恶性预测概率不满足所述预设恶性条件时,判定所述样本的甲状腺结节为良性。
[0077]
需要说明的是,本技术所述“良性”和“恶性”表示甲状腺结节的性质。通常,良性表现为结节生长缓慢、质地均匀、活动度好、表面光滑、呈囊性改变、无淋巴结肿大、无钙化等;恶性表现为不可控的恶性细胞生长、扩散和组织浸润。提示甲状腺结节为恶性的超声征象包括:结节的高度大于宽度、缺乏声晕、微小钙化、边界不规则、回声减低、实性结节、结节内部血流丰富等。在本技术实施方案中,良性结节为甲状腺腺瘤,恶性结节为甲状腺乳头状
癌。
[0078]
于一实施例中,所述预设恶性条件为:所述恶性预测概率大于预设恶性概率阈值。
[0079]
如图1所示,于一实施例中,所述甲状腺结节的良恶性预测系统还包括:阈值计算模块16。
[0080]
具体地,所述阈值计算模块16用于基于所述数学模型计算所述预设恶性概率阈值。
[0081]
本技术能显著提高甲状腺乳头状癌患者的检出率,可为甲状腺乳头状癌与甲状腺腺瘤的快速鉴别诊断提供有力依据,并可以用于甲状腺结节良恶性诊断。
[0082]
需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述系统的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述系统的存储器中,由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。
[0083]
例如,以上这些模块可以是被配置成一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,简称asic),或,一个或多个数字信号处理器(digital signal processor,简称dsp),或,一个或者多个现场可编程门阵列(field programmable gate array,简称fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,简称cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。
[0084]
下面通过具体实施例来进一步解释说明本技术的甲基化标志物组合及甲状腺结节的良恶性预测系统。
[0085]
于一实施例中,本技术回顾性收集了来自上海交通大学医学院附属仁济医院的甲状腺乳头状癌与甲状腺腺瘤组织的手术石蜡包埋标本(formalin-fixed paraffin-embedding,ffpe)共计135例,包括甲状腺乳头状癌77例,甲状腺腺瘤58例。将其中108例(62例甲状腺乳头状癌,46例甲状腺腺瘤)作为训练集,余下27例(15例甲状腺乳头状癌,12例甲状腺腺瘤)作为验证集1。
[0086]
另外,收集了该医院7例复发的甲状腺乳头状癌作为验证集2。每例样本用rrbs平台获得10x以上的cpg位点甲基化水平;然后,根据每个甲基化标志物中检测到的cpg位点,计算amf,将其作为该标志物dna甲基化水平。
[0087]
实施例1:用上述甲基化标志物组合在训练集样本中构建预测模型,在验证集1样本中测试auc(如图3所示)。
[0088]
auc,英文全称:area under curve,其被定义为roc曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于roc曲线一般都处于y=x这条直线的上方,所以auc的取值范围在0.5和1之间。auc越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
[0089]
每个甲基化标志物的逻辑回归模型系数见下表2;逻辑回归模型截距是0.00173。
[0090]
表2每个甲基化标志物的逻辑回归模型系数
[0091]
[0092]
[0093]
[0094][0095]
结果显示,该甲基化标志物组合,验证集1的roc曲线下面积为0.917,95%ci为0.864~0.973(如图3所示)。在训练集特异性为93.5%,敏感性为91.9%时,预设恶性概率阈值为0.58,即恶性预测概率大于0.58,判断为恶性,反之判断为良性;用该阈值对验证集1甲状腺恶性结节诊断的敏感性达到80%,特异性达到91.7%,ppv(positive predict value)达到92.3%,npv(negative predict value)达到78.6%;对验证集2甲状腺恶性结节诊断的敏感性达到100%,ppv达到100%。两组验证集样本用实施例1甲基化标志物组合预测结果分别见表3、表4。
[0096]
表3验证集1样本用实施例1甲基化标志物组合预测结果
[0097]
[0098][0099]
表4验证集2样本用实施例1甲基化标志物组合预测结果
[0100][0101][0102]
实施例2:用上述甲基化标志物组合在训练集样本中构建数学模型,以恶性预测概率作为评分对ptc未复发与复发患者进行非参数wilcoxon秩和检验,如图4所述。
[0103]
模型评分在ptc患者随访未复发组和随访复发组碘131放射治疗疗效不显著组的非参数wilcoxon秩和检验(p《0.001)。
[0104]
需要说明的是,wilcoxon秩和检验是用于检验两独立样本定量资料的常用方法,其是一种非参数方法,用于推断计量资料或等级资料的两个独立样本所来自的两个总体分布位置是否有差别。
[0105]
综上所述,本技术的甲基化标志物组合及甲状腺结节的良恶性预测系统,与现有技术相比,本技术为了解决针对目前鉴别甲状腺乳头状癌和良性腺瘤的准确率不高的难题,提供一种基于甲基化标志物构建的数学模型用于辅助诊断的分子检测方法,特别涉及一种利用甲基化标志物组合检测甲状腺结节良恶性的方法;此外,本技术提供了对样本的甲基化标志物,基于其dna甲基化水平利用数学模型分辨甲状腺良性结节和恶性结节,实现甲状腺结节精准诊断的目的;所以,本技术有效克服了现有技术中的种种缺点而具高度产业利用价值。
[0106]
上述实施例仅例示性说明本技术的原理及其功效,而非用于限制本技术。任何熟悉此技术的人士皆可在不违背本技术的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本技术所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本技术的权利要求所涵盖。
技术特征:
1.一种甲基化标志物组合,用于甲状腺结节的良恶性预测,其特征在于,所述甲基化标志物组合至少包括人类参考基因组hg19中的任何一个基因。2.根据权利要求1所述的甲基化标志物组合,其特征在于,所述甲基化标志物组合至少包括以下任意一种甲基化标志物或者任意两种以上的组合:chr10:127755315:127755329,chr10:131540647:131540665,chr10:7583263:7583585,chr1:1009436:1009446,chr11:132223348:132223362,chr1:12655938:12655986,chr1:12656049:12656087,chr1:12656114:12656212,chr1:150131152:150131195,chr11:57194421:57194572,chr11:61467427:61467677,chr1:16469961:16470254,chr11:66485659:66485748,chr11:68776334:68776454,chr1:206728940:206729178,chr12:113709826:113709917,chr12:130921495:130921516,chr12:132658230:132658253,chr12:52473498:52473570,chr12:53617281:53617288,chr13:110434440:110434531,chr13:20993965:20994635,chr1:3225535:3225554,chr1:3458732:3458796,chr14:105339256:105339324,chr1:44024150:44024343,chr1:53742533:53742563,chr16:1040885:1041345,chr16:2221016:2221027,chr16:29196138:29196163,chr1:64135451:64135481,chr16:49544665:49544684,chr1:68219906:68219961,chr16:83987072:83987089,chr17:17615143:17615260,chr17:3822436:3822454,chr17:40822524:40822748,chr17:48764006:48764335,chr17:70335343:70335440,chr17:70419210:70419362,chr17:75303167:75303253,chr17:79005616:79005733,chr18:55888640:55889088,chr19:10405083:10405335,chr19:15292472:15292542,chr19:18266683:18266849,chr19:1860594:1860609,chr19:2045657:2045679,chr19:3617663:3617702,chr19:3821072:3821102,chr19:41224085:41224106,chr19:448011:448049,chr19:7915447:7915463,chr20:24745681:24745742,chr20:25990346:25990604,chr20:2732865:2732896,chr20:2732998:2733010,chr20:31097645:31097727,chr20:61049497:61049538,chr2:10546789:10546852,chr2:128158772:128159132,chr21:45323571:45323636,chr21:45559747:45560004,chr21:46036642:46036672,chr2:1480873:1480884,chr2:1481089:1481102,chr22:20779825:20779953,chr22:23605452:23605541,chr22:37419994:37420244,chr22:37942889:37943008,chr22:39674250:39674276,chr2:240291097:240291139,chr22:41723277:41723297,chr2:70823560:70823648,chr2:74663609:74663632,chr3:11079301:11079330,chr3:159818521:159818593,chr3:188012659:188012871,chr4:2258125:2258156,chr4:3485902:3485969,chr5:134582973:134583003,chr5:2112081:2112150,chr5:2740854:2740958,chr7:150069577:150069596,chr7:503736:503749,chr7:97912991:97913187,chr8:142237074:142237189,chr8:142339487:142339516,chr8:145726411:145726428,chr8:21647438:21647458,chr9:100503661:100503726,chr9:127057543:127057640,chr9:139582595:139582615,chr9:94443901:94443909。3.一种基于权利要求1或2中所述的甲基化标志物组合实现的甲状腺结节的良恶性预测系统,其特征在于,所述甲状腺结节的良恶性预测系统包括:cpg位点检测模块,所述cpg位点检测模块用于采用简化基因组甲基化测序技术检测样本的所述甲基化标志物组合中,每一甲基化标志物的cpg位点;dna甲基化水平计算模块,所述dna甲基化水平计算模块用于根据所述cpg位点计算所
述甲基化标志物的平均甲基化比例;所述平均甲基化比例作为所述甲基化标志物的dna甲基化水平;模型构建模块,所述模型构建模块用于基于所述甲基化标志物组合构建数学模型;概率计算模块,所述概率计算模块用于根据所述数学模型和所述dna甲基化水平计算所述样本的恶性预测概率;良恶性预测模块,所述良恶性预测模块用于根据所述恶性预测概率预测所述样本的甲状腺结节的良恶性。4.根据权利要求3所述的甲状腺结节的良恶性预测系统,其特征在于,所述良恶性预测模块用于根据所述恶性预测概率预测所述样本的甲状腺结节的良恶性包括:在所述恶性预测概率满足预设恶性条件时,判定所述样本的甲状腺结节为恶性;在所述恶性预测概率不满足所述预设恶性条件时,判定所述样本的甲状腺结节为良性。5.根据权利要求4所述的甲状腺结节的良恶性预测系统,其特征在于,所述预设恶性条件为:所述恶性预测概率大于预设恶性概率阈值。6.根据权利要求5所述的甲状腺结节的良恶性预测系统,其特征在于,所述甲状腺结节的良恶性预测系统还包括:阈值计算模块,所述阈值计算模块用于基于所述数学模型计算所述预设恶性概率阈值。7.根据权利要求3所述的甲状腺结节的良恶性预测系统,其特征在于,所述平均甲基化比例的计算公式为:其中,m表示所述甲基化标志物的cpg位点的总个数;n
c,i
表示第i个cpg位点甲基化的测序reads数;n
t,i
表示第i个cpg位点未甲基化的测序reads数。8.根据权利要求3所述的甲状腺结节的良恶性预测系统,其特征在于,所述概率计算模块包括:第一计算单元和第二计算单元;其中,所述第一计算单元用于计算所述数学模型的输入z;所述数学模型为逻辑回归模型;所述输入z的计算公式为:其中,n表示所述甲基化标志物组合中甲基化标志物的总个数;w
j
表示第j个甲基化标志物的逻辑回归模型系数;x
j
表示第j个甲基化标志物的dna甲基化水平;w0表示逻辑回归模型截距;所述第二计算单元用于基于所述输入z计算所述恶性预测概率σ(z);所述恶性预测概率σ(z)的计算公式为:σ(z)=1/(1+e-z
)。9.根据权利要求3所述的甲状腺结节的良恶性预测系统,其特征在于,所述样本为甲状腺结节活检物。10.根据权利要求9所述的甲状腺结节的良恶性预测系统,其特征在于,所述甲状腺结节活检物为细针穿刺活检物。
技术总结
本申请提供一种甲基化标志物组合及甲状腺结节的良恶性预测系统;所述甲状腺结节的良恶性预测系统包括:CpG位点检测模块,用于采用简化基因组甲基化测序技术检测样本的甲基化标志物组合中,每一甲基化标志物的CpG位点;DNA甲基化水平计算模块,用于根据CpG位点计算甲基化标志物的平均甲基化比例;平均甲基化比例作为甲基化标志物的DNA甲基化水平;模型构建模块,用于基于甲基化标志物组合构建数学模型;概率计算模块,用于根据数学模型和DNA甲基化水平计算样本恶性预测概率;良恶性预测模块,用于根据恶性预测概率预测甲状腺结节良恶性;本申请基于甲基化标志物的DNA甲基化水平,利用数学模型分辨甲状腺结节良恶性,实现了甲状腺结节精准诊断的目的。状腺结节精准诊断的目的。状腺结节精准诊断的目的。
技术研发人员:沈宇玲 来益 徐栋 周佳青 宋琳
受保护的技术使用者:上海交通大学医学院附属仁济医院
技术研发日:2023.06.13
技术公布日:2023/8/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/