根据串联质谱法对数据编码肽进行测序
未命名
10-22
阅读:78
评论:0
根据串联质谱法对数据编码肽进行测序
1.对相关申请的引用
2.本技术要求于2022年4月11日提交的第63/362,757号美国临时专利申请的优先权和权益,该临时专利申请的公开内容通过引用整体并入本文。
3.缩写列表
4.aac氨基酸组合
5.dag有向无环图
6.dna脱氧核糖核酸
7.ms/ms串联质谱
8.m/z质荷比
9.off偏频函数
10.rs里德-所罗门
11.tic总离子流色谱图
技术领域
12.本公开总体上涉及数据编码肽的测序。具体而言,本公开涉及一种根据在通过质谱或ms/ms对数据编码肽进行分析中获得的实验谱对数据编码肽进行测序的方法。
背景技术:
13.与使用dna相比,使用肽进行数据存储有多种优点。最显著的优点是,与使用dna相比,使用肽能够获得更高的存储密度,因为非天然氨基酸也可以用于形成肽,从而扩大了将数字数据编码到氨基酸中的字母表大小。此外,由于肽比dna更耐久的特性,使用肽进行数据存储比使用dna进行数据存储享有更长的存储时间。
14.肽测序是在对存储在数据编码肽中的数据进行解码的重要元素。质谱法(尤其是ms/ms)对于肽测序特别有用。us 11,315,023b2公开了一种根据在质谱法或ms/ms中获得的实验谱对数据编码肽进行测序的技术。希望获得一种在质谱法或ms/ms中对数据编码肽进行测序的改进技术。
技术实现要素:
15.本公开的一个方面提供了一种用于根据实验谱对数据编码肽进行测序的计算机实现方法。实验谱的原始数据是强度对质荷比的直方图数据,该数据最初是在通过质谱法对数据编码肽进行分析中获得的。
16.所述方法包括:对原始数据进行预处理,以去除不可解释的峰,从而产生预处理数据;从谱图中识别竞争所述肽的肽序列的一个或多个候选序列的第一集合,其中所述谱图是根据预处理数据而不是原始数据形成的,以产生较少数量的候选序列,从而减少测序的时间成本;处理第一候选序列集合,以估计所述肽序列;在获得所述肽序列的一个或多个估计序列的集合后,验证各个肽序列估计序列是否无效;以及清理所述肽序列的一个或多个
估计序列的集合,以去除任何发现的无效的肽序列估计序列。
17.优选地,对原始数据进行预处理以产生预处理数据包括:将原始数据的质荷比集合分成多个子集,从而使每一个子集由数据编码肽的片段的同位素的质荷比组成,各个质荷比在实验谱中具有信号峰,而所述片段的同位素具有相同的正整数值的电荷;计算各个子集的片段的单同位素质量;根据原始数据和各个子集中的质荷比计算片段的强度;以及产生预处理数据。所述预处理数据包括多个质量和多个强度,其中所述多个质量是由各个子集的片段的单同位素质量形成的,并且其中所述多个质量中的各个质量与所述多个强度的相应的强度相关联。
18.优选地,所述预处理数据还包括实验谱的推定的b离子的第一质量集合和推定的y离子的第二质量集合。所述第一质量集合和所述第二质量集合是通过将所述多个质量中的相应质量分布到第一质量集合和第二质量集合中产生的。
19.优选地,从所述谱图中识别第一候选序列集合还包括以下步骤:若在实验谱中识别的母离子峰具有值为2的电荷,则通过搜索第二质量集合来识别第一候选序列集合中的各个候选序列;以及,若母离子峰的电荷值为3,则通过搜索第一质量集合和第二质量集合来识别第一候选序列集合中的各个候选序列。
20.在某些实施例中,处理第一候选序列集合以估计所述肽序列包括以下步骤:若第一候选序列集合由单个候选序列组成,则将第一候选序列集合中的单个候选序列指定为所述肽序列的一个估计序列,否则从第一候选序列集合中选择一个或多个候选序列以形成一个或多个候选序列的第二集合,从而第二候选序列集合中的一个或多个候选序列比第一候选序列集合中未被选择的候选序列更有可能是所述肽序列。若第二候选序列集合由单个候选序列组成,则将第二候选序列集合中的单个候选序列指定为所述肽序列的一个估计序列。若第二候选序列集合由多个不含任何aac的候选序列组成,则将第二候选序列集合中的多个候选序列指定为所述肽序列的估计序列。若第二候选序列集合由多个包含一个或多个aac的候选序列组成,则使用原始数据来为所述一个或多个aac确定有效氨基酸序列。在确定了有效氨基酸序列之后,对第二候选序列集合中的候选序列进行细分,以产生一个或多个候选序列的第三集合。第三候选序列集合是从第二候选序列集合通过使用确定的有效氨基酸序列替换所述一个或多个aac然后丢弃任何具有未确定的aac的候选序列而获得的。若第三候选序列集合由单个候选序列组成,则将第三候选序列集合中的单个候选序列指定为所述肽序列的一个估计序列,否则从第三候选序列集合中选择一个或多个候选序列以形成一个或多个候选序列的第四集合,从而第四候选序列集合中的一个或多个候选序列比第三候选序列集合中未被选择的候选序列更有可能是所述肽序列。若第四候选序列集合由单个候选序列组成,则将第四候选序列集合中的单个候选序列指定为所述肽序列的一个估计序列,否则将第四候选序列集合中的多个候选序列指定为所述肽序列的估计序列。
21.在某些实施例中,从第一候选序列集合中选择一个或多个候选序列以形成第二候选序列集合包括以下步骤。在第一候选序列集合的候选序列中选择一个或多个具有最长的连续氨基酸长度的候选序列,以形成第五候选序列集合。若第五候选序列集合由单个候选序列组成,则将第五候选序列集合指定为第二候选序列集合,否则在第五候选序列集合中的多个候选序列中选择一个或多个具有最大数量的氨基酸的候选序列,以形成第六候选序列集合。若第六候选序列集合由单个候选序列组成,则将第六候选序列集合指定为第二候
选序列集合,否则在第六候选序列集合中的多个候选序列中选择一个或多个具有最小匹配误差的候选序列,以形成第七候选序列集合。若第七候选序列集合由单个候选序列组成,则将第七候选序列集合指定为第二候选序列集合,否则在第七候选序列集合中的多个候选序列中选择一个或多个具有最高的所获取的氨基酸的平均强度值的候选序列,以形成第八候选序列集合。若第八候选序列集合由单个候选序列组成,则将第八候选序列集合指定为第二候选序列集合,否则在第八候选序列集合中的多个候选序列中选择一个或多个具有不同偏移量的不同离子类型出现次数最多的候选序列,以形成第二候选序列集合。
22.在某些实施例中,从第三候选序列集合中选择一个或多个候选序列以形成第四候选序列集合包括:从第三候选序列集合中选择一个或多个在所确定的有效氨基酸序列之中具有最大数量的氨基酸的候选序列,以形成第九候选序列集合;以及若第九候选序列集合由单个候选序列组成,则将第九候选序列集合指定为第四候选序列集合,否则从第九候选序列集合中选择一个或多个在所确定的有效氨基酸序列中具有最小匹配误差的候选序列,以形成第四候选序列集合。
23.在某些实施例中,从谱图识别第一候选序列集合包括:在谱图中识别一条或多条有效的并具有最长长度的路径,其中有效路径始于首顶点,并止于具有所述数据编码肽的质量的尾顶点;使用所识别的一个或多个路径中的每一个来产生新的候选序列;以及将该新的候选序列分配给第一候选序列集合。
24.在某些实施例中,从谱图识别第一候选序列集合包括以下步骤:(a)按照各个质量的相应强度的降序对所述多个质量进行排序,从而形成有序质量序列,其中所述有序质量序列对所述多个质量进行排名,其中排名最高的质量与最高的相应强度相关联;(b)给定所述有序质量序列中的选定质量和较高排名的质量的选定数量,在谱图中识别一个或多个基于最高强度的标签,其中各个基于最高强度的标签是由具有选定质量的第一个氨基酸和多个分别具有从选定数量的较高排名的质量中选择的质量的其余氨基酸组成的部分序列;(c)处理所述一个或多个基于最高强度的标签,其中处理各个基于最高强度的标签包括:确定各个基于最高强度的标签的前缀和后缀;若成功确定了前缀和后缀,则组合所述前缀、所述各个基于最高强度的标签和所述后缀,以形成新的候选序列;以及将这个新的候选序列分配给第一候选序列集合;(d)按顺序使用严格递减的值序列中的连续值作为较高排名的质量的选定数量来重复步骤(b)和(c),直到第一候选序列集合不为空或者所述严格递减的序列被用尽;以及(e)从排名最高的质量开始,按顺序使用所述有序质量序列中的连续质量作为选定质量来重复步骤(b)-(d),直到第一候选序列集合不为空或者在所述有序质量序列中达到预选数量的较高排名的质量。
25.在某些实施例中,确定各个基于最高强度的标签的前缀和后缀包括以下步骤:将所述前缀识别为谱图中的有效的并且具有最长长度的第一路径,其中:所述第一路径连接首氨基酸和各个基于最高强度的标签的头部;允许一个或多个总长度至多为第一最大长度的第一aac出现在所识别的第一路径中;若母离子峰的电荷值为2,则将第一最大长度设为l
p1
;以及若母离子峰的电荷值为3,则在寻找第一路径时,最初时将第一最大长度设为l
p1
,若在第一最大长度为l
p1
的情况下未能找到第一路径,则将第一最大长度放宽到l
p2
,其中l
p2
>l
p1
。将所述后缀识别为谱图中的有效的并且具有最长长度的第二路径,其中:所述第二路径连接各个基于最高强度的标签的尾部和尾氨基酸;允许一个或多个总长度至多为第二最
大长度的第二aac出现在所识别的第二路径中;若母离子峰的电荷值为2,则将第二最大长度设为l
s1
;以及若母离子峰的电荷值为3,则在寻找第二路径时,最初时将第二最大长度设为l
s1
,若在第二最大长度为l
s1
的情况下未能找到第二路径,则将第二最大长度放宽到l
s2
,其中l
s2
>l
s1
。
26.在某些实施例中,可以通过以下方式确定各个肽序列估计序列是否无效:根据肽序列的预先确定的正确长度校验各个肽序列估计序列的长度;在各个肽序列估计序列中对氨基酸“g”和“l”进行顺序校验;基于在数据编码肽中携带的顺序校验位执行顺序校验;或其任意组合。
27.如以下实施例所示,还公开了本公开的其它方面。
附图说明
28.图1示出了具有总共208845(=4095
×
17
×
3)位的4095
×
17的3位符号块,作为设计在数据编码肽上携带的数据的第一个实例;
29.图2示出了具有总共98268个信息位、12285个顺序校验位和3个rs码的4095
×
19的3位符号块,作为设计在数据编码肽上携带的数据的第二个实例;
30.图3示出了根据本公开的某些实施例的两阶段测序方法的流程图;
31.图4示出了根据本公开的某些实施例的在图论模型下进行路径寻找的谱图;
32.图5示出了根据本公开的某些实施例的基于最高强度标签的测序方法的流程图;
33.图6示出了根据本公开的某些实施例的通过基于最高强度标签的测序方法确定的候选序列的概念图;
34.图7示出了根据本公开的某些实施例的寻找基于最高强度标签的前缀和后缀以形成可能的候选序列的第一方法的流程图,其中所述前缀和所述后缀是基于aac的最大长度来识别的;
35.图8示出了根据本公开的某些实施例的寻找基于最高强度标签的前缀和后缀以形成可能的候选序列的第二种方法的流程图,其中所述前缀和所述后缀是基于aac的最大长度来识别的;
36.图9示出了根据本公开的实施例的候选序列的校验方法的流程图;
37.图10示出了从实验获得的数据编码肽的示例性混合物的tic;
38.图11示出了根据本公开的一个示例性实施例的用于根据实验谱对数据编码肽进行测序的计算机实现方法的流程图;
39.图12示出了处理实验谱的原始数据以产生预处理数据的示例性步骤的流程图;
40.本领域技术人员应理解,附图中的元素仅是出于简单和清晰的目的示出的,而不一定是按比例绘制的。例如,示意图、框图或流程图中的一些元素的尺寸可能相对于其它元素被夸大了,以帮助提高对本公开的实施例的理解。
具体实施方式
41.本公开涉及数据编码肽的肽测序。公开了两种相关的肽测序方法,即两阶段测序方法和基于最高强度标签的测序方法。
42.a部分说明了在本公开中使用的技术术语和符号。b部分提供了一些为数据编码肽
设计肽序列的实例。在解释这两种测序方法时,偶尔会提到由此产生的肽序列设计。在c部分中建立了对数据编码肽进行测序的问题的模型。在d和e部分中分别阐述了两阶段测序方法和基于最高强度标签的测序方法。f部分提供了基于肽序列的设计的校验方法,用于在这些序列的产生期间验证候选序列。本公开的实施例主要是基于d-f部分中的开发而形成的。
43.a.技术术语和符号
44.在说明书和所附权利要求中使用了以下术语和符号。
[0045]“肽”是由肽键连接的氨基酸的物理链。
[0046]“数据编码肽”是一种肽,组成肽的氨基酸被有目的地选择并以有意义的方式定位在肽中以表示数字数据。
[0047]
肽的“肽序列”是表示肽中的氨基酸残基的有序序列的数字串。因此,该有序序列指定了组成氨基酸在形成肽时的组装顺序。
[0048]“首氨基酸”被定义为紧邻肽的n端的氨基酸残基。也就是说,首氨基酸是肽的n端氨基酸残基。
[0049]“尾氨基酸”被定义为紧邻肽的c端的氨基酸残基。也就是说,尾氨基酸是肽的c端氨基酸残基。
[0050]
本领域技术人员通常理解“b离子”、“y离子”以及其它由于肽的肽键断裂而产生的片段离子的含义。本公开意图采用b离子、y离子以及其它通过断裂肽的肽键获得的片段离子的普遍接受的解释。肽的b离子是肽在两个组成氨基酸之间的肽键处分裂后的带电荷片段,其中b离子包含肽的n端。肽的y离子是肽在两个组成氨基酸之间的肽键处分裂后的带电荷片段,其中y离子包含肽的c端。
[0051]“标签”是氨基酸序列的部分序列,其中该部分序列是由连续的氨基酸形成的。
[0052]“aac”是氨基酸的顺序无关的组成。应说明的是,在建模或最初建立aac时,不需要知道aac中的组成氨基酸的组装顺序。尽管如此,在肽测序中,往往需要根据aac的附加信息来解析aac的组装顺序。
[0053]“质谱”是由质谱仪分析的化学样品中的强度对质荷比的直方图。
[0054]“实验谱”是在实验中获得的质谱。
[0055]“实验谱的原始数据”是强度对质荷比的直方图数据,该数据最初是在通过质谱法对化学样品进行分析中获得的。实际上,最初获得的直方图通常是从质谱仪获得的。但是,在本公开中,在根据从质谱仪获得的物理测量数据来准备最初获得的直方图时,可以使用信号增强技术(例如降噪算法)。
[0056]“匹配误差”被定义为从实验谱获取的氨基酸的观测质量值与氨基酸的实际质量值之间按相应的观测质量值归一化的平均误差。
[0057]
质谱中的“母离子峰”,也称为分子离子峰,是在质谱仪中分析分子时没有任何碎裂时带电分子产生的峰。
[0058]
a={a1,a2,
…
,ak}表示在形成数据编码肽时可被选择用作组成氨基酸的一组氨基酸,其中k是该组中的不同氨基酸的数量,而ai,i∈{1,
…
,k}是a中的第i个氨基酸。换句话说,a是形成数据编码肽的氨基酸的字母表。
[0059]
g={g1,g2…
,gk}表示在形成数据编码肽时可被选用的氨基酸残基的质量集合,其中gi,i∈{1,
…
,k}是与ai对应的氨基酸残基的质量。
[0060]
p={p1,p2,
…
,pn}表示肽的肽序列,其中n是共同形成该肽的组成氨基酸的数量,pi,i∈{1,
…
,n}是该肽序列中的第i个氨基酸残基。在不引起混淆的前提下,肽也用p表示,并且应理解,称为p的肽是其肽序列为p的肽。
[0061]
m={m1,m2,
…
,mn}表示肽p中的氨基酸残基的质量集合,其中mi,i∈{1,
…
,n}是pi的质量。
[0062]
mh表示氢原子或质子的质量。
[0063]moh
表示羟基的质量。
[0064]mngroup
表示附接至肽p的首氨基酸的n端官能基的质量。若p有未保护的n端,则n端官能基的质量等于mh。
[0065]mcgroup
表示附接至肽p的尾氨基酸的c端官能基的质量。若p有未保护的c端,则c端官能基的质量等于m
oh
。
[0066]mhead
和m
tail
分别表示首氨基酸和尾氨基酸的质量。若没有固定的氨基酸,则质量m
head
和m
tail
可以为零。
[0067]
m表示肽p的质量。注意,m由给出。
[0068]
mb={m
b,1
,m
b,2
,
…
,m
b,n+1
,m
b,n+2
}表示肽p中的b离子的质量集合,其中对于i∈{1,
…
,n+1},m
b,i+1
=m
b,i
+mi,且m
b,1
=m
ngroup-mh。注意:m
b,2
=(m
ngroup-mh)+m
head
;m
b,n
=m-m
h-m
cgroup-m
tail
;m
b,n+1
=m-m
h-m
cgroup
;并且m
b,n+2
=m。
[0069]my
={m
y,1
,m
y,2
,
…
,m
y,n+1
,m
y,n+2
}表示肽p中的y离子的质量集合,其中对于i∈{1,
…
,n+1},m
y,i+1
=m
y,i-mi,且m
y,1
=m-(m
ngroup-mh)。注意,my=m-mb。还应注意:m
y,2
=m-(m
ngroup-mh)-m
head
;m
y,n
=mh+m
cgroup
+m
taik
;m
y,n+1
=mh+m
cgroup
;并且m
y,n+2
=0。
[0070]
δ={δ1,δ2…
,δn}表示理论(质)谱与实验(质)谱之间的质量差的集合,其中δi∈[-δ,+δ],i∈{1,
…
,n},并且δ是容差值。
[0071]
t(p)表示由肽p产生的理论谱。
[0072]
s表示通过串联质谱法获得的ms/ms谱。
[0073]
l表示代表谱s的强度和m/z比对的数量。
[0074]
z={z1,z1,
…
,z
l
}表示谱s的电荷集。通常,zi选自1、2和3。
[0075]
(m/z)={(m/z)1,(m/z)2,
…
,(m/z)
l
}表示谱s的质/荷比的集合。
[0076]
ρ表示谱s中的子集的数量。在每个子集中,所有(m/z)比都是特定片段的同位素,其中电荷值等于连续的质/荷比之间的差值的倒数。
[0077]mout
表示质谱仪的与最高强度对应的质量输出。质量输出m
out
可以是单同位素峰,或者是下一个峰(质量+1.007276da)。
[0078]gi
,i∈{1,2,
…
,ρ}表示谱s中的第i个子集。
[0079]m′i表示子集gi的单同位素质量。应说明的是,m
′i可以通过m
′i=(m/z)
i,0z′
i,0-mhz
′
i,0
计算,其中(m/z)
i,0
是子集gi中的最低值,z
′
i,0
是(m/z)
i,0
的对应电荷。
[0080]m′b={m
′
b,1
,m
′
b,2
,
…
,m
′
b,l
}表示谱s的推定的b离子的质量集合,其中m
′
b,i
=(m/z)iz
i-mhzi,i=1,
…
,l。
[0081]m′y={m
′
y,1
,m
′
y,2
,
…
,m
′
y,l
}表示谱s的推定的y离子的等效b离子质量集合,其中m
′
y,i
=m-[(m/z)iz
i-mhzi],i=1,
…
,l。
[0082]
i={i1,i2,
…
,i
l
}表示谱s的强度的集合,其中,对于每个i,i=1,2,
…
,l,强度ii与(m/z)i对应。
[0083]
j表示强度的排名。
[0084]m′
b,j
表示谱s的具有第j个最高强度的推定的b离子的质量。
[0085]m′
y,j
表示谱s的具有第j个最高强度的推定的y离子的等效b离子质量。
[0086]jmax
表示允许在寻找标签时作为起点的较高排名强度的质量的最大数量。
[0087]
n表示候选序列的数量。
[0088]
w表示用于标签寻找方案的具有较高排名的强度的质量的数量。
[0089]
v表示基于最高强度标签的测序方法中的最大迭代次数。
[0090]
l
aac
表示aac的长度。
[0091]
l
p1
和l
p2
表示aac的两个最大长度,它们用于限制前缀中的每个aac的长度。
[0092]
l
s1
和l
s2
表示aac的两个最大长度,它们用于限制后缀中的每个aac的长度。
[0093]
p
l
表示肽序列p中的最后一个氨基酸“l”的位置。
[0094]
pg表示肽序列p中的第一个氨基酸“g”的位置。
[0095]
l
′
表示4095
×
17块或4095
×
19块的一行中的符号数量。注意,l
′
=n-2。
[0096]
seq表示块中的序列的索引,其中seq的范围是1至4095。
[0097]
s1,s2,
…
,s
l
′
表示从块取得的并且编码在肽p中的l
′
符号(不包括首氨基酸和尾氨基酸)。
[0098]qi,j
表示用于保护符号si和sj的顺序的顺序校验位,其中(i,j)选自(1,2)、(2,3)和(l
′‑
1,l
′
)。顺序校验位的详细信息请参考us 11,315,023b2。
[0099]
a1、a2、a3和a4分别表示地址符号s6、s7、s8和s9。
[0100]
ni表示第i个rs码的代码长度。
[0101]ki
表示第i个rs码的12位信息符号的数量。
[0102]
r表示总体码率。
[0103]
单字母符号偶尔用于表示不同的氨基酸,例如在描述肽的结构时。氨基酸和它们各自的单字母符号(用括号括起来)如下所示:丙氨酸(a);精氨酸(r);天冬酰胺(n);天冬氨酸(d);半胱氨酸(c);谷氨酰胺(q);谷氨酸(e);甘氨酸(g);组氨酸(h);异亮氨酸(i);亮氨酸(l);赖氨酸(k);甲硫氨酸(m);苯丙氨酸(f);脯氨酸(p);丝氨酸(s);苏氨酸(t);色氨酸(w);酪氨酸(y);缬氨酸(v);硒代半胱氨酸(u);和吡咯赖氨酸(o)。
[0104]
b.数据编码肽的设计
[0105]
在固定长度序列的设计中,每个肽序列具有l
′
(l
′
=17)3位符号,它们分别表示为s1,s2,
…
,s
17
。我们假定:(i)对于长度为17的符号序列{s1,s2,
…
,s
17
},4符号序列{s1,s2,s3,s4}、{s
10
,s
11
,s
12
,s
13
}和{s
14
,s
15
,s
16
,s
17
}分别有15%、10%和25%不能被正确恢复;以及(ii)存在三种模糊的符号顺序,即s1和s2的顺序、s2和s3的顺序、以及s
16
和s
17
的顺序。
[0106]
然后,我们提出了一种基于rs码的纠错方法。该方法使用:(i)即使在任意15%的4符号序列{s1s2s3s4}、任意10%的4符号序列{s
10s11s12s13
}和任意25%的4符号序列{s
14s15s16s17
}不能被正确恢复时也能恢复原始数据的三个rs码,以及(ii)分别用于每个肽序列中的s1和s2的顺序、s2和s3的顺序、以及s
16
和s
17
的顺序的三个顺序校验位。
[0107]
如图1所示,首先构造一个4095
×
17的3位符号块,它总共有208845(=4095
×
17
×
3)位。在该块的每一行中,有17个符号(即s1,s2,
…
,s
17
)代表17聚体数据编码肽。其中的四
个符号(即s6、s7、s8和s9)分别定义为a1、a2、a3和a4,作为肽序列的地址,并假定为下列值之一:0000(八进制形式)、0001、0002、......、0007、0010、......、0777、1000、......、7775、7776。在s5中携带的三个顺序校验位被表示为q
1,
、q
2,
和q
16,
,它们分别用于表示s1和s2的顺序、s2和s3的顺序以及s
16
和s
17
的顺序。若si的值大于sj的值,则顺序校验位q
i,j
为“1”;否则该顺序校验位为“0”。然后可以使用每行的其余12个符号(即s1,s2,
…
,s5,s
10
,
…
,s
17
)来恢复编码位c,包括纠错码的信息位和奇偶位。
[0108]
接下来,我们假定4符号序列{s1s2s3s4}、{s
10s11s12s13
}和{m
14s15s16s17
}分别有15%、10%和25%不能被正确恢复。然后,我们对这三个部分序列使用三个不同的(ni,ki)rs码,其中ni是第i个rs码的码长,ki是第i个rs码的12位信息符号的数量。假定对于i=1、2和3,ni取相同的值4095,即n1=n2=n3=4095,而k1=2867、k2=3275且k3=2047分别用于第一个、第二个和第三个rs码。所得的(4095,2867)rs码(表示为rs1)、(4095,3275)rs码(表示为rs2)和(4095,2047)rs码(表示为rs3)可以分别纠正最多614、410和1024个12位符号错误。对于整个块来说,最多有(k1+k2+k3)
×
12=98268位可以作为数据位,该块的最大总体码率r由98268/(4095
×
17
×
3)=0.4705给出。
[0109]
对于我们的数据集a,信息位的数量是96224,其中有47965位的“0”和48259位的“1”。由于每个4095
×
17块最多可以包含98268个信息位,因此我们以相等的概率用“0”和“1”填充每个块中其余的98268-96224=2044位位置。然后将这98268位分成三部分。第一部分用于填充范围从(n
1-k1+1)到n1的行序列中的符号{s1s2s3s4},第二部分用于填充范围从(n
2-k2+1)到n2的行序列中的符号{s
10s11s12s13
},第三部分用于填充范围从(n
3-k3+1)到n3的行序列中的符号{s
14s15s16s17
}。在编码过程中,rs1使用第一部分中的位产生编码符号,以填充范围从1到(n
1-k1)的行序列中的{s1s2s3s4};rs2使用第二部分中的位来产生编码符号,以填充范围从1到(n
2-k2)的行序列中的{s
10s11s12s13
};rs3使用第三部分中的位来产生编码符号,以填充范围从1到(n
3-k3)的行序列中的{s
14s15s16s17
}。
[0110]
最后,我们对块中的等同于000、001、......、111(或由0到7表示)的3位符号的数量进行计数。符号000、001、
…
、111的数量分别是8294、8380、8927、9181、8831、8754、8671和8577。我们的数据集a的实际码率r由96224/(4095
×
17
×
3)=0.4607给出。
[0111]
现在,我们考虑序列长度变化的情况,并假定是下列值之一:15、16、17、18和19。然后,我们构建图2所示的4095
×
19块。我们将每5个长度为15、16、17、18和19的序列视为一组。每组中的第j个序列的长度l
′j可以通过l
′j=15+modseq-1,5来估算,其中mod表示模运算,seq是序列在块中的索引,其范围是1到4095。由于seq和地址序列{a1a2a3a4}是使用seq=a1×
83+a2×
82+a3×
81+a4+1一对一映射的,因此可以使用基于地址的长度校验来确定序列的正确性。
[0112]
设是每组中的第j个序列的第i个符号。从图1能够看出,可以通过以下方式将4095
×
17块转换为4095
×
19块:(i)移动序列1的和并将其插入到序列5的之前;并且移动序列2的并将其插入到序列4的之前。
[0113]
由于图2所示的可变长度序列是通过移动图1所示的固定长度序列中的符号来构建的,因此图2中的4095
×
19块的总体码率r与图1中的4095
×
17块的总体码率相同。
[0114]
接下来,将4095
×
17块中的3位符号(与从000到111的3位对应的从“0”到“7”的符号)映射到8个氨基酸(y、t、e、a、s、v、g和f)中,得到4095个序列,其中“g”与符号“6”对应。
[0115]
而且,如果发生质量冲突(即一个序列的质量m在其它序列的容差范围(25ppm)之内),那么用未被使用的氨基酸“l”替换氨基酸“g”。这个过程从靠近首氨基酸的第一个“g”开始。在仅替换一个“g”之后,如果更新的质量m仍然落在其它序列的容差范围之内,则通过移动至原始序列的下一个“g”来继续这个替换过程。在这个过程完成后,所述序列由9个可能的氨基酸组成,其中“g”和“l”都与符号“6”对应。由于所有的“l”氨基酸都应出现在“g”之前,因此“g”和“l”的顺序可以在肽测序后用于区分估计的肽序列的验证。这种替换的效果能够从具有4095个数据编码肽的示例性数据集看出,这些数据编码肽具有固定的n端氨基酸h和固定的c端氨基酸r,并且它们之间的氨基酸是使用如上所述的3位符号到8个氨基酸的映射来编码的。在替换之前,具有质量冲突的数据编码肽的数量是3630,并且有732组数据编码肽,其中每组中的所有数据编码肽在容差范围内具有相同的m。在替换之后,具有质量冲突的数据编码肽的数量下降到2746,并且有619组数据编码肽,其中每组中的所有数据编码肽在容差范围内具有相同的m。这减少了两种或更多种同量异位肽共溶析(co-elute)的问题,从而减少了干扰测序的重叠ms/ms谱的数量。
[0116]
c.肽测序问题
[0117]
通常,在使用20种天然氨基酸的整个集合和具有天然氨基酸的现有肽的条件下,现有的大多数测序算法(包括sherenga、pepnovo、nsnovo、pnovo、uninovo、novohcd和novor)都依赖于通过数据的特性进行训练。例如,由等人引入的off(《通过串联质谱法进行从头肽测序》(de novo peptide sequencing via tandem mass spectrometry),《计算生物学杂志》(journal of computational biology),第6卷,第3/4号,1999,第327-342页)首先是通过对训练数据中的不同离子类型和特征类型的出现频率进行计数而凭经验导出的。在使用用于sherenga、pnovo和uninovo的dag模型和动态规划获得候选路径之后,使用off作为对这些路径进行评分的参考。
[0118]
在基于肽的数据存储中,氨基酸是由位“0”和“1”的任意组合产生的,因此肽序列是完全随机的。因此,没有适当的训练序列可用于现有的测序算法。此外,基于肽的数据存储可以使用一些或全部天然氨基酸,这取决于肽的设计。另外,可以使用非天然氨基酸。
[0119]
动态算法的一个限制是没有为承载数字数据的肽的测序提供训练谱。因此,利用基于图模型的从头测序来确定肽序列。在图模型中,ms/ms谱由dag表示,称为谱图。谱的峰可以作为顶点,而当两个峰之间的质量差等于氨基酸的质量时,在两个顶点之间增加一条边。动态规划的目标是找到图中从首顶点到尾顶点的最长路径(或最佳路径)。识别序列的备选方法是从ms/ms谱的中间部分开始。例如,序列标签方法首先推断被称为标签的部分序列,然后寻找能够与该标签相匹配的整个序列。在基于标签的方法中,首先根据一些评分方案从ms/ms谱中寻找标签。然后,序列的推断依赖于使用数据库搜索方法进行肽对比,或者依赖于使用从头测序在路径的中间位置延长标签的有效路径。
[0120]
表1概述了肽测序问题,已知所用氨基酸的信息、谱s、整个序列的质量以及首氨基酸和尾氨基酸。测序问题是寻找其理论谱t(p)与实验谱s最佳匹配的肽p。在许多实际情况下,肽序列的长度n是固定的且已知的。因此,长度不等于n的候选肽被丢弃。本文公开了两种测序方法,即两阶段测序方法和基于最高强度标签的测序方法。对于这两种方法,通过首
先用少量可靠信息推断部分序列、然后用不太可靠的数据或原始数据寻找序列的缺失部分来估计序列。这种方法的优点是通过产生较少数量的候选序列来提高测序的速度。此外,由于标签的引入,基于最高强度标签的测序方法在拒绝不太可能的候选序列方面更有效。
[0121]
表1.肽序列问题的说明
[0122][0123][0124]
d.肽测序:两阶段测序方法
[0125]
图3示出了用于说明两阶段测序方法100的示例性步骤的流程图。两阶段测序方法100包括四个步骤:预处理、候选序列产生、序列选择和候选细分。如图3所示,步骤110、120和130属于第一阶段(即阶段1),而步骤140在第二阶段(即阶段2)中处理。在两阶段测序方法100的阶段1中,在执行步骤110之后,使用预处理数据来推断部分序列。在阶段2中,基于原始数据确定序列的其余部分。
[0126]
在步骤110中,进行预处理。预处理有两个目的。第一个目的是去除一些由噪音和不确定性导致的不可解释的峰。第二个目的是将质荷比集合(m/z)转换为对应的质量集合m
′b和m
′y。给定质荷比(m/z)的集合,在这些比值处信号峰出现在实验光谱s中,这些比值被分成ρ个子集g1,g2,
…
,g
ρ
,其中在每个子集gi,i∈{1,2,
…
,ρ}中,所有(m/z)比值都是具有相同化学成分的特定片段的同位素。此外,每个子集中的同位素具有相同的电荷状态,由正整数值(通常为1、2或3)的电荷表示。对于每个子集gi,通过m
′i=(m/z)
i,0z′
i,0-mhz
′
i,0
,i=1,2,
…
,ρ计算单同位素质量m
′i,其中(m/z)
i,0
是这个子集中的最低值,z
′
i,0
是(m/z)
i,0
的对应电荷。然后,将这些m
′i值在质量集合m
′b和m
′y之间分布。在某些实施例中,分布准则之一基于与m
′i值对应的强度。在某些实施例中,分布的准则之一是gi中的(m/z)比值的同位素模式。在某些实施例中,分布的准则之一基于以下事实:若m
′i在m
′
b,i
中,则在m
′
y,j
中存在对应的m
′j,其中m
′j=m-m
′i。在某些实施例中,所述分布是在稍后说明的步骤120中实时确定的。
在某些实施例中,只有那些具有典型电荷特性的数据被保留作为预处理数据,从而预处理数据可能比原始数据更可靠。但是,在数据不完整或不明确的情况下(例如缺乏电荷特性的数据),在基于上述准则的预处理中,一些有用的质量值可能被丢弃。因此,在阶段1中存在序列的缺失/不确定的元素的情况下,可以在阶段2中考虑原始数据。
[0127]
在步骤120中,使用来自步骤110的预处理数据来寻找有效路径(序列),并且对候选序列的数量n进行计数。请参考图4,其中示出了谱图200作为说明本公开的一个实例。假定m
ngroup
=mh,且m
cgroup
=m
oh
。使用图论模型来寻找候选路径(有效路径),每个路径在dag中以首质量m
head
开始,并以质量m-m
h-m
cgroup-m
tail
结束。由于通过质荷比集合(m/z)获得的质量可能是由b离子、y离子、或者b离子和y离子两者产生的,因此在路径寻找算法中可以考虑单个质量集合(m
′
b,i
或m
′
y,i
)或两个质量集合(m
′
b,i
和m
′
y,i
)。在图形模型中,片段离子的质量可以用顶点来表示。若两个片段离子之间的质量差异等于任何氨基酸的质量,则在这两个顶点之间增加一条边。如图4所示,该树可以逐边扩展。若正确路径的顶点集合是完整的,则测序问题可以简化为寻找图中最长的路径。该路径应包括首顶点和尾顶点。此外,只有那些以质量m结束的路径被作为候选路径。在图4的实例中,只有路径1和路径2是候选路径。
[0128]
为肽测序选择适当的质量集合强烈基于肽设计。在一个实施例中,f是首氨基酸(n端的固定氨基酸),r或k是尾氨基酸(c端的固定氨基酸),在中间没有p或其它基本氨基酸。以前的实验数据表明,电荷2的母离子峰是最强的峰,而电荷3的峰非常弱,在选择电荷2的峰进行ms/ms时,y离子比b离子强得多。在这种情况下,将只分析电荷2的峰的ms/ms谱。此外,使用y离子的质量足以找到所有序列,因此仅使用y离子。在另一个实施例中,h是首部,r是尾部,在中间没有p或其它基本氨基酸。在这种情况下,电荷3的峰可能比电荷2的峰强得多,或者与电荷2的峰一样强。此时将分析一个或两个母峰的ms/ms谱。在电荷为2时,使用y离子的质量足以找到所有序列,因此仅使用y离子。但是,在电荷为3时,y离子和b离子都被使用。在另一个实施例中,首部和尾部不是基本氨基酸,电荷通常是2,并且使用y离子和b离子。
[0129]
由于ms/ms表征中的不完全碎裂,在一个序列中经常观察到两个和三个缺失离子。在所考虑的肽的公开模型下,为了确保从首部开始的路径能够延伸到尾部,在阶段1中假定缺失的氨基酸的数量最多为l
aac
。从m
b,1
=0的质量开始,首先尝试找到首氨基酸的质量,m
b,2
=m
head
+δ1。接下来,通过使用预处理数据找到质量m
b,i+1
,使得当前顶点和下一个顶点之间的质量差近似为质量si或最多l
aac
个具有质量sv∈g(对于v=1,2,
…
,n)的氨基酸的质量和(其中l≤l
aac
),即对于两个连续的顶点i和i+1,m
b,i+1
=m
b,i
+(si+δi),或者,m
b,i+l
=m
b,i
+(其中δ
i,i+l
∈[-lδ,+lδ]是用于从顶点i到顶点(i+l)的长度为l的标签)。请参考图4。假设路径2是正确的路径,但是具有实验质量,对于两个连续的顶点,m
b,1
=0,m
b,i+1
=m
b,i
+(mi+δi),或者,对于长度为l的标签,若路径1是具有理论质量的正确路径,则m
b,i+1
=m
b,i
+mi,其中m
b,1
=m
ngroup-mh,m
b,2
=(m
ngroup-mh)+m
head
,......,m
b,n
=m-m
h-m
cgroup-m
tail
,m
b,n+1
=m-m
h-m
cgroup
,并且m
b,n+2
=m。请参考图4。若两个顶点之间的质量差等于一个氨基酸的质量,则添加一个实线边。另一方面,若该质量差等于两个或两个以上氨基酸的质量和,则添加一条虚线边,并以空心圆圈代表缺失的顶点。
[0130]
在步骤130中,在从步骤131到步骤135得到候选序列的分数时,联合考虑以下五个因素的影响:所获取的连续氨基酸的长度(步骤131)、所获取的氨基酸的数量(步骤132)、匹配误差(步骤133)、所获取的氨基酸的平均强度(步骤134)、以及具有不同偏移量的不同离子类型的出现次数(步骤135)。首先选择所获取的连续氨基酸的长度最长的序列(步骤131)。在选择的序列中,随后选择具有所获取的最大数量的氨基酸的序列(步骤132)。对于所获取的连续氨基酸长度相等并且所获取的氨基酸数量相等的序列,评估匹配误差。如上文所述,该匹配误差是从实验谱中获取的氨基酸的观测质量值与氨基酸的实际质量值之间按相应的观测质量值归一化的平均误差(步骤133)。若不止一个序列具有相同的匹配误差,则进一步计算所获取的氨基酸的平均强度,并为具有较大平均强度值的序列赋予较高的分数(步骤134)。此外,多种离子类型通常被认为是推断氨基酸时的重要因素。这意味着质量值可能与谱中的不同类型的离子对应。通常,氨基酸的不同离子类型出现的次数越多,该氨基酸就越有可能是正确的。因此,对于在执行了上述步骤131-134的评估之后具有相同分数的序列,对不同离子类型的出现次数进行计数以确定所述序列(步骤135)。n端a离子、b离子和c离子类型集合的质量偏移集合(即{a,a-h2o,a-nh3,a-nh
3-h2o}、{b,b-h2o,b-h2o-h2o,b-nh3,b-nh
3-h2o}和{c,c-h2o,c-h2o-h2o,c-nh3,c-nh
3-h2o})分别是{-27,-45,-44,-62}、{+1,-17,-35,-16,-34}和{+18,0,-18,+1,-17}。通过将c离子和b离子类型集合的质量分别移动+27和+18,能够计算c端x离子和y离子类型集合的质量偏移集合。根据碎裂方法和数据的特性,可以灵活使用上述全部或部分离子类型。
[0131]
在步骤120中获得的候选序列是通过使用预处理数据找到的,该预处理数据的目的是为产生部分序列提供更可靠的信息。但是,在由预处理提供的数据不足时,在候选序列中可能存在aac。在步骤140中,若存在具有缺失质量值的选定序列,这意味着相应的质量差等于至少两个氨基酸的总和,则在阶段2中可以使用原始数据,以便为路径找到尽可能多的顶点。对于原始数据,假定所有(m/z)比值都有机会由单电荷、双电荷或三电荷离子产生,那么可以将具有q个质荷比(m/z)i,i=1,2,
…
,q的集合转化为推定的b离子的质量集合m
′b和推定的y离子的等效b离子质量集合m
′y,集合m
′b和m
′y中的每一个具有3q个元素。虽然质量值的数量增加了,但是仅考虑aac的头部质量与尾部质量之间的范围,并且该范围与整个序列的范围相比较小。如图4所示,路径1中示出了等于4个氨基酸的质量和的差异。利用由原始数据提供的更多信息,能够发现所述差异的以下情况:(a)氨基酸和aac的组成、(b)两个aac的组成、(c)标签和aac的组成、以及(d)一个标签。注意,间距等于更多氨基酸的质量和有效地确保能够形成有效的路径。但是,可能产生更多的候选序列,因此肽测序需要更长的时间。
[0132]
如图3所示,在步骤141中找到aac的缺失氨基酸后,将在aac中获取的具有最长的连续氨基酸长度的序列选为候选序列(步骤142)。若在选择后还剩下至少两个候选序列,则基于在aac中获取的每个序列的氨基酸的匹配误差做出最终决定(步骤143)。
[0133]
e.肽测序:基于最高强度标签的测序方法
[0134]
首先识别与第一或第二最高强度对应的质荷比(m/z),以进一步推断标签或路径。在基于最高强度标签的测序方法中,在基于标签的方法中使用具有三个氨基酸的短标签,例如gutentag、directag和novohcd。虽然具有较短长度的标签能够避免引入不正确的氨基酸,但是候选标签的数量较大,并且有时因标签提供的信息不足而难以推断序列。请注意,
标签的长度不是固定的,如果数据是完整的,那么其最大长度可以是肽的长度,从而有助于减少搜索空间。在标签包含不正确的氨基酸时,通常不能用有效的前缀和后缀部分来扩展它。在这种情况下,通过自适应地减少用于标签查找算法的较高强度的数据点的数量来缩短标签的长度。此外,由于数据的不确定性,在正确的路径中可能不一定存在具有最高强度的顶点。在无法找到有效路径时,可以推断具有第二最高强度的标签。
[0135]
图5示出了在基于最高强度标签的测序方法300中使用的示例性步骤的流程图。方法300从用于预处理原始数据的步骤302开始。步骤302与两阶段排序方法100的步骤110相同。方法300然后从步骤302进行到步骤304、306和308。
[0136]
在步骤304、306和308中,对预处理数据的强度从最大到最小排序,其中j表示强度的排名。然后识别具有最高强度的质荷比,并将该质荷比转换成b离子的相应质量。在开始时,它被设置为j=1和i=1,并且在标签寻找处理中仅使用具有较高排名w=wi(w1>w2>
…
>wv)的质荷比。
[0137]
在步骤302和304中,对于每个序列,预处理单元还输出(i)基于电荷(最常见的是2或3)的质量集合(即y离子的集合、或y离子和b离子的集合)的选择,以及(ii)基于母离子的同位素模式的整个序列的质量m(=m
out
或m
out
–
1.007276da)的确定,其确定方式与如上文所述的预处理步骤(即步骤110)中的方式类似,其中m
out
是与最高强度对应的质谱仪的质量输出,该最高强度可以是单同位素峰或下一个峰(质量+1.007276da)。
[0138]
为肽测序选择适当的质量集合强烈基于肽设计。在一个实施例中,f是首氨基酸(n端的固定氨基酸),r或k是尾氨基酸(c端的固定氨基酸),在中间没有p或其它基本氨基酸。以前的实验数据表明,电荷2的母离子峰是最强的峰,而电荷3的峰非常弱,在选择电荷2的峰进行ms/ms时,y离子比b离子强得多。在这种情况下,将只分析电荷2的峰的ms/ms谱。此外,使用y离子的质量足以找到所有序列,因此仅使用y离子。在另一个实施例中,h是头部,r是尾部,在中间没有p或其它基本氨基酸。在这种情况下,电荷3的峰可能比电荷2的峰强得多,或者与电荷2的峰一样强。将分析一个或两个母峰的ms/ms谱。在电荷为2时,使用y离子的质量足以找到所有序列,因此仅使用y离子。但是,在电荷为3时,y离子和b离子都被使用。在另一个实施例中,头部和尾部不是基本氨基酸,电荷通常是2,并且将使用y离子和b离子。
[0139]
方法300然后进行到步骤310,以寻找基于最高强度的标签。从具有最高强度的b离子的质量m
′
b,j
或y离子的质量m
′
y,j
开始,通过同时前向连接指向路径的尾顶点的顶点和后向连接指向路径的首顶点的顶点来找到基于最高强度的标签。在此,顶点的质量差是任何氨基酸的质量gk(k=1,
…
,k),并且标签的长度应尽可能长(参见图6)。随后获得包含具有最高强度的氨基酸的标签,并将该标签称为基于最高强度的标签。知道了基于最高强度的标签的首氨基酸和尾氨基酸的质量之后,方法300进行到步骤312,通过使用在两阶段测序方法100的步骤120中说明的方法找到能够将路径的头部前向连接至标签的头部的前缀。对于具有有效前缀的标签,在步骤314中,通过使用类似的方法将标签的尾部链接至正向路径的尾部,能够进一步找到序列的后缀部分。
[0140]
在步骤312和314中的前缀和后缀寻找过程中,适当地设置aac的最大长度非常重要,这使得即使在一些质量不可靠时,也能够找到更多的有效序列。设置aac的最大长度以限制前缀或后缀中的每个aac的长度。预处理数据相对可靠,并为每个输出质量提供质量-强度模式。因此,使用预处理数据首先找到具有一个或多个aac的主路径。此外,该路径连接
前缀部分的首氨基酸、后缀部分的尾氨基酸和最高强度标签。如果aac的最大长度很小(例如3或4),那么搜索时间很短,但可能找不到一些有效路径。若找不到前缀部分或后缀部分,可以将aac的最大长度调整到足够大的值(例如10)。在图7和图8中分别示出了电荷3和电荷2的前缀和后缀寻找方法500的细节。设前缀的aac的两个最大长度为l
p1
和l
p2
,其中l
p2
>l
p1
,后缀的aac的两个最大长度为l
s1
和l
s2
,其中l
s2
>l
s1
。如图4中示出的aac(b)所示,在获得最高强度的标签之后,首先使用l
p1
来寻找前缀。若找不到前缀,则使用l
p2
来寻找前缀。在找到有效的前缀之后,首先使用l
s1
来寻找后缀。若寻找失败,则使用l
s2
。根据谱的性质,两对(l
p1
,l
s1
)和(l
p2
,l
s2
)中的每一对的长度可以相等或不同。对于4095序列数据集,使用l
p1
=l
s1
=3以及l
s2
=10>l
p2
=6。在电荷为2时,只考虑l
p1
和l
s1
,如图7所示。
[0141]
在步骤316中,可以通过组合以下三个部分来构建候选路径:前缀、标签和后缀。在步骤318中,可以按照两阶段测序方法100的步骤130和140来选择和细分序列。请注意,用于w的较大值有时会在标签的头部和/或尾部引入一个或多个不正确的氨基酸,而用于w的较小值可能会给出更可靠的标签,但是标签的长度可能会受到限制。因此,在步骤322和324中,如果未找到有效的候选序列,那么可以通过将i加1(即i
←
i+1)来尝试减小w的值(w=wi),并且重复标签-前缀-后缀寻找过程,直到能够找到候选序列或者达到i=v(其中v是最大迭代次数)。
[0142]
在步骤332和334中,在具有最高强度的实验质量因噪声和不确定性而给出不可靠的消息时,找不到基于最高强度的标签或具有基于最高强度的标签的有效路径。在这种情况下,通过设置j
←
j+1和i=1来使用具有第二最高强度的质量,以找到基于第二最高强度的标签和候选序列。这个过程继续,直到找到序列或达到j=j
max
(其中j
max
是允许作为寻找标签的起点的较高排名强度的质量的最大数量)。
[0143]
在一些实施例中,如上文所述,在测序中考虑y离子和b离子。为了减小搜索空间并提高测序的准确性,我们考虑以下三个步骤来选择质量集合:(1)选择y离子和b离子的质量范围;(2)消除y离子和b离子之间的质量重叠;以及(3)避免代表谱的相同峰值的两个质量在路径中共存。
[0144]
步骤1:使用y离子和b离子的质量进行测序。根据谱的性质,可以选择:(i)一些y离子质量和一些b离子质量;(ii)所有y离子质量和一些b离子质量;(iii)一些y离子质量和所有b离子质量;或(iv)所有y离子和b离子质量。当使用较多的y离子和/或b离子质量时,会在测序中引入较多的噪音和干扰。因此,使用尽可能少的质量值,以确保有效序列包括正确的序列。换句话说,上述的情况(i)是优选的。
[0145]
在情况(i)中,用于寻找路径的质量集合m
′
由m
′
={m
′b,m
′y}={m
′
b,1
,m
′
b,2
,
…
,m
′
b,l
,m
′
y,1
,m
′
y,2
,
…
,m
′
y,l
}给出。对于如上所述的4095序列数据集中的肽,已经发现完整路径的后半部分可以通过使用y离子的质量获得,而前半部分主要通过使用b离子的质量获得。若质量集合是m
′
={m
′
b,1
,m
′
b,2
,
…
,m
′
b,u
,m
′
y,u+1
,m
′
y,u+2
,
…
,m
′
y,l
},则对于每个i=1,2,
…
,l,路径不包含质量m
′
b,i
和m
′
y,i
。一种简单的设置方法是设置u,使得m
′
b,u
是接近m/2的最大值。此时用于寻找路径的质量集合m
′
包含m/2以下的m
′b中的b离子的质量和m/2以上或等于m/2的m
′y中的y离子的质量,即对于i=1,2,
…
,u,m
′
b,i
<m/2,并且,对于i=u+1,u+2,
…
,l,m
′
y,i
≥m/2。
[0146]
步骤2:对于某些谱,仅使用集合{m
′
b,1
,m
′
b,2
,
…
,m
′
b,u
}中的质量(其中对于i=1,
2,
…
,u,m
′
b,i
<m/2)不能完全覆盖路径的前半部分的范围,因此需要y离子的一些信息来获得位于m/2附近的一个或两个正确的质量。在此我们调整用于测序的质量集合,并包括y离子的质量m
′
y,i
≥m/2-e(对于i=v+1,v+2,
…
,l)(在此设定e=200)和b离子的质量m
′
b,i
<m/2(对于i=1,2,
…
,u),即m
′
={m
′
b,1
,m
′
b,2
,
…
,m
′
b,u
,m
′
y,v
,m
′
y,v+1
,
…
,m
′
y,u
,m
′
y,u+1
,
…
,m
′
y,l
},其中u>v。在质量m/2-e到m/2的范围内,b离子的质量可以与y离子的质量重叠,这意味着谱的不同峰产生相同的质量,即m
′
b,i
=m
′
y,i
。我们假定在m
′
b,i
=m
′
y,i
和m
′
b,i+1
=m
′
y,i+1
时在谱中存在质量对p1={m
′
y,i
,m
′
y,i+1
}、p2={m
′
y,i
,m
′
b,i+1
}、p3={m
′
b,i
,m
′
y,i+1
}和p4={m
′
b,i
,m
′
b,i+1
}。然后我们把这四对p1~p4合并成一对。一般来说,在实验质量与理论质量之间存在偏差。然后我们按照p1>p4>p3>p2给定优先级。在找到所有四对之后,选择质量对p1,去除质量对p2、p3和p4。类似地,若只找到两个质量对p2和p4(或p3和p4),则只保留p4。
[0147]
步骤3:根据反对称要求[sherenga],只有质量m
′
b,i
或m-m
′
b,i
(m
′
y,i
或m-m
′
y,i
)可以出现在路径中,以避免同一峰在谱中出现两次。假定质量m
′
b,j
(或m
′
y,j
)是标签的质量之一。我们在集合m
′
中去除质量m-m
′
b,j
(或m-m
′
v,j
)来进一步寻找前缀部分。接下来,假定质量m
′
b,k
(或m
′
y,k
)是前缀部分的质量之一。我们在集合m
′
中去除质量m-m
′
b,k
(或m-m
′
y,k
),并继续寻找后缀部分。
[0148]
在步骤304和306的上述说明中,假定肽的所有质量和相应的计算是精确的。实际上,谱给出的质量具有容差,因此所有计算都在容差范围内进行。
[0149]
f.基于序列的设计的校验方法
[0150]
图9示出了候选序列的校验方法600的示意图。对于每个通过使用基于最高强度的标签测序方法300获得的候选序列,我们基于肽的设计执行以下三个校验步骤。
[0151]
首先,序列的长度可以是15、16、17、18或19。如上文中在肽序列的设计中所述,序列的长度与其在整个块中的地址直接相关。因此,序列的有效性可以通过(i)基于其地址评估序列的预期长度和(ii)将预期长度与实际长度进行比较来确定。该校验在图9中示出为校验步骤610。
[0152]
其次,若存在具有有效长度的输出序列,并且该序列包含氨基酸“l”,则进一步校验氨基酸“g”和“l”的顺序。该校验在图9中被示为校验步骤620。先找到最后一个氨基酸“l”的位置p
l
和第一个氨基酸“g”的位置pg,然后比较p
l
和pg。若p
l
>pg,则序列无效,并将其丢弃。
[0153]
第三,若能够成功地找到一个序列,则根据序列的顺序校验位进行顺序校验。该校验在图9中被示为校验步骤630。根据估计的符号对{s1,s2}、{m2,s3}和{s
l
′‑1,s
l
′
}的顺序,基于预先定义的规则产生顺序校验位。将产生的顺序校验位与估计的符号s5中的相应位进行比较,以检查它们是否相同。例如,若s1和s2的顺序没有错误,则为{s1,s2}产生的顺序校验位应与估计的符号s5的第一位相匹配。若产生的顺序校验位与估计序列中的s5的所有三个位都不匹配,则应去除该块中的估计序列。
[0154]
最后,若该序列能够通过所有三个校验过程,则输出这个序列,作为一个有效序列。
[0155]
应注意,三个校验步骤610、620、630可以按任何顺序执行,而无需严格地按照如图9所示的上述顺序执行。此外,不是所有三个校验步骤610、620、630都可能在验证中一起使用。可以使用三个校验步骤610、620、630中的一个或多个的任何组合。
[0156]
虽然校验方法600被示为用于基于最高强度的标签测序方法300,但是也可以将校验方法600用于两阶段测序方法100中的应用。不过,一些校验步骤610、620、630可能需要针对两阶段测序方法100进行修改。例如,甚至在步骤120中搜索有效路径期间,也可能观察到对特定长度的要求。在某些实际情况下,校验步骤610可能不是必须实施的。
[0157]
g.样例数据
[0158]
使用上述方法对使用如上所述的4095肽块中的前50个地址编码的肽混合物进行了测序,其中f为首部,r为尾部(序列的详细信息在表3中示出)。该混合物的tic在图10中示出。所有肽都被正确测序。
[0159]
表3.50种肽的序列的详细信息
[0160]
[0161]
[0162]
[0163][0164]
h.本公开的实施例的详细说明
[0165]
下面将基于如上文所公开的两阶段测序方法100、基于最高强度标签的测序方法300和校验方法600的细节、实例、应用等阐述本公开的实施例。
[0166]
本公开的一个方面提供了一种用于根据实验谱对数据编码肽进行测序的计算机实现方法。该方法提供以下三个输出之一。在对应于最佳情况的第一个输出中,肽序列的估计在对数据编码的肽进行测序时唯一确定。在第二个输出中,产生了肽序列的多个估计。在第三个输出中,没有找到估计值。
[0167]
图11示出了所公开的计算机实现方法(为了方便起见,称为1100)的示例性步骤的流程图。方法1100包括步骤1110、1120、1130、1140和1150。
[0168]
在步骤1110中,对实验谱的原始数据进行预处理,以去除不可解释的峰,从而产生预处理数据。如上文所述,实验谱的原始数据是强度对质荷比的直方图数据,该数据最初是在通过质谱对数据编码肽进行分析中获得的。步骤1110与两阶段测序方法100的步骤110和基于最高强度标签的测序方法300的步骤302对应。现在借助于图12进一步阐述步骤1110,图12示出了在步骤1110中执行的示例性步骤的流程图。
[0169]
示例性地说,步骤1110包括步骤1210、1220、1230和1250。在步骤1210中,将原始数据的质荷比集合分成多个子集,其中每个质荷比在实验谱中都具有信号峰。每一个子集由数据编码肽的相应片段的同位素的质荷比组成。此外,片段的同位素具有相同的正整数值电荷。通常,电荷具有的值为1、2或3。然后,在步骤1220中,为各个子集计算片段的单同位素质量。在步骤1230中,还根据与各个子集中的质荷比相关联的强度来计算片段的强度。例如,片段的强度可以通过将与各个子集中不同质荷比相关联的强度值相加来计算。为多个子集重复步骤1220和1230。在步骤1250中,产生预处理数据。所述预处理数据包括多个质量和多个强度。所述多个质量是由各个子集的片段的单同位素质量形成的。多个质量中的各个质量与多个强度中的相应强度相关联。
[0170]
优选地,所述预处理数据还包括实验谱的推定的b离子的第一质量集合和推定的y离子的第二质量集合。步骤1110还包括在执行步骤1250之前将多个质量中的相应质量分布到第一质量集合和第二质量集合中的步骤1240。
[0171]
请参考图11。在步骤1110中获得预处理数据之后,在步骤1120中从谱图中识别竞争所述肽的肽序列的一个或多个候选序列的第一集合,其中所述谱图是根据预处理数据而不是原始数据形成的。结果,产生更少数量的候选序列,从而有利地减少了测序中的时间成
本。步骤1120与两阶段测序方法100的步骤120和基于最高强度标签的测序方法300的步骤304、306、308、310、312、314和316对应。
[0172]
在步骤1120中获得第一候选序列集合之后,在步骤1130中处理第一候选序列集合以估计所述肽序列。
[0173]
在获得肽序列的一个或多个估计序列的集合后,需要验证每个估计序列是否有效,以便可以消除任何无效的肽序列的估计序列。步骤1140是验证各个肽序列估计序列是否无效。在步骤1140中,各个肽序列估计序列是否无效可以通过以下方式确定:根据肽序列的预定正确长度校验各个肽序列估计序列的长度;在各个肽序列估计序列中对氨基酸“g”和“l”进行顺序校验;基于数据编码肽中携带的顺序校验位进行顺序校验;或其任何组合。在步骤1150中,清理肽序列的一个或多个估计序列的集合,以去除在步骤1140中任何发现的无效的肽序列估计。
[0174]
优选地,在步骤1120中基于对合适的质量集合的搜索来识别第一候选序列集合中的各个候选序列。如果在实验谱中识别的母离子峰具有值为2的电荷,则优选地通过搜索第二质量集合来识别或确定第一候选序列集合中的各个候选序列。如果母离子峰的电荷值为3,则通过搜索第一和第二质量集合来识别第一候选序列集合中的各个候选序列。
[0175]
步骤1120包括步骤130和140,并详述如下。
[0176]
若第一候选序列集合由单个候选序列组成,则将第一候选序列集合中的单个候选序列指定为所述肽序列的一个估计序列。否则,从第一候选序列集合中选择一个或多个候选序列以形成一个或多个候选序列的第二集合,从而第二候选序列集合中的一个或多个候选序列比第一候选序列集合中未被选择的候选序列更有可能是所述肽序列(步骤130)。
[0177]
若第二候选序列集合由单个候选序列组成,则将第二候选序列集合中的单个候选序列指定为所述肽序列的一个估计序列。
[0178]
若第二候选序列集合由多个不含任何aac的候选序列组成,则将第二候选序列集合中的多个候选序列指定为所述肽序列的估计序列。
[0179]
若第二候选序列集合由多个包含一个或多个aac的候选序列组成,则使用原始数据来为所述一个或多个aac确定有效氨基酸序列。在确定了有效氨基酸序列之后,对第二候选序列集合中的候选序列进行细分,以产生一个或多个候选序列的第三集合。所述第三候选序列集合是通过从第二候选序列集合使用确定的有效氨基酸序列替换所述一个或多个aac然后丢弃任何具有未确定的aac的候选序列而获得的(步骤141)。
[0180]
若第三候选序列集合由单个候选序列组成,则将第三候选序列集合中的单个候选序列指定为所述肽序列的一个估计序列。否则,从第三候选序列集合中选择一个或多个候选序列,以形成一个或多个候选序列的第四集合,从而第四候选序列集合中的一个或多个候选序列比第三候选序列集合中未被选择的候选序列更有可能是所述肽序列(步骤142和143)。
[0181]
若第四候选序列集合由单个候选序列组成,则将第四候选序列集合中的单个候选序列指定为所述肽序列的一个估计序列。否则,将第四候选序列集合中的多个候选序列指定为所述肽序列的估计序列。
[0182]
在某些实施例中,步骤130如下所述。首先,在第一候选序列集合的候选序列中选择一个或多个具有最长的连续氨基酸长度的候选序列,以形成第五候选序列集合(步骤
131)。若第五候选序列集合由单个候选序列组成,则将第五候选序列集合指定为第二候选序列集合。否则,从第五候选序列集合中的多个候选序列中选择一个或多个具有最大数量的氨基酸的候选序列,以形成第六候选序列集合(步骤132)。若第六候选序列集合由单个候选序列组成,则将第六候选序列集合指定为第二候选序列集合。否则,从第六候选序列集合中的多个候选序列中选择一个或多个具有最小匹配误差的候选序列,以形成第七候选序列集合(步骤133)。若第七候选序列集合由单个候选序列组成,则将第七候选序列集合指定为第二候选序列集合。否则,从第七候选序列集合中的多个候选序列中选择一个或多个具有最高的所获取的氨基酸的平均强度值的候选序列,以形成第八候选序列集合(步骤134)。若第八候选序列集合由单个候选序列组成,则将第八候选序列集合指定为第二候选序列集合。否则,从第八候选序列集合中的多个候选序列中选择一个或多个具有不同偏移量的不同离子类型的出现次数最高的候选序列,以形成第二候选序列集合(步骤135)。
[0183]
在某些实施例中,步骤140如下所述。从第三候选序列集合中选择一个或多个在确定的有效氨基酸序列中具有最大数量的氨基酸的候选序列,以形成第九候选序列集合(步骤142)。若第九候选序列集合由单个候选序列组成,则将第九候选序列集合指定为第四候选序列集合。否则从第九候选序列集合中选择一个或多个在确定的有效氨基酸序列中具有最小匹配误差的候选序列,以形成第四候选序列集合(步骤143)。
[0184]
步骤1120可以被实现为步骤120。在某些实施例中,步骤1120如下所述。
[0185]
首先在谱图中识别一条或多条有效的并且具有最长长度的路径,其中有效路径始于首顶点,并止于具有所述数据编码肽的质量的尾顶点。然后使用所识别的一个或多个路径中的每一个来产生新的候选序列。将新的候选序列分配给第一候选序列集合,除非新的候选序列因一些另外的考虑而被丢弃。
[0186]
步骤1120可以实现为步骤304、306、308、310、312、314和316。在某些实施例中,步骤1120具有以下步骤。
[0187]
步骤a:按各个质量的对应强度的降序对所述多个质量进行排序,从而形成有序质量序列,其中所述有序质量序列对所述多个质量进行排名,其中排名最高的质量与最高的对应强度相关联(步骤304)。
[0188]
步骤b:给定所述有序质量序列中的选定质量和较高排名的质量的选定数量,在谱图中识别一个或多个基于最高强度的标签(步骤310)。各个基于最高强度的标签是由具有选定质量的第一个氨基酸和多个分别具有从选定数量的较高排名的质量中选择的质量的其余氨基酸组成的部分序列。
[0189]
步骤c:处理所述一个或多个基于最高强度的标签。具体而言,处理各个基于最高强度的标签包括以下任务:确定各个基于最高强度的标签的前缀和后缀(步骤312和314);若成功确定了前缀和后缀,则组合所述前缀、所述各个基于最高强度的标签和所述后缀,以形成新的候选序列(步骤316);并且,将这个新的候选序列分配给第一候选序列集合。
[0190]
在确定前缀时,优选所述前缀被识别为谱图中的有效的并且具有最长长度的第一路径,其中所述第一路径连接首氨基酸和各个基于最高强度的标签的头部,并且允许在所识别的第一路径中存在一个或多个具有至多为第一最大长度的总长度的第一aac。若母离子峰的电荷值为2,则优选在确定前缀时将第一最大长度设为l
p1
。若母离子峰的电荷值为3,则在寻找第一路径时,优选最初时将第一最大长度设为l
p1
,若在第一最大长度为l
p1
的情况
下未能找到第一路径,则将第一最大长度放宽到l
p2
,其中l
p2
>l
p1
。
[0191]
在确定后缀时,优选所述后缀被识别为谱图中的有效的并且具有最长长度的第二路径,其中所述第二路径连接各个基于最高强度的标签的尾部和尾氨基酸,并且允许在所识别的第二路径中存在一个或多个具有至多为第二最大长度的总长度的第二aac。若母离子峰的电荷值为2,则优选将第二最大长度设为l
s1
。若母离子峰的电荷值为3,则在寻找第二路径时,优选最初时将第二最大长度设为l
s1
,若在第二最大长度为l
s1
的情况下未能找到第二路径,则将第二最大长度放宽到l
s2
,其中l
s2
>l
s1
。
[0192]
步骤d:按顺序使用严格递减的值序列中的连续值作为较高排名的质量的选定数量来重复步骤b和c,直到第一候选序列集合不为空或者所述严格递减的序列被用尽(步骤322和324)。
[0193]
步骤e:从排名最高的质量开始,按顺序使用所述有序质量序列中的连续质量作为选定质量来重复步骤b-d,直到第一候选序列集合不为空或者在所述有序质量序列中达到预选数量的较高排名的质量(步骤332和334)。预选数量为j
max
。
[0194]
所公开的计算机实现方法可以通过具有适当编程的计算机系统来实现。该计算机系统是使用一台或多台计算机实现的。各台计算机可以是通用计算机、工作站、计算服务器、计算云中的分布式服务器、笔记本计算机、移动计算设备等。
[0195]
本公开可以按其它特定形式来实施,这并未脱离本公开的精神或基本特征。因此,本公开的实施例在所有方面都被认为是示例性的而不是限制性的。本发明的范围由所附权利要求而不是由前文的说明限定;因此在权利要求的等同内容的含义和范围之内做出的所有变化都应包含在本发明之内。
技术特征:
1.一种用于根据实验谱对数据编码肽进行测序的计算机实现方法,所述实验谱的原始数据是最初在通过质谱法对数据编码肽进行分析中获得的强度对质荷比的直方图的数据,所述方法包括:对原始数据进行预处理,以去除不可解释的峰,从而产生预处理数据;从谱图中识别竞争所述肽的肽序列的一个或多个候选序列的第一集合,其中所述谱图是根据预处理数据而不是原始数据形成的,以产生较少数量的候选序列,从而减少测序的时间成本;处理第一候选序列集合,以估计所述肽序列;在获得所述肽序列的一个或多个估计序列的集合后,验证各个肽序列估计序列是否无效;以及清理所述肽序列的一个或多个估计序列的集合,以去除任何发现的无效的肽序列估计序列。2.根据权利要求1所述的方法,其中所述对原始数据进行预处理以产生预处理数据包括:将原始数据的质荷比集合分成多个子集,从而使每一个子集由数据编码肽的片段的同位素的质荷比组成,各个质荷比在所述实验谱中具有信号峰,而所述片段的同位素具有相同的正整数值电荷;计算各个子集的片段的单同位素质量;根据原始数据和各个子集中的质荷比计算片段的强度;以及生成预处理数据,其中:所述预处理数据包括多个质量和多个强度,其中所述多个质量是由各个子集的片段的单同位素质量形成的,并且其中各个质量与相应的强度相关联;并且所述预处理数据还包括实验谱的推定的b离子的第一质量集合和推定的y离子的第二质量集合,其中所述第一质量集合和所述第二质量集合是通过将所述多个质量中的相应质量分布到第一质量集合和第二质量集合中产生的。3.根据权利要求1所述的方法,其中,从所述谱图中识别第一候选序列集合还包括:若在实验谱中识别的母离子峰具有值为2的电荷,则通过搜索第二质量集合来识别第一候选序列集合中的各个候选序列;和若母离子峰的电荷值为3,则通过搜索第一质量集合和第二质量集合来识别第一候选序列集合中的各个候选序列。4.根据权利要求1所述的方法,其中处理第一候选序列集合以估计所述肽序列包括:若第一候选序列集合由单个候选序列组成,则将第一候选序列集合中的单个候选序列指定为所述肽序列的一个估计序列,否则从第一候选序列集合中选择一个或多个候选序列以形成一个或多个候选序列的第二集合,从而第二候选序列集合中的一个或多个候选序列比第一候选序列集合中未被选择的候选序列更有可能是所述肽序列;若第二候选序列集合由单个候选序列组成,则将第二候选序列集合中的单个候选序列指定为所述肽序列的一个估计序列;若第二候选序列集合由多个不含任何氨基酸组合aac的候选序列组成,则将第二候选序列集合中的多个候选序列指定为所述肽序列的估计序列;
若第二候选序列集合由多个包含一个或多个aac的候选序列组成,则使用原始数据来为所述一个或多个aac确定有效氨基酸序列;在确定了有效氨基酸序列之后,对第二候选序列集合中的候选序列进行细分,以产生一个或多个候选序列的第三集合,其中第三候选序列集合是从第二候选序列集合通过使用确定的有效氨基酸序列替换所述一个或多个aac然后丢弃任何具有未确定的aac的候选序列而获得的;若第三候选序列集合由单个候选序列组成,则将第三候选序列集合中的单个候选序列指定为所述肽序列的一个估计序列,否则从第三候选序列集合中选择一个或多个候选序列以形成一个或多个候选序列的第四集合,从而第四候选序列集合中的一个或多个候选序列比第三候选序列集合中未被选择的候选序列更有可能是所述肽序列;以及若第四候选序列集合由单个候选序列组成,则将第四候选序列集合中的单个候选序列指定为所述肽序列的一个估计序列,否则将第四候选序列集合中的多个候选序列指定为所述肽序列的估计序列。5.根据权利要求4所述的方法,其中所述从第一候选序列集合中选择一个或多个候选序列以形成第二候选序列集合包括:在第一候选序列集合的候选序列中选择一个或多个具有最长的连续氨基酸长度的候选序列,以形成第五候选序列集合;若第五候选序列集合由单个候选序列组成,则将第五候选序列集合指定为第二候选序列集合,否则在第五候选序列集合中的多个候选序列中选择一个或多个具有最大数量的氨基酸的候选序列,以形成第六候选序列集合;若第六候选序列集合由单个候选序列组成,则将第六候选序列集合指定为第二候选序列集合,否则在第六候选序列集合中的多个候选序列中选择一个或多个具有最小匹配误差的候选序列,以形成第七候选序列集合;若第七候选序列集合由单个候选序列组成,则将第七候选序列集合指定为第二候选序列集合,否则在第七候选序列集合中的多个候选序列中选择一个或多个具有最高的所获取的氨基酸的平均强度值的候选序列,以形成第八候选序列集合;以及若第八候选序列集合由单个候选序列组成,则将第八候选序列集合指定为第二候选序列集合,否则在第八候选序列集合中的多个候选序列中选择一个或多个具有不同偏移量的不同离子类型出现次数最多的候选序列,以形成第二候选序列集合。6.根据权利要求4所述的方法,其中所述从第三候选序列集合中选择一个或多个候选序列以形成第四候选序列集合包括:从第三候选序列集合中选择一个或多个在所确定的有效氨基酸序列之中具有最大数量的氨基酸的候选序列,以形成第九候选序列集合;以及若第九候选序列集合由单个候选序列组成,则将第九候选序列集合指定为第四候选序列集合,否则从第九候选序列集合中选择一个或多个在所确定的有效氨基酸序列中具有最小匹配误差的候选序列,以形成第四候选序列集合。7.根据权利要求1所述的方法,其中从所述谱图识别第一候选序列集合包括:在所述谱图中识别一条或多条有效的并具有最长长度的路径,其中有效路径始于首顶点,并止于具有所述数据编码肽的质量的尾顶点;
使用所识别的一个或多个路径中的每一个来产生新的候选序列;以及将该新的候选序列分配给第一候选序列集合。8.根据权利要求2所述的方法,其中从所述谱图识别第一候选序列集合包括以下步骤:(a)按照各个质量的相应强度的降序对所述多个质量进行排序,从而形成有序质量序列,其中所述有序质量序列对所述多个质量进行排名,其中排名最高的质量与最高的相应强度相关联;(b)给定所述有序质量序列中的选定质量和较高排名的质量的选定数量,在所述谱图中识别一个或多个基于最高强度的标签,其中各个基于最高强度的标签是由具有选定质量的第一个氨基酸和多个分别具有从选定数量的较高排名的质量中选择的质量的其余氨基酸组成的部分序列;(c)处理所述一个或多个基于最高强度的标签,其中处理各个基于最高强度的标签包括:确定各个基于最高强度的标签的前缀和后缀;若成功确定了前缀和后缀,则组合所述前缀、所述各个基于最高强度的标签和所述后缀,以形成新的候选序列;以及将所述新的候选序列分配给第一候选序列集合;(d)按顺序使用严格递减的值序列中的连续值作为较高排名的质量的选定数量来重复步骤(b)和(c),直到第一候选序列集合不为空或者所述严格递减的序列被用尽;以及(e)从排名最高的质量开始,按顺序使用所述有序质量序列中的连续质量作为选定质量来重复步骤(b)-(d),直到第一候选序列集合不为空或者在所述有序质量序列中达到预选数量的较高排名的质量。9.根据权利要求8所述的方法,其中确定各个基于最高强度的标签的前缀和后缀包括:将所述前缀识别为所述谱图中的有效的并且具有最长长度的第一路径,其中:第一路径连接首氨基酸和各个基于最高强度的标签的头部;允许一个或多个总长度至多为第一最大长度的第一氨基酸组合aac出现在所识别的第一路径中;若所述实验谱中确定的母离子峰的电荷值为2,则将第一最大长度设为l
p1
;以及若所述母离子峰的电荷值为3,则在寻找第一路径时,最初时将第一最大长度设为l
p1
,若在第一最大长度为l
p1
的情况下未能找到第一路径,则将第一最大长度放宽到l
p2
,其中l
p2
>l
p1
;以及将所述后缀识别为所述谱图中的有效的并且具有最长长度的第二路径,其中:第二路径连接各个基于最高强度的标签的尾部和尾氨基酸;允许一个或多个总长度至多为第二最大长度的第二aac出现在所识别的第二路径中;若所述母离子峰的电荷值为2,则将第二最大长度设为l
s1
;以及若所述母离子峰的电荷值为3,则在寻找第二路径时,最初时将第二最大长度设为l
s1
,若在第二最大长度为l
s1
的情况下未能找到第二路径,则将第二最大长度放宽到l
s2
,其中l
s2
>l
s1
。10.根据权利要求1所述的方法,其中,验证各个肽序列估计序列是否无效包括根据肽
序列的预先确定的正确长度校验各个肽序列估计序列的长度。11.根据权利要求1所述的方法,其中,验证各个肽序列估计序列是否无效包括在各个肽序列估计序列中对氨基酸“g”和“l”进行顺序校验。12.根据权利要求1所述的方法,其中,验证各个肽序列估计序列是否无效包括基于在数据编码肽中携带的顺序校验位执行顺序校验。
技术总结
肽测序在解码存储在数据编码肽中的数据中很重要。串联质谱(MS/MS)对于肽测序特别有用。在用于根据实验谱对数据编码肽进行测序的计算机实现方法中,首先对实验谱的原始数据进行预处理,以去除不可解释的峰,从而产生预处理数据。从谱图中识别竞争所述肽的肽序列的一个或多个候选序列的第一集合。所述谱图是根据预处理数据而不是原始数据形成的,以产生较少数量的候选序列,从而减少测序的时间成本。然后处理第一候选序列集合,以估计所述肽序列,从而获得肽序列估计序列的集合。验证每个估计序列是否无效。清理肽序列估计序列的集合以去除任何无效估计序列。除任何无效估计序列。除任何无效估计序列。
技术研发人员:姚钟平 伍卓知 刘重明 谭伟文
受保护的技术使用者:香港理工大学
技术研发日:2023.04.10
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:具有固有抗微生物性质的导管的制作方法 下一篇:原板片的制作方法