-
公开(公告)号:CN110349621A
公开(公告)日:2019-10-18
申请号:CN201910482412.6
申请日:2019-06-04
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种肽段-谱图匹配可信度检验方法、系统、存储介质及装置,包括:将待检测结果中图谱数据输入至开放式搜索引擎,得到待检测结果的鉴定结果;获取限定式搜索引擎对待检测结果的打分,得到第一分值,同时提取第一分值排前n名候选肽段;获取开放式搜索引擎对鉴定结果的打分,得到第二分值,同时提取第二分值排前n名候选肽段;预测每个候选肽段的理论谱图,计算每张理论谱图与待检测结果中图谱数据的余弦相似度,并统计余弦相似度中的最高值;提取由待检测结果的第一分值、第二分值、余弦相似度和最高余弦相似度值组成的四维特征;将四维特征输入至使用SVM训练的离线模型,得到待检测结果的可信度检验结果。
-
公开(公告)号:CN106770605B
公开(公告)日:2019-03-26
申请号:CN201611019740.5
申请日:2016-11-14
Applicant: 中国科学院计算技术研究所
IPC: G01N27/62
Abstract: 本发明提供了从头测序方法,其包括将待解析的谱图转化为质谱连接图,统计所述质谱连接图中各条路径的得分,提取路径得分高的前若干条普通路径和修饰路径作为候选肽段,其中,所述普通路径为仅由普通边组的路径,所述修改路径为由普通边和修饰边组成的路径且其中仅包含一条修饰边;以及对于每个候选肽段进行肽谱匹配打分,取肽谱匹配打分最高的候选肽段作为所述谱图对应的肽段。该方法可以支持上千种意外修饰的发现,而且不会对肽段鉴定的速度有较大影响。另外,还可以更细粒度地区分相似肽段序列,改善了肽段鉴定的准确率。
-
公开(公告)号:CN106248844A
公开(公告)日:2016-12-21
申请号:CN201610941299.X
申请日:2016-10-25
Applicant: 中国科学院计算技术研究所
IPC: G01N30/86
CPC classification number: G01N30/86
Abstract: 本发明提出一种肽段液相色谱保留时间预测方法及系统,涉及生物信息学,该方法包括对原始质谱数据文件进行搜索,获取肽段-谱图匹配作为鉴定结果,对于所述鉴定结果中FDR小于1%的来自目标库的肽段-谱图匹配,提取肽段-谱图匹配中相应肽段的实验保留时间,并设置训练样本与测试样本;使用所述训练样本,将带有修饰的氨基酸作为新氨基酸,建立多元线性回归模型,使用梯度下降法求解每种氨基酸的保留系数;对所述训练样本中的每条肽段,提取56维特征,并计算相应的特征值;建立预测模型,对所述测试样本中已知序列的肽段进行保留时间预测。本发明可以用于不同色谱条件下带有修饰的肽段的保留时间预测,大大提升了速度,在不同的数据集合上与Elude对比,速度加快了30倍以上。
-
公开(公告)号:CN104182658A
公开(公告)日:2014-12-03
申请号:CN201410382707.3
申请日:2014-08-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种串联质谱谱图鉴定方法,其特征在于,包括下列步骤:1)对于待鉴定谱图数据集中的每张谱图,分别在全局序列库中进行限制性搜索,获得各谱图的匹配肽段;2)根据步骤1)所得各谱图的匹配肽段,构建局部序列库,对于待鉴定谱图数据集的每张谱图,分别在所述局部序列库中进行开放式搜索,获得与一部分谱图相匹配的带修饰的肽段,并获得所带修饰的质量和误差区间;3)对于待鉴定谱图数据集中的每张谱图,根据步骤2)所匹配的修饰的质量和误差区间以及当前待鉴定谱图的质量,设定限制性搜索区间,并在全局序列库中进行搜索,获得最终的匹配结果。本发明能够提高串联质谱谱图鉴定的鉴定率和准确度,并且具有较高的搜索速度。
-
公开(公告)号:CN103776891A
公开(公告)日:2014-05-07
申请号:CN201310397694.2
申请日:2013-09-04
Applicant: 中国科学院计算技术研究所
IPC: G01N27/62
Abstract: 本发明涉及一种检测差异表达蛋白质的方法,面向定量蛋白质组学中的基于一级谱图信息的标记和非标记的相对定量数据分析,包括肽谱匹配、可信度评价、肽段信号提取、肽段比值计算、蛋白质比值计算、统计学分析,根据某蛋白质在两种或多种样品中对应的质谱信号强度比值判断其是否是差异表达蛋白质。对于近百GB的规模的质谱实验采集的数据,快速地自动化分析,对不同蛋白质在质谱仪中的信号尽可能精准地提取蛋白质信号;从统计学意义上确定蛋白质差异表达,并对结果的准确性进行评价。
-
公开(公告)号:CN102411680A
公开(公告)日:2012-04-11
申请号:CN201010292032.5
申请日:2010-09-26
Applicant: 中国科学院计算技术研究所
IPC: G06F19/18
Abstract: 本发明有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,其中该方法包括:步骤1,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,用并行处理方法,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。
-
公开(公告)号:CN107563148B
公开(公告)日:2020-06-05
申请号:CN201710701999.6
申请日:2017-08-16
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于离子索引的整体蛋白质鉴定方法与系统,包括统计碎裂位点,挖掘碎裂模式。在待测蛋白质样品的完整数据集鉴定结果中统计强度最高多根谱峰匹配到的氨基酸位点,用于离子索引表的创建。对C端碎裂的位点和N端碎裂的位点处产生的碎片离子建立倒排索引表。对于每张谱图,去除母离子峰后,提取强度最高的多根谱峰作为查询谱峰,检索离子索引表获取候选蛋白质。粗打分过滤候选蛋白质,其中粗打分采用了改进的BM25算法,并考虑了N/C端可变修饰和互补离子。本发明通过上述技术点,能兼顾高效蛋白质鉴定效率和解析率,尤其对于碎裂不是很充分的质谱数据,效果更为明显。
-
公开(公告)号:CN106198706B
公开(公告)日:2019-02-01
申请号:CN201610497295.7
申请日:2016-06-29
Applicant: 中国科学院计算技术研究所
IPC: G01N27/62
Abstract: 本发明提供一种对多肽交联肽段进行质谱鉴定的假发现率控制方法,包括:1)对于每张谱图,基于肽段匹配模型,在存储了单条肽段结构的数据库中进行搜索,得出匹配的n肽交联的鉴定结果;数据库既包括真实肽段结构也包括诱饵肽段结构;2)对于每个谱图的鉴定结果,根据该鉴定结果中分别匹配到真实肽段结构和诱饵假肽段结构的肽段数目,将该鉴定结果归类至鉴定结果集合Rk,其中Rk来表示n肽交联鉴定结果中,有k条肽段为诱饵肽段结构,(n‑k)条肽段为真实肽段结构的鉴定结果集合,0≤k≤n,n为不小于3的自然数;3)计算n肽交联的假发现率FDR(n)。本发明更加准确地估计多肽交联肽段质谱鉴定的假发现率;能够帮助提高鉴定的准确率和鉴定率。
-
公开(公告)号:CN106770605A
公开(公告)日:2017-05-31
申请号:CN201611019740.5
申请日:2016-11-14
Applicant: 中国科学院计算技术研究所
IPC: G01N27/62
CPC classification number: G01N27/62
Abstract: 本发明提供了从头测序方法,其包括将待解析的谱图转化为质谱连接图,统计所述质谱连接图中各条路径的得分,提取路径得分高的前若干条普通路径和修饰路径作为候选肽段,其中,所述普通路径为仅由普通边组的路径,所述修改路径为由普通边和修饰边组成的路径且其中仅包含一条修饰边;以及对于每个候选肽段进行肽谱匹配打分,取肽谱匹配打分最高的候选肽段作为所述谱图对应的肽段。该方法可以支持上千种意外修饰的发现,而且不会对肽段鉴定的速度有较大影响。另外,还可以更细粒度地区分相似肽段序列,改善了肽段鉴定的准确率。
-
公开(公告)号:CN106529204A
公开(公告)日:2017-03-22
申请号:CN201610905670.7
申请日:2016-10-18
Applicant: 中国科学院计算技术研究所
IPC: G06F19/16
CPC classification number: G06F19/16
Abstract: 本发明提供一种基于半监督学习的交联质谱多谱排序方法,包括:1)分别对每个谱图进行单谱匹配和排序,得到对应的最优的交联二肽单谱匹配结果;提取当前每一个肽谱匹配结果的多谱匹配特征向量,其中包括SVM分数、母离子误差比例特征和修饰比例特征等动态特征;2)在所得到的交联二肽匹配结果中,取FDR在预设的FDR阈值以内的属于正样本的结果构建正样本库,取所有负样本的结果构建反样本库;基于新的训练样本更新各个多谱匹配特征向量;3)训练SVM分类器;4)用本轮训练后的SVM分类器对所有交联二肽结果进行重打分;5)根据预设的迭代条件判断是否继续进行迭代,结束迭代时基于当前SVM分数输出多谱排序结果。本发明的多谱排序方法灵敏度高且性能稳定。
-
-
-
-
-
-
-
-
-