基于生物质谱数据鉴定单核苷酸变异的生物信息学方法
基于生物质谱数据鉴定单核苷酸变异的生物信
息学方法
单核苷酸变异(single nucleotide variations, SNVs) 是由 DNA 序列上单个碱基变异产生的, 包括碱
基的缺失、插入、转换及颠换等. SNVs 是基因组序列变异的主要形式[1], 同时也是生物体生理
和病理变异的遗传基础[2]. 从遗传学的角度看, SNVs 既可以存在于具有遗传性的生殖细胞中,
也可以存在于不具有遗传性的体细胞中. 其中, 只有位于基因编码区的 SNVs 能够影响蛋白的编
码. 位于编码区的 SNVs 可以分为 3 类: ( ) �� 同义 SNVs, 不改变相应的氨基酸种类; ( ) �� 无
义SNVs, 突变成为终止密码子, 提早结束编码; ( ) �� 非同义 SNVs(nonsynonymous
SNVs,nsSNVs), 改变氨基酸的种类. nsSNVs 能够改变蛋白的结构、功能、表达以及亚细胞定位
等[3], 进而对多种遗传性的特征、疾病以及癌症等产生影响[4~9], 如人类耳垢的类型[6]、腋窝
的气味[7]、癌症与肿瘤的发生[8]、阿尔茨海默病[9]以及镰刀形红细胞贫血症[10]等.
因此, 对SNVs 展开研究可以揭示出基因与表型多样性和基因与疾病间的关系, 并且有可能研发
出治疗疾病的新方法. 目前, 全基因组关联研究(genome-wide association studies, GWAS)[11]虽然
在基因变异与表型多样性的研究中产出了许多能够用来解释特异性疾病分子途径的结果, 但是
仍然难以对绝大部分具有复杂特征的分子机制以及 SNVs 与复杂疾病表型间的关系进行解释
[12]. 在这种情况下, 对突变蛋白的研究提供了另一种了解基因型与表型间关联的方法[13].
由SNVs 引起的单个氨基酸的变异称为单氨基酸变异(single amino acid variations, SAVs), 因此
SAVs 是SNVs 在蛋白水平上的表现. 对SAVs 的研究, 有助于了解基因型与表型间的关系, 进而
从本质上了解基因是怎样在蛋白水平上影响生物体的生命过程的[14]. 目前, 基于串联质谱的鸟
枪法蛋白质组学(shotgun proteomics)技术由于其自动化、高通量、高灵敏度和高分辨率等特点,
已成为大规模蛋白质研究的主要方法. 序列数据库搜索算法由于具有较高的可靠性以及灵敏度
而成为当今鸟枪法蛋白质组学中蛋白鉴定的主要生物信息学方法. 然而, 通常蛋白质数据库在构
建时为了减小数据库的冗余程度, 往往有意压缩对 SAVs 信息的收录( 如Swiss-Prot 数据库
[15,16], IPI 数据库[17]等), 从而使得常用的数据库搜索策略不能有效地鉴定出样本中的氨基酸
突变信息.
为此, 研究人员提出了一系列鉴定突变蛋白的方法,如构建包含有突变信息的蛋白质数据库、构
建相似性图谱库等. 在基于串联质谱进行 SAVs 鉴定时, 可以采用与蛋白质翻译后修饰(post-
translational modifications,PTMs)鉴定[18]相同的方法, 这是因为肽段的突变和修饰在质谱图中的
表现都是质量迁移, 如甲硫氨酸(Met)氧化与丙氨酸(Ala)突变为丝氨酸(Ser) 在质量上都是增加 16
Da[19], 所以鉴定 PTMs 的算法和流程通常也能够鉴定 SAVs( 如Bonanza 算法[20]). 虽然 PTMs
和SAVs 的质谱鉴定方法非常相似, 但由于其来源上的差别, 在实际的鉴定策略中有所不同.
( ) PTMs�� 的种类远比 SAVs 要多, 鉴定 PTMs 所需的搜索空间一般会比鉴定 SAVs 所需的大,
在质量控制方面具有更大的挑战; ( ) �� 蛋白水平的 SAVs 大部分是从基因组或转录组延续过
来的, 充分利用SNVs 的数据能大大降低搜索空间, 从而得到更可靠的结果. 因此在计算方法与
策略方面, SAVs 和PTMs 的鉴定具有一定的相似性, 也有其独有的特点.
本文从序列数据库搜索算法、序列标签搜索算法以及图谱库搜索算法 3 个大方面, 详细地介绍
了目前基于生物质谱数据鉴定 SAVs 的各种生物信息学方法,并分析了各种突变鉴定方法的不足
之处, 最后介绍了基于生物质谱的 SAVs 鉴定研究现状及其发展方向.
1 氨基酸突变鉴定的算法
当前基于生物质谱的 SAVs 鉴定算法都是由常规鉴定算法改进而来的, 因此根据常规串联质谱
鉴定算法中对数据库的依赖程度以及使用的数据库种类, 可以将基于生物质谱的 SAVs 鉴定算
法分为 3 大类( 表1): ( ) �� 完全依赖序列数据库的搜索算法, 即基于序列数据库搜索的氨基酸
突变鉴定算法. 此算法利用前体离子质量从序列数据库中筛选出候选肽段, 然后将候选肽段的理
论图谱与目标图谱进行比对, 从而鉴定出样品中的突变肽段; ( ) �� 将从头测序算法(de novo)与
序列比对结合的算法, 即基于序列标签的氨基酸突变鉴定算法. 此算法首先通过 de novo 测序算
法推导出目标图谱中的肽序列标签(peptidesequence tags, PSTs), 然后利用PSTs 过滤数据库筛选
出候选肽段, 最后结合PSTs 对理论谱图与目标图谱进行比较打分, 从而鉴定出样品中的突变肽
段; ( )�� 依赖于图谱库的搜索算法, 即基于图谱库的氨基酸突变鉴定算法. 此算法将实验图谱与
图谱库中的一致性图谱进行比对, 从而鉴定出样品中的突变肽段. 这3 类方法和策略在实施过程
中各有其优劣( 表1),相互之间暂无法替代, 因此在不同的目的下各有其适用性.
1.1 基于序列数据库搜索的氨基酸突变鉴定算法
基于序列数据库搜索的氨基酸突变鉴定算法, 根据不同的数据库构建方法可以细分为 3 类:
( ) �� 基于穷举法的氨基酸突变鉴定算法, 即通过枚举数据库中氨基酸残基的所有可能突变种
类进行突变肽段的鉴定; ( ) �� 结合已知氨基酸突变信息对突变肽段进行鉴定, 即结合当前变异
数据库( 如dbSNP 数据库[21]、COSMIC 数据库[22]等, 表2 列举了常用的氨基酸与基因突变数
据库)中的变异信息构建数据库进行突变肽段的鉴定; ( ) �� 基于样本特异性的数据库鉴定突变
肽段, 即结合样本数据中可能存在的突变肽段信息构建数据库进行突变肽段的鉴定. 以下将对这
3 种方式进行逐一详细地说明.
(1) 基于穷举法的氨基酸突变鉴定算法. 在序列数据库搜索中, 最早对突变肽段进行鉴定的自动
化方法是穷举法, 此方法不仅原理简单而且理论上能够鉴定出样品中所有可能的突变肽段. 这类
算法的大体步骤是: 通过穷举法罗列出所有可能的突变肽段序列, 然后用常规鉴定方法进行比对
打分筛选出最有可能的突变肽段序列. 此类算法的代表有 SEQUEST-SNP 算法[27] 和Sipros v2.0
算法[18]等.Gatlin 等人[27]在2000 年, 利用改进的 SEQUEST 算法(SEQUEST-SNP)率先实现了
利用自动化的数据库搜索对突变肽段进行鉴定. 此方法特点在于动态生成所有可能的核苷酸突
变序列, 将其翻译成肽段并构建成一个数据库用于对突变肽段的鉴定. 此后, 通过穷举蛋白序列
中所有可能的氨基酸突变进行肽段突变鉴定的方法在 Mascot[28] 和X!Tandem[29]相继采
用.2012 年, Hyatt 和Pan[18] 提出了不受数据库约束的穷举法突变肽段鉴定算法 Sipros v2.0, 此算
法通过肽段产生模块和肽段打分模块实现对 CPU 和内存效率的优化以应对穷举法产生的大数
据库. 理论上, 穷举法能够鉴定出样品中所有的突变肽段, 但肽段中的每一个氨基酸残基都有18
种可能的突变, 因此利用此方法会大大增加搜索空间[18,24], 延长搜索时间, 并且会增加假阳性
风险从而降低结果的灵敏度.
(2) 结合已知氨基酸突变信息对突变氨基酸进行鉴定. 为了避免穷举法引起搜索空间过大的问题,
一些团队提出结合已知的编码 SNVs 信息或是与疾病等有关的突变信息构建蛋白质数据库, 以
减小突变肽段的搜索范围. 此类数据库的代表有 MSIPI[17]和MS-CanProVar[24]等. 2007 年,
Schandorff 等人[17] 将一些来自 dbSNP 数据库[21] 的编码 SNP(single nucleotidepolymorphism) 以
及 与 IPI(the international proteinindex) 数据库中数据有冲突的序列等整合到 IPI 数据库[30]中构
建了质谱友好型的变异数据库 MSIPI. 其质谱友好型体现在, 在保留原始 IPI 条目完整性的基础
上, 将后加的肽段序列附加到原有序列中, 用不代表任何氨基酸的字母"J"将原始条目与附加肽段
区分开来, 并且将在原始条目的表头信息中加入附加肽段信息. 同年, Bunger 等人[31]也利用
dbSNP 数据库中人类基因变异信息构建变异蛋白质数据库 K-SNPdb,并构建相应的常规数据库.
然后对分开搜库结果进行比对打分, 筛选出高可信的变异肽段. Li 等人[24]在2011 年基于人类癌
症蛋白质变异数据库 CanProVar[32] 构建了一个 MS-CanProVar 数据库, 此数据库中不仅包含了
dbSNP 数据库中的编码的 SNP 信息, 还包括了 COSMIC[22] 和OMIM[23]等数据库中与癌症相
关的体细胞变异信息.
除了自定义构建突变数据库以外, 氨基酸突变信息也被一些在线平台收录、整合, 如Swiss-
Var[33],SysPIMP[34] 和RAId_DbS[35]等. Swiss-Var 网站搜集的是 Swiss-Prot 数据库[36]中突变
肽段的信息, 主要为用户提供 Swiss-Prot 数据库中的突变肽段信息及其与疾病间的关系.
SysPIMP 主要用于鉴定与人类疾病有关的突变肽段序列, 它的数据主要来源于OMIM 数据库中
等位基因突变信息、蛋白质突变数据库(proteinmutation database, PMD)[37] 以及 Swiss-Prot 数据
库中与人类疾病和多态性有关的序列信息. 而 在 RAId_DbS 数据库中不仅整合了
SAVs 与疾病的信息, 同时也收录了 PTMs 与疾病有关的信息.
2012 年, Mathivanan 等人[25] 提出的 iMASp 策略即是利用现有的突变信息对突变肽段进行鉴定.
这种策略利用了分步搜索的方法, 即是第一次通过常规搜索鉴定出样本中的常规蛋白, 第二次利
用突变数据库对第一次没有鉴定出的质谱图进行搜索鉴定样品中的突变肽段. 相比穷举法, 结合
已知氨基酸突变信息对突变氨基酸进行鉴定的方法虽然在一定程度上缩小了搜索空间, 但在数
据库中添加的上万条突变肽段序列绝大部分不会在样品数据集中出现.因此, 这种方法并没有十
分有效地规避假阳性升高以及鉴定结果灵敏性降低的缺点[14].
(3) 基于样本特异性的数据库鉴定突变肽段 .除了直接利用公共数据库中的突变数据外, 利用
DNA/RNA 等信息提供的样本特异性突变构建的数据库能更好地贴合实际样本数据, 提高鉴定
效率. 目前利用样本特异性鉴定突变肽段的方法有 2种: 两次搜索数据库的方法以及利用转录组
数据构建数据库的方法. 两次搜索数据库的方法与 iMASp 策略中所使用的分步搜索以及 Mascot
和X!Tandem 中的容错搜索相似, 不同的地方在于两次搜索数据库中所使用的突变数据库依赖
于样本特异性的 DAN/RAN 信息, 而iMASp 策略中的突变数据库是整合所有已知的蛋白突变信
息, 不具有样本特异性; Mascot 和X!Tandem 则是对第一次搜索所得的蛋白序列进行穷举从而鉴
定出突变或修饰肽段. Chernobrovkin 等人[38] 提出的二次迭代法以及 Su 等人[39]构建样本特异
性突变数据库的策略都是样本特异性的两次搜索方法的代表.
另一种方法是利用转录组数据构建样本特异性数据库用于突变肽段的鉴定. 相对于利用公共的
突变数据库, 利用转录组数据构建蛋白质数据库可以由样品转录组数据直接推导样本中可能存
在的蛋白及其突变序列并由其构建数据库[40]. 用此方法构建的数据库所包含的蛋白质信息更加
接近样品中真实信息, 因此这种无偏性的数据库能高效地鉴定出样品中存在的突变序列[16,41].
由于转录组数据十分庞大, 在现有的计算能力下要想利用转录组数据构建数据库就必须要对转
录组数据进行压缩. 2007 年,Edwards[16]提出了一个压缩表达序列标签(expressedsequence tags,
ESTs)数据的策略, 实现了利用EST 数据库进行常规化的肽段序列和变异位点的鉴定. 此压缩策
略的特点在于选用某种方法来表示肽段, 确保绝大多数的重复肽段序列被消除, 并且不影响肽段
序列的鉴定. 随着下一代测序(next generationsequencing, NGS) 技术的出现 , RNA 测序(RNA-
sequecing, RNA-Seq)的成本越来越低[14], 并且克服了EST 测序存在的克隆偏性和高花费等缺点
[42], 因此利用RNA-Seq 数据构建样本特异性数据库逐渐受到人们的重视. Wang 等人[41] 在
2012 年提出了一个利用RNA-Seq 数据构建样本特异性数据库的策略, 此策略通过两步来实现:
( ) �� 利用一个经验性的 RPKM (reads per kilo bases per million reads)值排除不表达或低表达基
因以减小数据库中的条目; ( )�� 将由RNA-Seq 数据鉴定得来的高可靠性 SNVs 的相应肽段添
加到数据库中, 以寻找变异肽段. 此后,Wang 和Zhang[43]为生成自定义 RNA-Seq 数据库编写了
R 程序包 customProDB, 能够生成含有突变、插入、缺失等变异肽段的RNA-Seq 数据库. 2013
年,Sheynkman 等人[14] 实践了Wang 和Zhang[43]的方法, 利用Jurkat 细胞系的 RNA-Seq 数据构
建一个自定义的变异蛋白质数据库, 并成功地应用在 Jurkat 细胞系的质谱数据突变鉴定中. 同年,
Woo 等人[44]在尽量不影响鉴定结果灵敏性的基础上, 将秀丽隐杆线虫(Caenorhabditis elegans)
的RNA-Seq 数据压缩了近1000 倍, 并利用此数据库成功地鉴定到了新型蛋白.
由于并不是所有的样本都同时拥有蛋白质数据和 RNA-Seq 数据, 因此, Wang 和Zhang[43] 利用
64 个大肠癌的 RNA-Seq 数据构建了一致性蛋白质数据库,并成功地将此数据库应用在蛋白鉴定
中. 样本特异性的数据库, 特别是利用RNA-Seq 数据构建的样本数据库不仅能够有效地缩减搜
索空间, 而且能够鉴定出样品中所有已知类型的蛋白种类以及新型的变异肽段序列. 随着计算方
法的不断改进, 通过 RNA-Seq 数据对样本进行突变肽段的鉴定方法有望成为常规的突变鉴定方
法.
(4) 基于序列数据库搜索的氨基酸突变鉴定算法的缺点. 在鉴定突变肽段的方法中, 虽然通过构
建含有突变信息的序列数据库鉴定突变肽段的方法是目前被最广泛采用的方法, 但它的缺点也
摘要:
展开>>
收起<<
基于生物质谱数据鉴定单核苷酸变异的生物信息学方法单核苷酸变异(singlenucleotidevariations,SNVs)是由DNA序列上单个碱基变异产生的,包括碱基的缺失、插入、转换及颠换等.SNVs是基因组序列变异的主要形式[1],同时也是生物体生理和病理变异的遗传基础[2].从遗传学的角度看,SNVs既可以存在于具有遗传性的生殖细胞中,也可以存在于不具有遗传性的体细胞中.其中,只有位于基因编码区的SNVs能够影响蛋白的编码.位于编码区的SNVs可以分为3类:()��同义SNVs,不改变相应的氨基酸种类;()��无义SNVs,突变成为终止密码子,提早结束编码;()��非同义SNVs(n...
相关推荐
-
中华人民共和国气象法
2024-12-30 57 -
中国气象局关于修改《气象行政许可实施办法》的决定
2024-12-30 53 -
中国气象局关于修改《气象行政处罚办法》的决定
2024-12-30 97 -
中国气象局关于修改《防雷减灾管理办法》的决定
2024-12-30 163 -
中国气象局关于废止部分部门规章的决定
2024-12-30 45 -
通用航空飞行管制条例
2024-12-30 78 -
施放气球管理办法
2024-12-30 115 -
人工影响天气管理条例
2024-12-30 48 -
气象资料共享管理办法
2024-12-30 45 -
气象专用技术装备使用许可管理办法
2024-12-30 70
作者:闻远设计
分类:社科文学类资料
价格:免费
属性:8 页
大小:141.91KB
格式:DOCX
时间:2024-04-20

