基于生物质谱数据鉴定单核苷酸变异的生物信息学方法

3.0 闻远设计 2024-04-20 53 4 141.91KB 8 页 免费
侵权投诉
基于生物质谱数据鉴定单核苷酸变异的生物信
息学方法
单核苷酸变异(single nucleotide variations, SNVs) 是由 DNA 序列上单个碱基变异产生的, 包括碱
基的缺失、插入、转换及颠换等. SNVs 是基因组序列变异的主要形式[1], 同时也是生物体生理
和病理变异的遗传基础[2]. 从遗传学的角度看, SNVs 既可以存在于具有遗传性的生殖细胞中,
也可以存在于不具有遗传性的体细胞中. 其中, 只有位于基因编码区的 SNVs 能够影响蛋白的编
. 位于编码区的 SNVs 可以分为 3 : ( ) �� 同义 SNVs, 不改变相应的氨基酸种类; ( ) ��
SNVs, 突变成为终止密码子, 提早结束编码; ( ) �� 非同义 SNVs(nonsynonymous
SNVs,nsSNVs), 改变氨基酸的种类. nsSNVs 能够改变蛋白的结构、功能、表达以及亚细胞定位
[3], 进而对多种遗传性的特征、疾病以及癌症等产生影响[4~9], 如人类耳垢的类型[6]、腋窝
的气味[7]、癌症与肿瘤的发生[8]、阿尔茨海默病[9]以及镰刀形红细胞贫血症[10].
因此, SNVs 展开研究可以揭示出基因与表型多样性和基因与疾病间的关系, 并且有可能研发
出治疗疾病的新方法. 目前, 全基因组关联研究(genome-wide association studies, GWAS)[11]虽然
在基因变异与表型多样性的研究中产出了许多能够用来解释特异性疾病分子途径的结果, 但是
仍然难以对绝大部分具有复杂特征的分子机制以及 SNVs 与复杂疾病表型间的关系进行解释
[12]. 在这种情况下, 对突变蛋白的研究提供了另一种了解基因型与表型间关联的方法[13].
SNVs 引起的单个氨基酸的变异称为单氨基酸变异(single amino acid variations, SAVs), 因此
SAVs SNVs 在蛋白水平上的表现. SAVs 的研究, 有助于了解基因型与表型间的关系, 进而
从本质上了解基因是怎样在蛋白水平上影响生物体的生命过程的[14]. 目前, 基于串联质谱的鸟
枪法蛋白质组学(shotgun proteomics)技术由于其自动化、高通量、高灵敏度和高分辨率等特点,
已成为大规模蛋白质研究的主要方法. 序列数据库搜索算法由于具有较高的可靠性以及灵敏度
而成为当今鸟枪法蛋白质组学中蛋白鉴定的主要生物信息学方法. 然而, 通常蛋白质数据库在构
建时为了减小数据库的冗余程度, 往往有意压缩对 SAVs 信息的收录( Swiss-Prot 数据库
[15,16], IPI 数据库[17]), 从而使得常用的数据库搜索策略不能有效地鉴定出样本中的氨基酸
突变信息.
为此, 研究人员提出了一系列鉴定突变蛋白的方法,如构建包含有突变信息的蛋白质数据库、构
建相似性谱库等. 在基于串联质谱进行 SAVs 鉴定时, 可以用与蛋白质翻译后修饰(post-
translational modifications,PTMs)鉴定[18]相同的方法, 这是因为肽段的突变和修饰在质谱中的
表现是质量迁移, 甲硫氨酸(Met)化与氨酸(Ala)突变为氨酸(Ser) 在质量上增加 16
Da[19], 以鉴定 PTMs 的算法和程通常也能够鉴定 SAVs( Bonanza 算法[20]). 虽然 PTMs
SAVs 的质谱鉴定方法非常相似, 但由于其来上的差别, 实际的鉴定策略中有不同.
( ) PTMs�� 的种类远比 SAVs 要多, 鉴定 PTMs 所需的搜索间一般会比鉴定 SAVs 所需的大,
在质量制方具有大的挑战; ( ) �� 蛋白水平的 SAVs 大部分是从基因组转录组延续
来的, SNVs 的数据能大大降低搜索, 从而得到更可靠的结果. 因此在算方法与
策略方, SAVs PTMs 的鉴定具有一定的相似性, 也有其有的特点.
从序列数据库搜索算法、序列标签搜索算法以及谱库搜索算法 3 个大方, 细地介绍
了目前基于生物质谱数据鉴定 SAVs 种生物信息学方法,并分种突变鉴定方法的不
之处, 最后介绍了基于生物质谱的 SAVs 鉴定研究现及其发展方.
1 氨基酸突变鉴定的算法
当前基于生物质谱的 SAVs 鉴定算法是由常规鉴定算法改进而来的, 因此据常规串联质谱
鉴定算法中对数据库的依赖程度以及使用的数据库种类, 可以基于生物质谱的 SAVs 鉴定算
法分为 3 大类( 1): ( ) �� 依赖序列数据库的搜索算法, 基于序列数据库搜索的氨基酸
突变鉴定算法. 此算法用前体子质量从序列数据库中筛选候选肽段, 后将候选肽段的理
论图谱与目标图谱进行, 从而鉴定出样中的突变肽段; ( ) �� 头测序算法(de novo)
序列对结的算法, 基于序列标签的氨基酸突变鉴定算法. 此算法首先通过 de novo 序算
推导出目标图谱中的序列标签(peptidesequence tags, PSTs), 后利PSTs 数据库筛选
候选肽段, 最后PSTs 对理与目标图谱进行, 从而鉴定出样中的突变
; ( )�� 依赖谱库的搜索算法, 基于谱库的氨基酸突变鉴定算法. 此算法将实验图谱与
谱库中的一谱进行, 从而鉴定出样中的突变肽段. 3 类方法和策略在实施过程
有其优劣( 1),互之无法替代, 因此在不同的目的下有其用性.
1.1 基于序列数据库搜索的氨基酸突变鉴定算法
基于序列数据库搜索的氨基酸突变鉴定算法, 据不同的数据库构建方法可以细分为 3 :
( ) �� 基于穷举法的氨基酸突变鉴定算法, 通过枚举数据库中氨基酸基的有可能突变种
类进行突变肽段的鉴定; ( ) �� 氨基酸突变信息对突变肽段进行鉴定, 当前变异
数据库( dbSNP 数据库[21]COSMIC 数据库[22], 2 了常用的氨基酸与基因突变数
据库)中的变异信息构建数据库进行突变肽段的鉴定; ( ) �� 基于样本特异性的数据库鉴定突变
肽段, 样本数据中可能存在的突变肽段信息构建数据库进行突变肽段的鉴定. 以下对这
3 种方式进行细地说明.
(1) 基于穷举法的氨基酸突变鉴定算法. 在序列数据库搜索中, 早对突变肽段进行鉴定的自动
化方法是穷举, 此方法不仅原单而且理上能够鉴定出样有可能的突变肽段. 这类
算法的大体步骤: 通过穷举列出有可能的突变肽段序列, 用常规鉴定方法进行
筛选有可能的突变肽段序列. 此类算法的表有 SEQUEST-SNP 算法[27] Sipros v2.0
算法[18].Gatlin 等人[27]2000 , 用改进的 SEQUEST 算法(SEQUEST-SNP)先实现了
用自动化的数据库搜索对突变肽段进行鉴定. 此方法特点在于动生成有可能的核苷酸突
变序列, 翻译肽段并构建成一个数据库用于对突变肽段的鉴定. , 通过穷举蛋白序列
有可能的氨基酸突变进行肽段突变鉴定的方法在 Mascot[28] X!Tandem[29]继采
.2012 , Hyatt Pan[18] 提出了不数据库束的穷举法突变肽段鉴定算法 Sipros v2.0, 此算
法通过肽段产生模肽段打分模块实现对 CPU 存效率的化以应对穷举法产生的大数
据库. , 穷举法能够鉴定出样有的突变肽段, 肽段中的一个氨基酸18
种可能的突变, 因此用此方法大大增加搜索[18,24], 延长搜索时间, 并且会增加假阳
风险从而降低结果的灵敏度.
(2) 氨基酸突变信息对突变氨基酸进行鉴定. 为了避免穷举法引起搜索间过大的问题,
些团队提出结的编码 SNVs 信息是与疾病等有关的突变信息构建蛋白质数据库,
减小突变肽段的搜索范围. 此类数据库的表有 MSIPI[17]MS-CanProVar[24]. 2007 ,
Schandorff 等人[17] 来自 dbSNP 数据库[21] 的编码 SNP(single nucleotidepolymorphism)
及 与 IPI(the international proteinindex) 数据库中数据有突的序列等整合到 IPI 数据库[30]中构
建了质谱友好型的变异数据库 MSIPI. 其质谱友好型体现在, 保留原始 IPI 完整性的基础
, 将后加肽段序列附加到原有序列中, 用不任何氨基酸的字母"J"将原始条目与附加肽段
区分开来, 并且原始条目的表信息中附加肽段信息. , Bunger 等人[31]
dbSNP 数据库中人类基因变异信息构建变异蛋白质数据库 K-SNPdb,并构建相应的常规数据库.
对分开搜库结果进行, 筛选出高可信的变异肽段. Li 等人[24]2011 基于人类癌
症蛋白质变异数据库 CanProVar[32] 构建了一个 MS-CanProVar 数据库, 此数据库中不包含了
dbSNP 数据库中的编码的 SNP 信息, 包括了 COSMIC[22] OMIM[23]等数据库中与癌症相
关的体细胞变异信息.
了自定义构建突变数据库以, 氨基酸突变信息也线收录、整合, Swiss-
Var[33],SysPIMP[34] RAId_DbS[35]. Swiss-Var 网站的是 Swiss-Prot 数据库[36]中突变
肽段的信息, 主要为用提供 Swiss-Prot 数据库中的突变肽段信息及其与疾病间的关系.
SysPIMP 主要用于鉴定与人类疾病有关的突变肽段序列, 的数据主要来OMIM 数据库中
等位基因突变信息、蛋白质突变数据库(proteinmutation database, PMD)[37] 以及 Swiss-Prot 数据
与人类疾病和多性有关的序列信息. RAId_DbS 数据库中不仅整合
SAVs 与疾病的信息, 同时也收录了 PTMs 与疾病有关的信息.
2012 , Mathivanan 等人[25] 提出的 iMASp 策略用现有的突变信息对突变肽段进行鉴定.
这种策略用了分搜索的方法, 通过常规搜索鉴定出样本中的常规蛋白, 第二次利
用突变数据库对次没有鉴定出的质谱进行搜索鉴定样中的突变肽段. 比穷举,
氨基酸突变信息对突变氨基酸进行鉴定的方法虽然在一定程度上缩小了搜索, 但在数
据库中添加的上万条突变肽段序列绝大部分不在样数据中出现.因此, 这种方法并
分有效地规避假阳高以及鉴定结果灵敏性降低的缺点[14].
(3) 基于样本特异性的数据库鉴定突变肽段 .直接利公共数据库中的突变数据,
DNA/RNA 等信息提供的样本特异性突变构建的数据库能更好贴合实际样本数据, 提高鉴定
效率. 目前用样本特异性鉴定突变肽段的方法有 2: 两次搜索数据库的方法以及用转录组
数据构建数据库的方法. 两次搜索数据库的方法与 iMASp 策略中使用的分搜索以及 Mascot
X!Tandem 中的容错搜索相似, 不同的地方在于两次搜索数据库中使用的突变数据库依赖
于样本特异性的 DAN/RAN 信息, iMASp 策略中的突变数据库是整合所有已的蛋白突变信
, 不具有样本特异性; Mascot X!Tandem 是对搜索得的蛋白序列进行穷举从而鉴
定出突变或修饰肽段. Chernobrovkin 等人[38] 提出的二次迭代法以及 Su 等人[39]构建样本特异
性突变数据库的策略是样本特异性的两次搜索方法的.
另一种方法是用转录组数据构建样本特异性数据库用于突变肽段的鉴定. 相对于公共
突变数据库, 用转录组数据构建蛋白质数据库可以由样转录组数据直接推导样本中可能存
在的蛋白及其突变序列并由其构建数据库[40]. 用此方法构建的数据库包含的蛋白质信息更加
接近真实信息, 因此这种无性的数据库能高效地鉴定出样中存在的突变序列[16,41].
由于转录组数据, 在现有的算能下要想利用转录组数据构建数据库就必须要对转
录组数据进行压缩. 2007 ,Edwards[16]提出了一个压缩表达序列标签(expressedsequence tags,
ESTs)数据的策略, 现了EST 数据库进行常规化的肽段序列和变异位点的鉴定. 此压缩策
略的特点在于种方法来表示肽段, 确保绝大多数的肽段序列被消除, 并且不影响肽段
序列的鉴定. 随着下一代测(next generationsequencing, NGS) 技术的出现 , RNA (RNA-
sequecing, RNA-Seq)的成本越低[14], 并且克服EST 序存在的克隆偏性和高花费等缺点
[42], 因此RNA-Seq 数据构建样本特异性数据库逐渐受到重视. Wang 等人[41]
2012 提出了一个RNA-Seq 数据构建样本特异性数据库的策略, 此策略通过两步:
( ) �� 用一个经验性的 RPKM (reads per kilo bases per million reads)值排除不表达或低表达基
因以减小数据库中的; ( )�� RNA-Seq 数据鉴定得来的高可靠性 SNVs 的相应肽段添
加到数据库中, 寻找变异肽段. ,Wang Zhang[43]为生成自定义 RNA-Seq 数据库编
R 程序包 customProDB, 能够生成含有突变、插入、缺失等变异肽段RNA-Seq 数据库. 2013
,Sheynkman 等人[14] 实践Wang Zhang[43]的方法, Jurkat 细胞系的 RNA-Seq 数据构
建一个自定义的变异蛋白质数据库, 并成功地应用在 Jurkat 细胞系的质谱数据突变鉴定中. ,
Woo 等人[44]量不影响鉴定结果灵敏性的基础上, 将秀丽隐杆线虫(Caenorhabditis elegans)
RNA-Seq 数据压缩了1000 , 用此数据库成功地鉴定了新型蛋白.
由于并不是有的样本同时有蛋白质数据和 RNA-Seq 数据, 因此, Wang Zhang[43]
64 个大癌的 RNA-Seq 数据构建了一性蛋白质数据库,并成功地此数据库应用在蛋白鉴定
. 样本特异性的数据库, RNA-Seq 数据构建的样本数据库不能够有效地缩减搜
, 而且能够鉴定出样有已类型的蛋白种类以及新型的变异肽段序列. 随着计算方
法的不改进, 通过 RNA-Seq 数据对样本进行突变肽段的鉴定方法有成为常规的突变鉴定方
.
(4) 基于序列数据库搜索的氨基酸突变鉴定算法的缺点. 在鉴定突变肽段的方法中, 虽然通过构
建含有突变信息的序列数据库鉴定突变肽段的方法是目前被最广泛采用的方法, 的缺点也
摘要:

基于生物质谱数据鉴定单核苷酸变异的生物信息学方法单核苷酸变异(singlenucleotidevariations,SNVs)是由DNA序列上单个碱基变异产生的,包括碱基的缺失、插入、转换及颠换等.SNVs是基因组序列变异的主要形式[1],同时也是生物体生理和病理变异的遗传基础[2].从遗传学的角度看,SNVs既可以存在于具有遗传性的生殖细胞中,也可以存在于不具有遗传性的体细胞中.其中,只有位于基因编码区的SNVs能够影响蛋白的编码.位于编码区的SNVs可以分为3类:()��同义SNVs,不改变相应的氨基酸种类;()��无义SNVs,突变成为终止密码子,提早结束编码;()��非同义SNVs(n...

展开>> 收起<<
基于生物质谱数据鉴定单核苷酸变异的生物信息学方法.docx

共8页,预览3页

还剩页未读, 继续阅读

作者:闻远设计 分类:社科文学类资料 价格:免费 属性:8 页 大小:141.91KB 格式:DOCX 时间:2024-04-20

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 8
客服
关注