微生物组大数据分析的方法流程与发展趋势
微生物组大数据分析的方法流程与发展趋势
“ ”微生物群落 是地球上生命基本元素(C、N和S等)进行生物地球化学循环的主要驱动力,
“与人类健康、环境保护以及工农业生产等密切相关。近十年来,随着高通量测序的广泛应用 ,
”微生物组学 成为新兴概念和热点。微生物组与不同的生存环境结合,诞生人体微生物组,宿
主相关微生物组,一般环境微生物组,建筑环境微生物组,地球微生物组,医院环境微生物组
等大量新兴的研究方向。
长期以来,研究方法一直是微生物群落研究的瓶颈。如,群落结构的阐述,即准确描述一定空
间范围内的物种数量,并定量各物种的丰度,这是所有生态学研究的基本内容。然而,对微生
物研究者而言,实现这一基本要求却绝非易事。这种困难主要源于微生物群落的如下几点特
征。
(1 “ ”) 微小 :宏观生物可以肉眼或者镜下观察其形态学分类特征并计数;而微生物即便在显微
镜下也难以区分,形态差异特征少,因而不能直接观察种属并计数。
(2 “ ”) 复杂 :微生物很少以纯种存在;但微生物群落含有极高的多样性。1 g 土壤中可能含有数
千到数万个不同种属的微生物。
(3 “ ”) 稠密 :1 g 土壤,1滴流水,都可能含有数以十亿计的微生物,并且它们常常来自成千上
万的种属。
(4 “ ”) 不均 :不同种属微生物在群落中的丰度差异极大。这种不均匀的分布特征造成优势种、
非优势种以及稀有种的计数难以同时进行。
面对如此庞大复杂的微生物生态系统,微生物组学要准确理解样品中的微生物种类,多度及其
功能,并将其与时间、空间、理化因素,宿主疾病状态等进行关联,从而探求微生物与微生物
之间,微生物与宿主之间,以及微生物与环境之间的相互关系。因此,需要恰当的技术,在广
度和精度这两个略显矛盾的角度,同时获得理想的数据。
自2006 年,随着新一代高通量测序技术的成熟,不仅在人类基因组学领域带来了翻天覆地的
变化,对微生物组学的研究产生了革命性的影响。当前,以 16SrRNA 高通量测序为基本手
段,宏基因组鸟枪法测序、宏转录组、宏蛋白组、宏代谢组等组学领域产生了大量的新技术,
共同促进了微生物组学的快速进步。
1 微生物组大数据分析的方法和流程
16S 的测序是近年来微生物生态领域最核心、最重大的突破。通过454、Illumina 等第2代测序
仪高通量测定 16S 可变区序列,第1次让人们在可行的成本下,获得全面、系统、结构化的群
落结构信息[1-2].美国 WoodsHole 海洋研究实验室的Mitchell Sogin 课题组于 2006 年首次报道
了通过焦磷酸测序技术,测定海洋沉积物样品的 16S rRNA 基因 V6 可变区,人类第1次在基本
足够的测序深度下,清晰地展示了环境样品中微生物的组成,发现了高度的多样性。
与所有传统的微生物组学研究方法相比,该方法具有显着的优越性。该方法通过测定 16S 短片
段序列,经生物信息学分析可以获得系统分类信息,从而可以明确定性其分类单元,不同实验
间数据完全是可比较、可积累的。该方法通量显着提高,1次测定 40~100 万条序列,通过条码
技术可以对每个样品测定数千到数万条短序列,从而可以获得广泛的、系统的结构信息。由于
测序深度大,在多个数量级范围内可以进行定量。该方法的诞生对微生物组学的研究产生了巨
大的影响,尤其对人体共生微生物领域最为活跃。例如,肥胖与部分肠道菌群间的相关性研究
[3];人体不同部位的菌群结构的首次阐明[4];抗生素对肠道微生物群落产生的显着影响[5]等。在
环境中,该技术首次在海洋沉积物中发现存在极其丰富、多样化的微生物群落。该方法让人们
得以比较大空间尺度下土壤微生物群落结构的差异及其主要的影响因素(如 pH)[6-8].
基 于 16S 的 分 析可称为宏分类组技术(metataxonome)。16S 的数据分析,其一般流程
包括:序列提取、质控、相似序列聚类成 OTU,种属分类,alpha 以及 beta 多样性分析,以及进
一步的统计分析。其中每一步都有关键之处,并正处于方法学前沿领域。
OTU 聚类是 16S 序列分析的关键问题之一。在经典的分层聚类算法中,其运算量和所需的内存
容量,均随着序列数量的增加呈几合级数增加。因此,贪婪算法成为目前该领域的主流。同
时,也有不少研究者开发不基于序列比对的聚类算法。但是,由于序列相似性算法的不同,聚
类中距离的传递问题,以及参考序列数据库的不足,该领域仍然存在运算效率和准确性问题。
目前,与参比库比对的 Open- reference 算法[9]以及 UPARSE 是运用较为广泛的技术。
在完成聚类后,种属的分类仍然存在许多问题。目前,该领域主要通过与16S 数据库比对,选
取相似性高的参比序列的分类结果。但是,参比数据库本身,目前存在不少问题,例如目前应
用最为广泛的 Greengenes 数据库[10],其中不少序列存在重复或者错误的分类结果。
UniFrac 距离的计算,是 beta 多样性分析的关键工具。UniFrac 距离是美国科罗达罗大学 Rob
Knight 课题组创建的一种基于序列之间相似度,计算样品之间总的菌群距离的算法,有加权和
不加权两种,在分析微生物群落相似性中均具有重要作用[11].基于 UniFrac 的工作基础,Rob
Knight 课题组进一步开发了微生物群落以及微生物生态分析的主流工具体系 QuantitiativeInsight
Into the Microbial Ecology(QIIME)。该平台是一个流程的整合,已经在全球分析微生物组学
科中广泛应用[12].
与之对应,Patrick Schloss 开发了Mothur[13],该平台基于最初的序列聚类工具DOTUR 而来。
该平台和QIIME 竞争,在许多地方有相似之处。二者之间的区别是,QIIME 更为开放,系统
整合能力更强,尊重方法的原创者,应用者更多一些,而 Mothur 则全部经作者改写,相对封
闭。核糖体数据库RDP database 课题组,也同样开发了针对二代测序数据的群落分析工具[14].
除此之外,MG-RAST 是一个综合性的在线数据分析平台[15].
使用者只需要将自己的测序数据投递到该网站,即可点击不同的宏基因组分析命令,完成数据
分析。欧洲 MetaHIT 以及其它小组也开发了一些微生物群落的分析工具,但应用面不及上述几
个平台。需要指出的是,除了16S 外,人们还开发了一些针对特定功能基因的靶向测序技术,
从而检测其功能多样性。其分析流程大体与 16S 相似,但需要特定的数据库加以比对分析。
宏基因组技术(metagenome),又称为元基因组技术,是在 16S 分析的基础上,通过宏基因组
的鸟枪法高通量测序,能够同时获得菌群的分类信息以及功能基因的数据。并且该技术未经
PCR 扩增,因此 PCR 导致的偏差较少(测序建库时还会有部分PCR 的影响)。因为微生物群
落中不同微生物的多度差异极大,欲获得足够的定量信息,需要测试大量的数据。根据不同的
需求,单个样品宏基因组测序的数据量,在 Giga 以上 1~2 个数量级水平。如此巨大的数据
量,无论是测试成本,还是分析所需要消耗的机时,都相当可观。因此,人们通常在 16S 测试
的基础上,挑选少量目标样品,测试其全基因组。当前,宏基因组数据的分析,通常包括如下
步骤:
序列质控;将获得的高质序列组装(或者不经组装,直接与参比数据库比对);将组装后的序
列与现有的微生物基因数据比对,并将比对上的序列进行门、纲、目、科、属、种的分类和丰
度统计;进行样品间物种多样性的比较,如 PCA 分析、聚类分析、筛选与样品分组显着相关
因子;进行基因组份分析,如前噬菌体预测、可转坐原件、基因预测;通过与
KEGG、CAZy、eggNOG 数据库比对进行功能注释,分析其中的代谢通路,碳水化合物活性
酶、同源性;抗生素耐药组的比对分析等。在宏基因组分析中,针对病毒单独纯化的序列测
序,可以获得病毒组数据,对微生物生态的解析,提供了全新的视野。
宏基因组测序和 16S 测序尽管在菌群分布上基本是一致的[17],但分辨效率显着不同。例如,在
群落层面,二型糖尿病患者肠道菌群和对照人群并无显着的不同,但是,在宏基因组揭示的功
能基因上,两组却呈现显着的差异[18-19].尽管宏基因组技术非常强大,该技术仍然存在诸多技
术瓶颈。其一,大量序列目前尚无法找到匹配的数据库序列,尤其是病毒,大约80%甚至更多
的序列无法注释;其二,仅仅通过序列相似度,对功能的注释常常是不准确的,存在大量的误
注释;最后,对于大量的微生物基因组,通过宏基因组难以将其进行组装拼接,尤其是对低丰
度的菌株。其中前两点缺陷同样适用于宏转录组学。
摘要:
展开>>
收起<<
微生物组大数据分析的方法流程与发展趋势“”微生物群落是地球上生命基本元素(C、N和S等)进行生物地球化学循环的主要驱动力,“与人类健康、环境保护以及工农业生产等密切相关。近十年来,随着高通量测序的广泛应用,”微生物组学成为新兴概念和热点。微生物组与不同的生存环境结合,诞生人体微生物组,宿主相关微生物组,一般环境微生物组,建筑环境微生物组,地球微生物组,医院环境微生物组等大量新兴的研究方向。长期以来,研究方法一直是微生物群落研究的瓶颈。如,群落结构的阐述,即准确描述一定空间范围内的物种数量,并定量各物种的丰度,这是所有生态学研究的基本内容。然而,对微生物研究者而言,实现这一基本要求却绝非易事。这...
相关推荐
-
2024年党建工作要点工作计划5篇供参考
2023-12-16 999+ -
2025年专题生活会对照带头严守政治纪律和政治规矩,维护党的团结统一等“四个带头方面”个人对照检查发言材料4110字文稿
2024-12-21 999+ -
2025年医保局局长、科技局领导干部专题“四个带头”方面对照检查材料2篇例文(附:反面典型案例剖析情况)
2025-02-09 454 -
2025年国有企业党委书记、市总工会党组书记民主生活会“四个带头”方面对照个人检查发言材料2篇文(附:典型案例、上年度整改+个人情况)
2025-02-09 505 -
2025年市委组织部部长、教育局党委书记生活会“四个带头”个人对照检查发言材料2篇文(典型案例+个人事项)
2025-02-09 623 -
2025年市财政局党组书记、局长、市检察院党组领导班子对照“四个带头”方面生活会个人对照检视发言材料2篇文(含以案为鉴反思、以案促改促治方面)
2025-02-09 506 -
市检察院党组、市财政局领导班子2025年生活会对照“四个带头”方面检视发言材料2份文【含以违纪行为为典型案例剖析】
2025-02-09 461 -
2025年市财政局领导对照“四个带头”生活会检视发言材料2篇例文【含以违纪行为为典型案例剖析】
2025-02-09 581 -
单位领导班子2025年聚焦“四个带头”生活会对照检查材料2篇文(含:典型案例剖析反思、落实意识形态责任制)
2025-02-09 753 -
2025年镇党委副书记、市科学技术局领导班子生活会对照“四个带头”检视材料2篇文【含违纪行为典型案例分析】
2025-02-09 255
作者:闻远设计
分类:社科文学类资料
价格:免费
属性:4 页
大小:18.74KB
格式:DOCX
时间:2024-04-23

