肺癌特异性VOC标志物的生物信息学探析
肺癌特异性 VOC 标志物的生物信息学探析
摘要:采用结合转录组、代谢通路、蛋白结构的呼出气体检测生物信息学分析方法来确定肺
癌气体标志物,用于肺癌的筛选诊断.采用标准仪器(GCMS)检测肺癌病人和正常人的呼吸气
体样本;经统计分析,筛选出 10 种特异性挥发性有机物(VOC).采用转录组分析得到肺癌和
健康人的差异表达基因,其富集的代谢通路与人体内产生 VOC 的代谢通路一致,证明所筛选
的VOC 标志物与肺癌病人代谢具有相关性.基于此 VOC 建立的肺癌诊断模型的灵敏度、特异性
和整体正确率分别为 86.2%,91.2%和89.6%,说明所提方法能简便、有效区分正常人和肺癌病
人,为早期肺癌筛查提供方便、可靠的检测方法.
关键词:呼出气体检测; 肺癌标志物; 生物信息学; 转录组分析; 蛋白结构分析; 肺癌早期筛查;
Screening and bioinformatics analysis of lung cancer exhale breath biomarkers
WU Qian WANG Ping
Key Laboratory for Biomedical Engineering of Education Ministry, Zhejiang University
Abstract:The exhale breath detection combined bioinformatics analysis method, including
transcriptome, metabolic pathway and protein structure, was proposed to identify gas markers for
screening and diagnosis of lung cancer.Lung cancer patients and healthy controls' samples were
collected to performe GC-MS and ROC curve analysis which obtained ten specific VOCs.
Differentially expressed genes were obtained by transcriptome analysis. The differentially expressed
genes and relative metabolic pathways were consistent with in vivo biological process,which meant
that these VOCs come from the metabolism of lung cancer patient. The sensitivity, specificity and
overall accuracy of lung cancer diagnosis model established based on VOCs were 86.2%, 91.2% and
89.6%,respectively. Thus, the proposed method can distinguish normal people and lung cancer patients
simply and effectively, providing convenient approach for early screening of lung cancer.
在世界范围内,肺癌的发病率和死亡率都在各类癌症中居首位,但医学界一直缺少一种简便的
早期肺癌筛查方法.人类的呼出气体中包含大量人体健康状态的信息,其中挥发性有机物
(volatile organic compound,VOC)被认为是一种可用于无创肺癌筛查的理想标志物[1].在过去
的几十年里,关于肺癌病人呼出气中 VOC 的研究已有大量的报道[1,2].基于不同的统计方法,
不同的研究提出了各自的肺癌特异性 VOC 标志物[3].由于关于呼气中的 VOC 与肺癌在生理病
理学上的联系鲜有报道,肺癌病人代谢的特异性 VOC 一直难以确定.
癌症组织中发生基因突变或是基因表达量的变化已是科学界内普遍的共识,因此,从基因层面
入手研究呼出气体中的 VOC 与肺癌之间的关系很有前景.目前,很多研究在美国癌症基因组数
据库(TCGA)上进行数据挖掘,已取得丰硕成果[4].特别是转录组数据分析发现了大量癌症标
志性基因变异位点[5,6],这些基因靶点对相关癌症的靶向治疗具有指导意义.由于癌症是多基因
指导的复杂疾病,基因表达下游的通路分析也是必不可少的,这在认识癌症的发生、发展上起
着至关重要的作用[7].
将呼出气体检测与转录组、代谢通路、蛋白结构分析这些生物信息学方法相结合,可以筛选出
可靠的肺癌特异性 VOC.这有利于确定肺癌病人呼出气体标志物以及通过检测呼出气体实现肺
癌病人的大规模早期筛查.
1 材料和方法
1.1 呼出气体标本的采集和标准仪器分析
本课题组长期与浙江大学医学院附属邵逸夫医院的呼吸科合作,收集肺癌病人呼出气体,前期
研究已经积累了大量样本;健康人的呼出气体收集于浙江大学生仪学院和邵逸夫医院,所有受
试者的统计数据见表1,其中,肺癌实验组58 人(平均年龄为59.0),健康对照组125 人(平
均年龄为56.1).采集呼出气体前,每个受试者都签署了知情同意书(邵逸夫医院伦理委员
会,No.20070525、ChiCTR-DCD-15007106).人体呼出气体样本由自主研制的采气仪收集,样
本采集过程和分析参见之前的研究[8].呼气样本使用气相色谱-质谱联用仪(GC-MS QP2010
Plus,购于日本Shimadzu 公司)进行成分分离和定性检测(见图 1).
1.2 肺癌特异性 VOC 筛选
受试者工作特征(receiver operator characteristic,ROC)曲线是以灵敏度为 Y轴,1-特异度为 X
轴的曲线图,是一种评估诊断模型性能的有效方法,特别适用于诊断结果非0即1的二分类问
题.其中二分类逻辑回归问题的特异度与灵敏度计算方式如表2所示.通过绘制 ROC 曲线,可以
获得任意阈值对疾病的识别能力,从中选出最优的诊断阈值.一般而言,ROC 曲线越靠近左上
角,阈值点诊断效果越好.因为 ROC 曲线的横轴是1-特异度,纵轴是灵敏度,据此可知在该点
处的二分类法的特异度和灵敏度最高,也就是说出错率最低.ROC 曲线的曲线下面积(area
under curve,AUC)是评价模型诊断能力最常用的指标,AUC 取值在0~1.0,越接近 1.0,诊断
模型的整体性能越好[9].
表1 受试者基本临床信息统计
图1 受试者呼吸气体的采集和分析
表2 二分类逻辑回归计算方法
注:假阳性率=B/(A+B),特异度=1-假阳性率;真阳性率=D/(C+D),灵敏度= 真阳性率
1.3 转录组数据分析
肺癌病人和健康人的转录组数据从美国癌症基因组数据库 TCGA 下载(更新时间为 2018 年4
月).采用 R语言中的 edgeR 包和 DESeq 包来筛选差异表达基因.R 语言是用于统计分析、绘图
的优秀工具和操作环境,其中的 edgeR 包[10]是基于负二项分布来分析不同生物样本中 RNA 测
序谱的经典方法,用到包括经验贝叶斯估计和广义线性模型等算法.而DESeq 包[11]根据动态数
据的范围,对差异表达基因的选择更平衡,对只有较少重复的样本实验有更好的表现.两者最重
要的差别就是:edgeR 根据分散平均关系,将特征水平的分散估计趋向于一个趋势平均值,而
DESeq 则取个体分散估计和分散平均趋势的最大值[12].差异表达基因的评判用到了错误发现率
(false discovery rate,FDR)和差异倍数(fold-change,FD)两个指标.本研究以正常人转录组数
据为对照组,将肺癌转录组中符合FDR<0.001 且FD>4 以上的基因定义为差异表达基因.
1.4 代谢通路分析
为了阐明差异表达基因在人体内参与的信号通路和发挥的功能,根据得到的差异表达基因,使
用KOBAS 3.0[13]进行分析,对靶基因进行 KEGG(Kyoto encyclopedia of genes and genomes)通
路分析和基因本体论(gene ontology,GO)注释分析.由此,得到这些基因的功能和相关的代谢
通路;查询文献以及人类代谢数据库(HMDB)、KEGG 等数据库中产生肺癌标志性 VOC 的
代谢通路;比较差异表达基因与人体内代谢通路的匹配情况.
1.5 蛋白结构分析
在蛋白结构数据库 Protein Data Bank 中下载蛋白质三维结构文件并使用Pymol 软件以棍棒或是
卡通风格实现三维结构的图形化.使用UCSF Chimera 软件分析突变蛋白质中氨基酸残基的空间
结构变化.在基因突变后,氨基酸残基的不同旋转异构体(rotamer)都可能产生原子碰撞,本
文选择最有可能的 5种rotamers 并作能量最小化处理来稳定结构.
2 结果与讨论
2.1 筛选和验证肺癌特异性挥发性有机物
从2008 年4 —月2017 年12 月采集的样本中,选取 183 个已经完成GC-MS 分析并且结果较好
的呼吸样本.按照临床组织病理学诊断结果,将所有呼气样本分为肺癌组 58 例样本和健康组
摘要:
展开>>
收起<<
肺癌特异性VOC标志物的生物信息学探析 摘要:采用结合转录组、代谢通路、蛋白结构的呼出气体检测生物信息学分析方法来确定肺癌气体标志物,用于肺癌的筛选诊断.采用标准仪器(GCMS)检测肺癌病人和正常人的呼吸气体样本;经统计分析,筛选出10种特异性挥发性有机物(VOC).采用转录组分析得到肺癌和健康人的差异表达基因,其富集的代谢通路与人体内产生VOC的代谢通路一致,证明所筛选的VOC标志物与肺癌病人代谢具有相关性.基于此VOC建立的肺癌诊断模型的灵敏度、特异性和整体正确率分别为86.2%,91.2%和89.6%,说明所提方法能简便、有效区分正常人和肺癌病人,为早期肺癌筛查提供方便、可靠的检测方法....
相关推荐
-
2024年党建工作要点工作计划5篇供参考
2023-12-16 999+ -
2025年专题生活会对照带头严守政治纪律和政治规矩,维护党的团结统一等“四个带头方面”个人对照检查发言材料4110字文稿
2024-12-21 999+ -
2025年医保局局长、科技局领导干部专题“四个带头”方面对照检查材料2篇例文(附:反面典型案例剖析情况)
2025-02-09 457 -
2025年国有企业党委书记、市总工会党组书记民主生活会“四个带头”方面对照个人检查发言材料2篇文(附:典型案例、上年度整改+个人情况)
2025-02-09 506 -
2025年市委组织部部长、教育局党委书记生活会“四个带头”个人对照检查发言材料2篇文(典型案例+个人事项)
2025-02-09 626 -
2025年市财政局党组书记、局长、市检察院党组领导班子对照“四个带头”方面生活会个人对照检视发言材料2篇文(含以案为鉴反思、以案促改促治方面)
2025-02-09 508 -
市检察院党组、市财政局领导班子2025年生活会对照“四个带头”方面检视发言材料2份文【含以违纪行为为典型案例剖析】
2025-02-09 461 -
2025年市财政局领导对照“四个带头”生活会检视发言材料2篇例文【含以违纪行为为典型案例剖析】
2025-02-09 582 -
单位领导班子2025年聚焦“四个带头”生活会对照检查材料2篇文(含:典型案例剖析反思、落实意识形态责任制)
2025-02-09 757 -
2025年镇党委副书记、市科学技术局领导班子生活会对照“四个带头”检视材料2篇文【含违纪行为典型案例分析】
2025-02-09 257
作者:闻远设计
分类:社科文学类资料
价格:免费
属性:6 页
大小:22.43KB
格式:DOCX
时间:2024-04-20

