大数据下前列腺癌差异基因的生物信息学研究

3.0 闻远设计 2024-04-20 12 4 1.04MB 10 页 免费
侵权投诉
大数据下前列腺癌差异基因的生物信息学研究
 摘要:【目的】利用生物信息学的方法,对 GEO TCGA 两个基因组学数据库进行分析,
探究与前列腺癌相关的差异基因及相关的调控网络。【方法】综合 GEO 数据库的前列腺癌基
因表达芯片数据(GSE46602GSE55945)和 TCGA 数据库的 RNA-seq 数据,利用 GEO2R
R语言的 edgeR 包进行基因差异分析,获得共同的显着差异基因,结合 R语言的 clusterProfiler
包进行 GO 功能分析及 KEGG 通路分析,同时利用 string 网站进行蛋白互作网络分析,筛选出
前列腺癌中调节蛋白表达量的关键基因,再结合 TCGA 临床随访数据分析关键节点基因的临床
预后价值。【结果】获得共同差异基因共 278 个,其中表达上调 100 个,表达下调 178 个,它
们与上皮细胞的调节增殖、含苯化合物的代谢过程等功能以及谷胱甘肽代谢和粘着斑等信号通
路密切相关。蛋白互作网络分析结果得出 3个重点蛋白表达模块以及 12 个关键节点基因。在
这些关键基因中,EDN3EDNRB AMACR 与前列腺癌患者的生存率密切相关。【结论】通
过对前列腺癌基因芯片和 RNA-seq 数据的生物信息学分析,我们发现 EDN3EDNRB
AMACR 很可能在前列腺癌的发生发展过程中发挥重要作用。
 关键词:前列腺癌; 生物信息学; GEO; TCGA; 差异基因;
Bioinformatics Analysis of Prostatic Carcinoma Via Big-Data
LI Zhi-biao TANG Fu-cai LU Ze-chao HUANG Wei-na HE Zhao-hui
The Third Clinical College of Guangzhou Medical University Department of Urology,The Eighth
Affiliated Hospital,Sun Yat-sen University The First Clinical College of Guangzhou Medical
University
    AbstractObjectiveThe two databases,GEO(gene expression omnibus,GEO)and
TCGA(the cancer genome alas,TCGA),were analyzed using bioinformatics methods to screen
differentially expressed genes associated and their related regulatory networks in prostate carcinoma.
MethodsThe prostate carcinoma gene expression chip data(GSE46602,GSE55945)downloaded
from the GEO database were integrated into the RNA-seq data of the TCGA database. And the
differentially expressed genes analysis was performed using GEO2 R and the edgeR package of R
software to extract common significant differentially expressed genes. The clusterProfiler package of
R software was used to enrich the GO(gene ontology,GO)function enrichment analysis and
KEGG(kyoto encyclopedia of genes and genomes,KEGG)pathway analysis. Differentially expressed
genes were further constructed into a protein-protein interaction(PPI)network to screen out key genes
for regulatory protein expression in prostate carcinoma. Gene analysis results were combined with
TCGA clinical follow-up data to analyze the clinical prognostic value of key node genes.
ResultsA total of278 significant differentially expressed genes were extracted,of which 178 genes
were down-regulated and 100 genes were up-regulated. These genes were closely associated with the
function and pathway enrichment such as the regulation of proliferation of epithelial cells,metabolism
of benzene-containing compounds,the glutathione metabolism,and focal adhesion. The protein-protein
interaction network analysis revealed three key protein expression modules and 12 key node genes.
Among these key genes,EDN3(endothelin-3),EDNRB(endothelin receptor B)and AMACR(alpha-
methylacylcoa racemase)were closely related to the survival rate of prostate cancer patients.
ConclusionThrough bioinformatics analysis of gene chip and RNA-seq data in prostate
carcinoma,we found that EDN3,EDNRB and AMACR may play an important role in the occurrence
and development of prostate carcinoma.
前列腺癌(prostate cancer,PC)是泌尿系统中的常见肿瘤之一。2019 年美国预计有 174 650
新诊断前列腺癌病例和 31 620 例死亡病例,其发病率位居男性恶性肿瘤发病率的首位,患者死
亡率高居男性恶性肿瘤的第二位[1]。而在中国,前列腺癌的发病率也在逐年增高,已成为男性
最常见的十大肿瘤之一,其死亡率也在随着年龄的增长而上升[2]。前列腺癌起病隐匿,临床发
现多为晚期[3]且目前治疗方式主要以手术治疗和雄激素阻断治疗为主,但激素依赖性前列腺癌
大部分会恶化发展为去势抵抗性前列腺癌,目前尚不能有效地治疗这种病情[4]。因此,前列腺
癌的早期诊断,有助于提升患者的生存率,筛选出前列腺癌的生物标志物对其预防和前期的诊
治具有重要的意义。人类肿瘤相关的基因表达汇编(gene expression omnibus,GEO)和癌症基
因组图谱(the cancer genome alas,TCGA)是目前最大的两个公共组学数据库,近年来,国内外
学者通过生物信息学的方法对这两个数据库的数据进行了多项研究[5,6,7]。生物信息学是目前
自然科学的研究重点之一,它以计算机作为工具,从核酸和蛋白质序列进行研究,分析序列当
中蕴含的结构功能信息。研究结合两大数据库的基因数据,筛选共同的差异表达基因,
进一进行生物信息学分析,为前列腺癌的发生机与预后预依据。
    1 材料与方法
1.1 材料
prostate cancer;prostate carcinoma;pros-tate neoplasms;prostatic neoplasm;cancer of
theprostate;prostatic cancer”作为关键,从 GEO 数据库(www.ncbi.nlm.nih.gov/geo)中搜索
因芯片数据,筛选标准:(1)数据mRNA 基因组芯片(2)具有癌组与癌织;(3)
AffymetrixHuman Genome U133 Plus 2.0 Array 平台作为研究平台;(4)样本>20。基于以上筛
选标,基因芯片数据GSE55945 GSE46602 纳入研究。GSE46602 36 个癌组织样
14 个癌织样本;GSE55945 13 例癌组织样本8例癌织样本。为了进一利用
不同基因组库的大数据进行验证,从 TCGA 数据库(http//carcinomage-nome.nih.gov/)下
前列腺癌的 RNA-seq 数据及相的随访数据,剔除 TCGA 数据库中临床随访数据缺失或
样本数据,筛选出 495 例前列腺癌基因数据与 98 例癌数据及其对的临床随访数据。
1.2 数据处理与基因筛选
利用 GEO2R(https//www.ncbi.nlm.nih.gov/geo/geo2r/)在线分析网站对 GEO 数据库中的
GSE46602 GSE55945 基因芯片进行数据处理,筛选差异基因同时R语言的 edgeR
TCGA 数据库下RNA-seq 数据进行差异表达分析。差异基因的log2(fold
change)>1,P.adjust<0.05 个数据差异分析结果绘制火山图,并采韦恩取并集
1.3 通路与功能富集分析
利用 R软件clusterProfiler [8,9,10]对上共同差异基因进行 GO(gene ontology,GO)功能分
析及 KEGG(kyoto encyclopedia of genes and genomes,KEGG)通路分析,以 P.adjust<0.05
差异基因的主要富集功能和通路。
1.4 蛋白互作网络分析
将交集的差异基因导入 string(https//stringdb.org/)在线分析网站进行蛋白质互作网络分析
protein-protein interaction,PPI),将所得结果导入 Cytoscape 软件,筛选出关键的蛋白表达模
块与关键节点基因。
1.5 生存分析
利用 R软件 survival 包,1.4 中获得的前列腺癌关键节点基因表达值中位数分为高表达和
表达组,结合 TCGA 数据库中下的前列腺癌患者预后随访信息,包括总生存时和生存
,对两组绘制 K-M 生存曲线进行 log-rank 统计检验,分析关键节点基因的预后关
系,P<0.05 为差异有统计学意义。
    2 结果
2.1 前列腺癌差异表达基因的筛选
利用 GEO2R 线网站对 GEO 筛选的数据进行数据处理分析,GSE55945 基因芯片筛选结果
,表达上调的基因 622 个,表达下调的基因 237 GSE46602 基因芯片筛选结果显
表达上调的基因 934 个,表达下调的基因 542 个。利用 R软件edgeR 包对 TCGA
RNA-seq 数据进行基因差异表达分析,结果显,表达上调的基因 1 958 个,表达下调的基因
1 759 个。利用 R语言的 Volcano Plot 做火山图,利用 Venn Diagram 包进行基因合集处理
(图 1 )。
2.2 差异基因的通路与功能富集分析
利用 R语言的 clusterProfiler 包对筛选出来的 278 个共同差异表达基因进行 GO 功能分析与
KEGG 通路富集分析,以 P.adjust 小到大进行列,展GO KEGG 富集分析中的前 10
结果(图 2)。结果显差异基因主要与上皮细胞的增殖和含苯化合物的代谢过程等功能相
关(表 1),主要富集表达于谷胱甘肽代谢和粘着斑等信号通路(表 2 )。
1 10 GO 富集分析结果
GO:gene ontology.
2 KEGG 通路富集分析结果
KEGG:kyoto encyclopedia of genes and genomes.
摘要:

大数据下前列腺癌差异基因的生物信息学研究 摘要:【目的】利用生物信息学的方法,对GEO和TCGA两个基因组学数据库进行分析,探究与前列腺癌相关的差异基因及相关的调控网络。【方法】综合GEO数据库的前列腺癌基因表达芯片数据(GSE46602、GSE55945)和TCGA数据库的RNA-seq数据,利用GEO2R及R语言的edgeR包进行基因差异分析,获得共同的显着差异基因,结合R语言的clusterProfiler包进行GO功能分析及KEGG通路分析,同时利用string网站进行蛋白互作网络分析,筛选出前列腺癌中调节蛋白表达量的关键基因,再结合TCGA临床随访数据分析关键节点基因的临床预后价值。...

展开>> 收起<<
大数据下前列腺癌差异基因的生物信息学研究.docx

共10页,预览3页

还剩页未读, 继续阅读

作者:闻远设计 分类:社科文学类资料 价格:免费 属性:10 页 大小:1.04MB 格式:DOCX 时间:2024-04-20

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 10
客服
关注