RNA-Seq高级分析(二):WGCNA原来这样做(转自美吉生物微信公众号)

  • 2017-09-21 19:39:32
  • 27
  • 0

概要:在转录组研究中,当样本量较大时,如何快速挖掘表型相关候选基因?又该怎样预测基因之间调控关系呢?别急,WGCNA可以轻松帮你解决这些困扰。


转载地址:


什么是WGCNA?
    加权基因共表达网络分析(Weighted Gene Co-expression Network Analysis, WGCNA)是当前高通量基因测序数据挖掘的主流方法之一。它是基于基因间表达数据的相似性来构建基因共表达网络,该网络中的节点代表基因,连接线代表基因之间的调控关系。通过该网络,不仅可以挖掘高度相关的基因模块,更可以直观深入地反映基因之间可能存在的表达调控关系以及处于其中核心位置的节点,即核心基因(hub gene)。

WGCNA解决哪些问题?   
    1、筛选与所关注的表型性状或目标样本相关的基因模块或核心基因,可以迅速开展后续验证性实验;
    2、基于表达量数据来预测基因间的调控关系和未知基因的功能,为研究未知基因提供重要线索;
    3、基于表达模式对基因进行分类,有助于迅速聚焦到目标模块上;
    4、对大样本表达量数据进行处理,大样本特效药呦。

WGCNA方法的应用
    目前,WGCNA方法已经应用于以下研究:
    动植物:获取跟生长发育、产量品质和抗逆机制等表型性状密切相关的潜在核心基因;
    医学:癌症的相关研究应用较多,WGCNA能够快速锁定与疾病发生相关的候选基因,从而有助于迅速筛选与此病症相关的生物标记(biomarker)和潜在药物靶点。

WGCNA分析怎么做?
    加权基因共表达网络分析采用“WGCNA”这个R程序包并配合于Cytoscape软件来实现,其分析流程如下:
    前提:获得基因表达量数据(建议样本数≥15个)

    数据处理:计算基因表达量之间的相关系数,并做幂函数处理,以便相关系数值的分布最终符合无尺度分布,使基因之间的相互作用关系的强度符合无尺度分布(图A)。

    模块鉴别:根据基因的表达模式相似性来对基因进行分类,将聚类图上关系比较近的基因分为一个模块,每个模块里的基因表达模式相似(图B)。

   

    核心模块筛选:通过以下方法来研究模块特性,找到具有生物学意义或相关性最强的目标模块(图C):
    1、对模块内基因进行KEGG或GO富集分析;
    2、计算各模块的模块特征值与所关注的性状之间的相关系数;
    3、计算各模块的模块特征值与样本间的相关系数。

    WGCNA网络构建及核心基因筛选:构建WGCNA网络,一是可以研究目标模块内部基因之间的调控关系,根据关系预测未知基因的功能,因为在网络中被调控线连接的基因,其表达模式相似,具有潜在的相似功能;二是可以基于基因之间的连通性来筛选核心基因(处于网络中心节点位置的基因)(图D)。


    案例一:长非编码RNA在人和小鼠早期胚胎里的鉴定及其功能分析
    探讨着床前期胚胎发育的分子机制不仅能加深对人类出生缺陷的理解,还能提高我们对诸多复杂疾病的致病机理的认识。Qiu 等人(2016)对来自7个发育时期的90个人早期胚胎样本的单细胞进行lncRNA转录组测序。将阶段特异性表达基因进行聚类,结果鉴别到17个基因模块,其中9个模块的基因与特异发育阶段或与整个发育过程高度相关,所有模块里都包含了大量lncRNA;在所有阶段特异表达的基因模块内都存在核心lncRNA,它们可通过顺式作用或反式作用调控编码基因的表达。此外,通过对相关模块内的基因进行KEGG和GO富集分析,结果表明lncRNA可能调控了包含卵母细胞成熟及其减数分裂等在内的诸多生物过程(图1)。


图1 人早期胚胎lncRNA的WGCNA分析结果

A:基因模块层次聚类图;B:相关系数热图;C-F:部分基因模块内的基因间调控关系可视化图

 

    案例二:多形性成胶质细胞瘤的扩散加权成像与放射基因组网络的整合分析 

    多形性成胶质细胞瘤(glioblastoma multiforme, GBM)是最常见的成人恶性脑瘤。为了深入了解基因表达跟成像表型的相关性,Heiland 等人(2017)采用多形性成胶质细胞瘤的扩散加权成像参数并结合全基因组表达水平的网络分析对21个患者的肿瘤组织样本来进行放射基因组学研究。结果通过WGCNA分析鉴定得到41基因模块,其中与平均扩散系数(mean diffusivity, MD)和各向异性分数(Fractioal anisotropy, FA)密切相关的基因模块分别有两个(模块2和3,图2-A)和一个(模块1,图2-C)。其中,基于模块3内部的基因连通性构建的网络表明,部分基因是神经系统的发育及其功能发挥所需的重要核心基因,比如NLG2(图2-B);基于这些模块1构建的WGCNA网络表明,部分基因是激活相关通路起作用所需的关键基因,比如IQGAP1、ANXA2(图2-D)。


图2 胶质细胞瘤的转录组学WGCNA分析结果

A和C:基因模块层次聚类图;B和D:分别为模块3与模块1内部的基因间调控关系可视化图 

   

    案例三:调控苹果酸度的共表达基因模块的揭示 

    苹果酸的含量能决定苹果的果实酸度,而苹果的果实酸度主要是受到Malic acid (Ma)这个基因位点的调控。Bai等人(2015)以10个苹果品种为研究对象,每个品种取3个重复,先是基于RNA-Seq的数据鉴定到了1,301个果实酸度相关基因,然后基于WGCNA分析鉴定到了与苹果酸显著相关的共表达基因模块有5个,核心基因有12个,与果实酸度相关性最大的基因模块(图3)里包含了Ma1基因,该基因与酸度的相关性最高,暗示Ma1是调控成熟苹果酸度的决定性因素,而且该模块全部基因都与光合作用相关,推测认为成熟前果实的光合作用可能促进了苹果酸的生物合成而导致果实成熟前的苹果酸含量高于成熟后的,也同时说明了光合作用相关通路是苹果酸度的形成所必需的。

图3 酸度相关基因的WGCNA分析结果
A:基因模块层次聚类图;B:基因的连通性及其与苹果酸的显著性之间的相关性;C:模块的相关性系数及其p-value值;D:基因模块内的基因间调控关系可视化图;E:WGCNA网络中边的分布

更多转录组高级分析:RNA-Seq高级分析(一):转录组分析大放送,总有一款适合你(转自美吉生物微信公众号)

参考文献
Bai Y, Dougherty L, Cheng L et al. Uncovering co-expression gene network modules regulating fruit acidity in diverse apples. BMC Genomics, 2015, 16:612.
Heiland DH, Simon-Gabriel CP, Demerath T et al. Integrative diffusion-weighted imaging and radiogenomic network analysis of glioblastoma multiforme. Scientific reports, 2017, 7: 43523.
Langfelder P, Horvath S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics, 2008, 9:559
Qiu JJ, Ren ZR, Yan JB. Identification and functional analysis of long non-coding RNAs in human and mouse early embryos based on single-cell transcriptome data. Oncotarget, 2016, 7: 61215-61228.

评论

全部评论()
查看更多评论
湖北11选5 湖北11选5 湖北11选5 湖北快三 湖北快三 湖北快三 湖北11选5 湖北快三 湖北快三 湖北快三