2023年2月8日星期三

WGCNA分析学习笔记|一些基础概念

什么是WGCNA分析?

全称加权基因共表达网络分析Weighted correlation network analysis),描述不同样品之间基因关联模式的生物信息学分析方法。

可以讲表达模式相似的基因进行聚类,并分析模块与特定形状或表型之间的关联关系。

WGCNA分析的适用范围

1、WGCNA分析的适用范围

抗病胁迫以及其他性状与基因关联分析等方面研究中被广泛应用。

主要应用与转录表达方面的研究,如转录组测序、蛋白质组测序等。

2、WGCNA分析对样品数量的要求

一般来说需要至少15个样品以上(5个点×3个重复)。

样品数量越多,结果会越准确

3、什么是hub gene

通过WGCNA分析可以构建一个调控网络,而位于调控网络中心的基因被成为核心基因,即hub gene,这类基因通常是关键的调控基因,是值得我们深入挖掘和分析的对象。

4、进行WGCNA分析时,怎么对选用的基因进行过滤?

一般来说,我们会把表达量较低,且在各个样本中变化不大的基因过滤掉。


描述性统计分析-1

7.1.1方法云集

summary()函数可以用来获取描述性统计量,包括:最大值,最小值,四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计。

vars <- c("mpg", "hp", "wt")
summary(mtcars[vars])

可以借助sapply()函数计算所选择的任意描述性统计量,其格式为

sapply(x, FUN, options)

x: 数据框(矩阵)

FUN: 为一个任意的函数,常用的典型函数例如:mean、sd、var、min等

options:将被传递给FUN

图基五数总括,包括:最小值,下四分位数、中位数、上四分位数、最大值,可以通过fivenum()实现。

fivenum(mtcar$mpg)

例7-2 通过sapply()计算描述性统计量

mystats <- function(x, na.omit=FALSE){
 if (na.omit)
   x <- x[!is.na(x)]
 m <- mean(x)
 n <- length(x)
 s <- sd(x)
 skew <- sum((x-m)^3/s^3)/n
 kurt <- sum((x-m)^4/s^4)/n - 3
 return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt))  
}
sapply(mtcars[vars], mystats)