请教关于韦恩图分析差异表达基因的问题
发布网友
发布时间:2022-04-23 09:15
我来回答
共1个回答
热心网友
时间:2023-08-15 00:24
差异表达基因分析是根据表型协变量(分类变量)鉴定组间差异表达,它属于监督性分类的一种。在鉴定差异表达基因以前,一般需要对表达值实施非特异性过滤(在机器学习框架下属于非监督性分类),因为适当的非特异性过滤可以提高差异表达基因的检出率、甚至是功效。R分析差异表达基因的library有很多,但目前运用最广泛的Bioconctor包是limma。
鉴定差异表达基因是表达谱芯片分析pipeline中必须的分析步骤。差异表达基因分析是根据表型协变量(分类变量)鉴定组间差异表达,它属于监督性分类的一种。在鉴定差异表达基因以前,一般需要对表达值实施非特异性过滤(在机器学习框架下属于非监督性分类),因为适当的非特异性过滤可以提高差异表达基因的检出率、甚至是功效。R分析差异表达基因的library有很多,但目前运用最广泛的Bioconctor包是limma。
本专题示例依然来自GEO数据库中检索号为GSE11787 的Affymetrix芯片的数据,数据介绍参阅专题一。
>library(limma)
>design <- model.matrix(~ -1+factor(c(1,1,1, 2,2,2)))
这个是根据芯片试验设计,对表型协变量的水平进行design,比如本例*有6张芯片,前3张为control对照组,后3张芯片为实验处理组,用1表示对照组,用2表示处理组。其他试验设计同理,比如2*2的因子设计试验,如果每个水平技术重复3次,那么可以表示为:design <- model.matrix(~ -1+factor(c(1,1,1, 2,2,2, 3,3,3, 4,4,4)))。接上面的程序语句继续:
>colnames(design) <- c("control", "LPS")
>fit <- lmFit(eset2, design)
>contrast.matrix <- makeContrasts(control-LPS, levels=design)
>fit <- eBayes(fit)
>fit2 <- contrasts.fit(fit, contrast.matrix)
>fit2 <- eBayes(fit2)
>results<-decideTests(fit2, method="global", adjust.method="BH", p.value=0.01, lfc=1.5)
>summary(results)
>vennCounts(results)
>vennDiagram(results)
比较遗憾的是,目前limma自带的venn作图函数不能做超过3维的高维venn图,只能画出3个圆圈的venn图,即只能同时对三个coef进行venn作图。上面的venn图只有一个coef,太简单了。下面是一个由本实验室芯片数据得出的三个coef的venn图例:
>heatDiagram(results,fit2$coef)
红色为control中(与LPS相比)的高表达基因,绿色为control中(与LPS相比)的低表达基因,x轴的数字表示差异表达基因在eset2中所处的位置。
>x<-topTable(fit2, coef=1, number=10000, adjust.method="BH", sort.by="B", resort.by="M")
>write.table(x, file="limma.xls", row.names=F, sep="\t")
将结果写入limma.xls文件中,内容包括AveExpr值(比较组间绝对值的平均差异值)、logFC值(差异倍数)、t值、P值、q值(即adj.P.Val值)和B值。一般logFC值、P值、q值和AveExpr值用来作为差异表达的判断标准,比如差异倍数在2倍以上、绝对差异表达在10以上、P值小于0.01等。在Excel文件中,根据各项判断标准排序,可以很容易地得到差异表达基因列表,这个列表可以用来进行后续的分析,如GO注释、基因网络绘制等。
专题一中提到实际研究中,一般只用差异表达基因进行聚类分析,在R中,根据差异表达结果过滤表达值很简单(具体的值可以依据芯片数据的实际情况设定,比如P值可以设宽松点0.05、logFC的绝对值也可设为1或2、绝对表达差异也可设低一点,如6或8这样的值):
转录组入门(7):差异表达分析
注 大部分的mRNA-Seq数据分析用TMM标准化就行了,但是也有例外,比如说single-cell RNA-Seq(Lun, Bach, and Marioni 2016), 还有就是global differential expression, 基因组一半以上的基因都是差异表达的,请尽力避免,(D. Wu et al. 2013), 不然就需要用到内参进行标准化了(Risso et al. 2014). 第四步: ...
转录组图形专题之差异基因相关图形介绍
显著差异表达基因集分析,通过对共有部分的剔除,我们能够聚焦于s2特有的基因集,揭示出独特的生物学特性。韦恩图,这个精巧的可视化工具,通过对比不同组间的差异基因,清晰地展示出交集和并集的分布。origin、R包以及OmicShare等工具,为动态展示差异提供了多样化的选择。火山图,这个名字听起来就富有戏剧性...
R包VennDiagram的韦恩图绘制及交集元素的提取
例如做RNA-seq的最直接目的,大多是鉴定差异表达的基因。当试验涉及到多分组情况时,常需要展示多组间共享的差异基因数量,这个时候就要使用到韦恩Venn图。例如以下示例,植物组织中响应7天氮缺乏(-N_7d)、7天磷酸盐缺乏(-Pi_7d)和盐胁迫(d)、冷胁迫(e)或干旱胁迫(f)的差异表达lncRNA的Venn...
转录组差异表达分析(NCBI中的GEO数据)
常用的数据分析软件有GEO2R和limma。NCBI数据库中的GEO2R软件可直接在线分析并得到差异基因。分析时,需进行分组并划分数据颜色(如tumor和normal)。分组完成后,即可进行分析。若使用R语言,可提供R代码。注意保存为txt格式,避免乱码。分析时,通常选择三个以上的GEO数据进行差异分析,然后通过韦恩图找到...
转录组测序5-基因差异表达分析
转录组测序是最常用的组学实验,对全谱基因定量,找到差异表达基因。RNAseq涉及到原始数据,数据质控,基因组比对,差异基因鉴定,差异基因功能富集分析,重要基因如转录因子激酶的靶基因预测等,我们用10讲的时间,全面讲解转录组测序报告,及在上百个项目中遇到的近百个常见问题。 上一期视频 基因表达定量 中,我们讨论了在cl...
实用的在线生信工具汇总(一)
首先,Venny2.1(bioinfogp.cnb.csic.es/t...)是一个用于绘制韦恩图的在线工具,可直观展现多个数据集间的差异。只需输入数据列表,选择风格并导出图片,便可快速完成韦恩图的生成和保存。其次,Agrigo v2.0(systemsbiology.cau.edu.cn...)针对农业研究提供丰富的分析工具,包括基因富集分析。以...
手把手教你绘制火山图与韦恩图
火山图与韦恩图是数据可视化中常用工具,尤其在基因或蛋白差异表达分析中。火山图展示显著性和差异表达倍数,通过设置P值(如P<0.05)和Fold Change(如≥1.2倍)来区分。不会R语言的读者可以借助Origin软件绘制出专业效果。首先,访问Origin官方网站获取免费版软件,然后下载并安装Volcano plot APP。在...
热图制作软件-graphpadpri***7怎么做热图?如何使用graphpadpri***制作...
第一种,生物学热图,通常用在分子生物学范畴,可以显示从DNA微阵列获得的大量可比较样本(不同状态下的细胞、不同患者的样本)中的很多基因的表达水平。第二种,树形图,是数据的2D分层分区,在视觉上类似于热图。第三种,马赛克图,是一种平铺热图,用于表示双向或更高方式的数据表,与树形图一样,镶嵌在图中...
中心法则2——RNA(核糖核酸)
目前在生信里面应用最为广泛和成熟的RNA-seq技术就是转录组测序,狭义上也就是指的全部mRNA的表达水平,而RNA-seq完成后会生成很多的数据和图片,如火山图、韦恩图、聚类热图等。火山图(Volcano Plot) 显示了两个重要的指标: fold change和校正后的p value,利用t检验分析出两样本间显著差异表达的基因...
请教大家一个数学问题
集合中的韦恩图做法 8+3+6+2+2+1+x=27 解得x=5