2021-09-16差异表达基因时的Log2FC和FDR值的含义？

如题所述

第1个回答 2022-06-26

转录组分析差异表达基因时，结果中会出现 Log2FC 和 FDR 值，这两个是什么意思呢？

log2FC 中的FC即 fold change，表示两样品（组）间表达量的比值，对其取以2为底的对数之后即为log2FC。一般默认取log2FC绝对值大于1为差异基因的筛选标准；

FDR 即False Discovery Rate，错误发现率，是通过对差异显著性p值（p-value）进行校正得到的。由于转录组测序的差异表达分析是对大量的基因表达值进行独立的统计假设检验，会存在假阳性问题，因此在进行差异表达分析过程中，采用了公认的Benjamini-Hochberg校正方法对原有假设检验得到的显著性p值（p-value）进行校正，并最终采用FDR作为差异表达基因筛选的关键指标。一般取FDR<0.01或者0.05作为默认标准。

这两个指标的选取一般是按照经验值去筛选的，并非完全不可以调整。在实验差异基因数目过低或者过高，可以对指标进行微调。

实际上经常看到的差异表达火山图（如下图）里的几条虚线就是这两个指标的体现。

为什么要用FDR

在转录组分析中，如何确定某个转录本在不同的样品中表达量是否有差异是分析的核心内容之一。一般来说，我们认为，不同样品中，表达量差异在两倍以上的转录本，是具有表达差异的转录本。为了判断两个样品之间的表达量差异究竟是由于各种误差导致的还是本质差异，我们需要根据所有基因在这两个样本中的表达量数据进行假设检验。常用的假设检验方法有t-检验、卡方检验等。很多刚接触转录组分析的人可能会有这样一个疑问，一个转录本是不是差异表达，做完假设检验看P-value不就可以了么？为什么会有FDR这样一个新的概念出现？这是因为转录组分析并不是针对一个或几个转录本进行分析，转录组分析的是一个样品中所转录表达的所有转录本。所以，一个样品当中有多少转录本，就需要对多少转录本进行假设检验。这会导致一个很严重的问题，在单次假设检验中较低的假阳性比例会累积到一个非常惊人的程度。举个不太严谨的例子。

假设现在有这样一个项目：

● 包含两个样品，共得到10000条转录本的表达量数据，

● 其中有100条转录本的表达量在两个样品中是有差异的。

● 针对单个基因的差异表达分析有1%的假阳性。

由于存在1%假阳性的结果，在我们分析完这10000个基因后，我们会得到100个假阳性导致的错误结果，加上100条真实存在的结果，共计200个结果。在这个例子中，一次分析得到的200个差异表达基因中，有50%都是假阳性导致的错误结果，这显然是不可接受的。为了解决这个问题，FDR这个概念被引入，以控制最终得到的分析结果中假阳性的比例。

如何计算FDR

FDR的计算是根据假设检验的P-value进行校正而得到的。一般来说，FDR的计算采用Benjamini-Hochberg方法（简称BH法），计算方法如下：

1. 将所有P-value升序排列.P-value记为P，P-value的序号记为i，P-value的总数记为m

2. FDR(i)=P(i)*m/i

3. 根据i的取值从大到小，依次执行FDR(i)=min{FDR(i),FDR(i+1)}

注：实际上，BH法的原始算法是找到一个最大的i，满足P≤i/m*FDR阈值，此时，所有小于i的数据就都可以认为是显著的。在实践中，为了能够在比较方便的用不同的FDR阈值对数据进行分析，采用了步骤3里的方法。这个方法可以保证，不论FDR阈值选择多少，都可以直接根据FDR的数值来直接找到所有显著的数据。

下面我们以一个包含10个数据的例子来看一下FDR计算的过程

在这个例子中，第一列是原始的P-value，第二列是排序后的序号，第三列是根据P-value校正得到的初始FDR，第四列是最终用于筛选数据的FDR数值。如果我们设定FDR<0.05，那么绿色高亮的两个数据就是最终分析认为显著的数据。

FDR的阈值选择在转录组分析中是非常重要的一个环节，常用的阈值包括0.01、0.05、0.1等。实践中也可以根据实际的需要来灵活选择。例如，在做真菌或者原核生物的转录组分析时，由于这些物种转录本数量较少，假阳性累积的程度较低，所以可以适当将FDR阈值设置的较高一些，这样可以获得较多的差异表达结果，有利于后续的分析。

相似回答

fdr是什么意思?答：FDR是False Discovery Rate的缩写，翻译为“假发现率”。FDR是统计学中用来描述在进行多重假设检验时发现的假阳性数量与总阳性数量之间的比率，该比率常用于控制因多次检验而引入的假阳性错误率。在实验设置中，多个变量可以被测试，产生P值，也就是信号显着性的程度。FDR就是用来控制在测试多个变量的条件...

火山图的log2FC怎么求的答：log2FC中的FC即 fold change，表示两组样品间表达量的比值，对其取以2为底的对数之后即为log2FC。一般默认取log2FC绝对值大于1为差异基因的筛选标准（即差异两倍以上的视为差异基因）。我们画火山图，只需要其中的log2FC和FDR就可以了。在绘图之前，我们需要对FDR进行转换，将它的值变成-log10，如果...

差异基因分析pvalue,fdr是怎么计算的答：FoldChange，很容易理解了。就是两样品中同一个基因表达水平的变化倍数。可以用RPKM值来计算，关于RPKM的计算方法，请参考<RPKM的简介> ii）FDR校正后的p-value，即q-value FDR值的计算方法如下：1）对每个基因进行p-value的计算假设观测到基因A对应的reads数为x，已知在一个大文库中，每个基因的表...

RNA-seq(7): DEseq2筛选差异表达基因并注释(bioMart)答：显示为接下来，我们要查看treat versus control的总体结果，并根据p-value进行重新排序。利用 summary 命令统计显示一共多少个genes上调和下调（FDR0.1）差异表达基因的界定很不统一，但log2FC是用的最广泛同时也是最不精确的方式，但因为其好理解所以广泛被应用尤其芯片数据处理中，记的是havard universit...

差异分析答：对于多重假设检验，单次检验中差异显著基因的假阳性率(p-value较小)可能会较大，而 q-value 和 FDR值较常见的BH校正方法得到的FDR值而言，改进了其对假阳性估计的保守性。火山图可反映总体基因的表达情况，横坐标代表log2（Fold Change）,纵坐标表示-log10（P值），每个点代表一个基因，颜色...

基因差异火山图怎么看答：基因差异火山图看法如下：火山图可反映总体基因的表达情况，横坐标代表log2（Fold Change）,纵坐标表示-log10（P值），每个点代表一个基因，颜色用以区分基因是否差异表达，图中橙色的点代表差异表达基因，蓝色的点代表没有差异表达的基因。聚类图聚类图可以衡量样本或基因之间表达的相似性。在聚类图中，横...

大家正在搜

表达没有差异的基因差异表达基因DEGs 什么是差异表达基因显著差异表达基因怎样分析差异表达基因差异表达基因分析基因差异性表达差异表达基因比例没有找到差异表达基因