RNA-seq摸索：3.基因表达水平分析→featureCounts计量→差异表达分析及可视化

如题所述

举报该问题

其他回答

第1个回答 2022-07-14

在 R 中

标准化的主要目的是去除测序数据的技术偏差：测序深度和基因长度。

测序深度：同一条件下，测序深度越深，基因表达的 read 读数越多。

基因长度：同一条件下，不同的基因长度产生不对等的 read 读数，基因越长，该基因的read读数越高。

对给定的基因组参考区域，计算比对上的 read 数，又称为 raw count （RC）。

计数结果的差异的影响因素：落在参考区域上下限的read是否需要被统计，按照什么样的标准进行统计。

RPM方法：10^6 标准化了测序深度的影响，但没有考虑转录本的长度的影响。

RPM适合于产生的read读数不受基因长度影响的测序方法，比如miRNA-seq测序，miRNA的长度一般在20-24个碱基之间。

RPKM/FPKM方法： 10^3 标准化了基因长度的影响，10^6标准化了测序深度的影响。

FPKM方法与RPKM类似，主要针对双末端RNA-seq实验的转录本定量。在双末端RNA-seq实验中，有左右两个对应的read来自相同的DNA片段。在进行双末端read进行比对时，来自同一DNA片段的高质量的一对或单个read可以定位到参考序列上。为避免混淆或多次计数，统计一对或单个read比对上的参考序列片段（Fragment），来计算FPKM，计算方法同RPKM。

RPKM/FPKM适用于基因长度波动较大的测序方法，如lncRNA-seq测序，lncRNA的长度在200-100000碱基不等。

TPM的计算方法也同RPKM/FPKM类似，首先使用式2计算每个基因的表达值，去除基因长度的影响。随后计算每个基因的表达量的百分比，最后再乘以10^6，TPM可以看作是RPKM/FPKM值的百分比。

TPM值就是RPKM的百分比

相当于重新标准化的文库，保证每个样本中所有TPM的总和是相同的。

raw count 作为原始的read计数矩阵是一个绝对值，而绝对值的特点是规模不同（基因长度、测序深度），不可以比较。进行这些基因标准化方法的目的是将count矩阵转变为相对值，去除技术偏差的影响，使后续的差异分析具有统计学的意义。

limma/voom，edgeR，DESeq2，转录组差异分析的三大R包!

相似回答

插件| 点点点,基因差异表达分析~几分钟就掌握了答：其次是一个样品归组信息，比如做了一个实验，对香蕉做了低温处理，那么会有对到和低温两个分组的数据，分别有 3 个生物学重复，那么样品分组信息大体可以长下面这个样子。而最后则是一个比较信息，我们做基因差异表达分析，肯定是某个条件跟某个条件的两两比较，针对上述只有一个处理和一个对照，那么...

差异表达基因检测 | EBSeq答：要帮朋友做RNA-seq的分析，cases vs. controls总共4个样本（2 vs. 2)，看到文献（实验设计比较类似）里用的是 EBSeq 较为频繁，所以用这个来做。但从文献来看，EBSeq对样本量依赖较大。EBSeq的输入数据是原始的read count ，可以通过 featureCounts、HTSeq-count 等软件包获得。命令参考链接 h...

RNA-seq数据分析一:(HISAT2+featureCounts)答：-p If specified, libraries are assumed to contain paired-end reads. For any library that contains paired-end reads, the 'countReadPairs' parameter controls if read pairs or reads should be counted 结果包含有 geneid，染色体位置，基因起始结束的位置以及基因的 count 数 ...

STEP4: 得到表达矩阵的流程答：这是RNA-Seq 上游分析的大致流程，比对+定量。当然实验目的若只需要定量已知基因，也可以选择free-alignment 的流程工具如kallisto/Salmon/Sailfish，其优点是可用于RNA-seq的基因表达的快速定量，但是对于小RNA和表达量低的基因分析效果并不好（2018年刚发表的一篇文章对free-alignment 的工具进行了质量评估...

RNA-seq分析软件“海底捞“--RNACocktail答：评估结果：注：定量分为两大类：基因层次和转录本亚型层次，基因层次的定量使用GTF文件中的外显子和基因坐标信息，将reads比对信息与之对应，常用的软件有Featurecounts、HTSeq-count等 Stringtie参考： stringTie:转录本组装和定量工具 (qq.com)总之，在RNA-seq分析过程中，需要考虑的问题是：分析目的是...

2.单细胞 RNA-seq:计数矩阵的生成答：根据所使用的文库制备方法，RNA序列(也称为读序列或标签)将从转录本的3端(或5端)(10X Genomics, cell -seq2, Drop-seq, inDrops)或全长转录本(Smart-seq)中获得。针对感兴趣的生物学问题选择不同的方法。下面列出了这些方法的优点：3 '端测序与全长测序需要进行许多相同的分析步骤，但 3' 端...

大家正在搜