6.单细胞 RNA-seq：归一化和 PCA 分析

如题所述

第1个回答 2022-06-19

在获得我们的高质量单细胞后，单细胞 RNA-seq (scRNA-seq) 分析工作流程的下一步是执行聚类。聚类的目标是将不同的细胞类型分成独特的细胞簇。为了进行聚类，我们确定了细胞之间表达差异最大的基因。然后，我们使用这些基因来确定哪些相关基因集是造成对细胞间的表达差异最大的原因。

在进行聚类之前，先需要理解几个概念。

第一个是count normalization，这对于准确比较细胞(或样本)之间的基因表达是至关重要的。每个基因的RNA表达，通过mapped reads 这一有意义的数值来反映，但是这一数值还会受到许多其他无意义的因素干扰。Normalization就是缩放原始计数以解决“无意义”因素的过程。这样，表达水平在细胞之间和/或细胞内更加具有可比性。

归一化过程中经常考虑的主要因素是：

scRNA-seq中的每个细胞都将具有与之相关的不同数量的reads。因此，要准确比较细胞之间的表达，有必要对测序深度进行标准化。

在 scRNA-seq 分析中，我们将比较细胞内不同基因的表达以对细胞进行聚类。如果使用基于 3' 或 5' 液滴的方法，基因的长度不会影响分析，因为仅对转录物的 5' 或 3' 末端进行测序。但是，如果使用全长测序，则应考虑转录本长度。

主成分分析(PCA)是一种既强调相似性又强调变异的技术，用来在数据集中产生强模式(降维)。我们将在简要介绍PCA(改编自StatQuests/Josh Starmer的YouTube视频)，强烈建议您浏览YouTube的 StatQuest 视频，有更全面的讲解。

假设您已经量化了两个样本（或细胞）中四种基因的表达，您可以绘制这些基因的表达值，其中一个样本表示在 x 轴上，另一个样本表示在 y 轴上，如下所示：

在表示 最大变化 的方向上通过数据绘制一条线，在本例中，该方向位于对角线上。数据集中的最大变异发生在构成这条线的两个端点的基因之间。

我们能看到基因在该线的上方和下方有些不同。同时我们可以在数据上绘制另一条线，表示 数据中变化第二大的量 ，因为该图是二维（2轴）的。

每条线末端附近的基因将是那些变异最高的基因；这些基因在数学上对线条的方向 影响最大 。

例如，基因 C 值的微小变化会极大地改变较长线的方向，而基因 A 或基因 D 的微小变化对线条方向影响很小。

我们还可以旋转整个曲线图，并以从左到右、向上和向下的方式查看表示变化的线条。我们看到数据中的大部分变化是从左到右的(较长的线)，第二大的变化是向上和向下的(较短的线)。现在，您可以将这些线视为表示变化的轴。这些轴本质上是“主成分”，其中PC1代表数据中最大的变化，而PC2代表数据中第二大变化。

如果我们有三个样本/细胞，那么我们就会有一个额外的方向可以发生变化(3D)。因此，如果我们有 N 个样本/细胞，我们就会有 N 个变化方向或 N 个主成分(PC)！一旦计算出这些PC，处理数据集中最大变化的PC被指定为PC1，第二PC被指定为PC2，依此类推。

一旦为数据集确定了PC，我们就必须弄清楚每个样本/细胞是如何重新适应坐标系的，这样我们才能以直观的方式可视化相似性/差异性之处。这里的问题是“基于Sample_X中的基因表达，给定PC的Sample_X得分是多少？”按照以下步骤对所有样本计算PC对分数：

（1）首先，根据每个基因对每个PC的影响程度，给每个基因分配一个“影响力”分数。对给定PC没有任何影响的基因得分接近于零，而影响更大的基因得分更高。PC线末端的基因会有更大的影响，所以他们会得到更高的分数，但有相反的符号。
计算所有样本-PC 对的 PC 分数，如下面的步骤和示意图中所述：

（2）确定了影响值，每个样本的分数将使用以下公式计算：

对于我们的 2 个样本示例，以下是分数的计算方式：

这是前两个步骤的示意图：

(3) 一旦计算出所有 PC 的分数，就可以将它们绘制在一个简单的散点图上。下面是示例的绘图，从 2D 矩阵到 2D 绘图：

假设您正在处理 12,000 个细胞的单细胞 RNA-seq 数据集，并且您已经量化了 20,000 个基因的表达。

计算 PC 分数后，您会看到一个 12,000 x 12,000 的矩阵，该矩阵表示有关所有细胞中相对基因表达的信息。您可以选择 PC1 和 PC2 列并以二维方式绘制它们。

您还可以使用前 40 个 PC 的 PC 分数进行下游分析，如聚类、标记识别等，因为这些代表了数据中的大部分变化。我们将在后面对此进行更多讨论。

相似回答

8.单细胞 RNA-seq 聚类分析:整合答：如果我们在 Seurat 对象中一起对两种条件进行归一化并可视化细胞之间的相似性，我们就会看到条件特定的聚类：通常，在决定是否需要执行任何对齐之前，我们需要先查看没有整合的集群。不要认为可能存在差异而执行整合——探索数据。如果我们在Seurat对象中同时对这两个条件进行归一化，并可视化细胞之间的...

9.单细胞 RNA-seq:聚类分析答：为了克服 scRNA-seq 数据的任何单个基因表达中的广泛技术噪音， Seurat 根据来自整合的最可变基因的表达的 PCA 分数将细胞分配到亚群中，每个 PC 基本上代表一个结合相关基因组信息“metagene”。因此，确定要包含在分群步骤中包含多少PC 数量对于确保我们捕获数据集中存在的大部分变异或细胞类型非...

完整的单细胞分析流程——数据标化(normalization)答：spike-in归一化基于以下假设:向每个细胞中添加了相同量的spike-in RNA。spike-in转录本覆盖范围的系统差异仅归因于细胞特异性偏差,例如捕获效率或测序深度。为了消除这些偏差,我们通过缩放“ spike-in size factor”来均衡细胞间的spike-in覆盖范围。与以前的方法相比,spike-in归一化不需要系统的生物学假设(即,没有...

单细胞数据处理小细节汇总答：4. @data标准化矩阵和 @scale.data 归一化矩阵的区别 单细胞RNA 测序数据中,文库之间测序覆盖率的系统差异通常是由细胞间的cDNA 捕获或PCR 扩增效率方面的技术差异引起的,这归因于用最少的起始材料难以实现一致的文库制备。标准化旨在消除这些差异(例如长度,GC 含量),以使它们不干扰细胞之间表达谱的比较。这样...

完整的单细胞分析通用流程——质控答：2.他们在方差估计或主成分分析过程中扭曲了集群异质性的特征。前几个主要成分将捕获质量差异而不是生物学差异,从而降低降维效果。同样,差异最大的基因将由低质量细胞与高质量细胞之间的差异驱动。最明显的例子:计数非常低的低质量文库,其中归一化放大了那些库中恰好具有非零计数的基因的表观变异。 3.它们包含的基因...

10.单细胞 RNA-seq:聚类分析答：seurat的 FeaturePlot() 函数可以使用存储在 Seurat 对象中的基因 ID 轻松可视化少数基因。我们可以在 UMAP 可视化之上轻松探索已知基因标记的表达。让我们通过并确定集群的身份。为了访问所有基因的标准化表达水平，我们可以使用存储在 RNA 检测槽中的标准化计数数据。根据我们感兴趣的标记，它们可能是特定细...

大家正在搜

均一化和归一化归一化与反归一化 RNAseq分析怎么分析RNAseq 分析RNAseq用什么软件 RNAseq所需RNA的量 rnaseq在线分析 rnaseq差异分析 rnaseq分析需要多久