Seurat基础知识

如题所述

第1个回答  2022-06-25

直接输入Seurat object的名称,我们可以得到类似如下内容:

An object of class Seurat 13425 features across 39233 samples within 1 assay

Active assay: RNA (13425 features, 3000 variable features) 3 dimensional reductions calculated: pca, umap, tsne

这个告诉我们当前对象主体是13425(基因数)*39233(细胞数)的矩阵,有一个叫RNA的assay,在这个assay中,我们选择了3000个基因作为variable features(一般用来计算PCA),计算了三种降维:PCA, UMAP, t-SNE。

The Assay object is the basic unit of Seurat; each Assay stores raw, normalized and scaled data as well as cluster information, variable features, and any other assay-specific metadata . Assays should contain single cell expression data such as RNA-seq, protein, or imputed expression data.

默认情况下,我们的seurat对象中是一个叫RNA的Assay。在我们处理数据的过程中,做整合(integration),或者做变换(SCTransform),或者做去除污染(SoupX),或者是融合velocity的数据等,我们可能会生成 新的相关的Assay,用于存放这些处理之后的矩阵 。在之后的处理中,我们可以根据情况使用指定Assay下的数据。不指定Assay使用数据的时候, Seurat给我们调用的是Default Assay下的内容。可以通过对象名 @active.assay 查看当前Default Assay,通过 DefaultAssay() 函数更改当前Default Assay。

调用Assay中的数据的方式为,以调取一个名为PBMC的Seurat对象中Assay integrate中的nomalized数据为例: PBMC@assays$RNA@data

元数据,对每个细胞的描述。一般计算的nFeature_RNA等信息就以metafeature的形式存在Seurat对象的metadata中。计算的分类信息一般以RNA_snn_res.x(x指使用的resolution)存放在metadata中。

调取metadata中metafeature值的方式有多种,以调取一个名为PBMC的对象中stim这个metafeature为例:

降维之后的每个细胞的坐标信息。

以调取一个名为PBMC的对象中PCA embedding (也就是坐标)信息为例:

PBMC@[email protected]

包括subset, WhichCell, VariableFeatures, Cells

对Seurat对象结构有所了解之后,我们其实可以直接在Seurat对象中提取数据。可能为了方便,Seurat也提供了一些函数来帮助我们提取一些我们想要的数据。

这里用一些例子来做实际说明

获取整个object的细胞ID:Cells(object),colnames(object)

按照idents获取部分细胞ID:WhichCells(object, idents = c(1, 2))

按照基因表达获取部分细胞ID:WhichCells(object, expression = gene1 > 1), WhichCells(object, expression = gene1 > 1, slot = "counts")

按照细胞ID提取:subset(x = object, cells = cells)

按照idents提取:subset(x = object, idents = c(1, 2))

按照meta.data中设置过的stim信息提取:subset(x = object, stim == "Ctrl")

按照某一个resolution下的分群提取:subset(x = object, RNA_snn_res.2 == 2)

当然还可以根据某个基因的表达量来提取:subset(x = object, gene1 > 1),subset(x = object, gene1 > 1, slot = "counts")

Embeddings(object = object[["pca"]])

Embeddings(object = object[["umap"]])

Seurat作为单细胞数据处理的R包,用于处理数据的函数非常的丰富。这里做一些简单的介绍和总结。

一般用的是:NormalizeData()

可以选择的另一种:SCTransform(),SCTransform也不是简单的标准化数据,这个函数会生成data, scale.data, VariableFeature, 然后存在一个叫SCT的assay里

提供了包括RunPCA, RunUMAP, RunTSNE,在每种降维算法里还可以选择不同的方法

FindClusters()

分析特定某些idents的差异:FindMarkers(object = object, ident.1 = 1, ident.2 = 2), FindMarkers(object = object, ident.1 = c(1, 2), ident.2 = c(3, 4))

分析每个ident和其他idents的差异:FindAllMarkers(object = object)

CellCycleScoring(object = object, s.features = s.genes, g2m.features = g2m.genes)

Seurat给了两种选择去考虑一个基因集的整体表达情况。

计算基因模块分值(Calculate module scores for feature expression programs in single cells):AddModuleScore(object = object, features = genes, name = "Module_Score")

合计基因集表达(Aggregate expression of multiple features into a single feature):MetaFeature(object = , features = genes, meta.name = "Aggregate_Feature")

数据的展示对于数据分析来说尤为重要,Seurat提供了多种类型的展示方式,在结果展示方面给我们提供了很多选择。而且由于Seurat很多展示方法的基础是ggplot,所以除了Seurat函数固定的那些参数以外,我们还可以有很多个性化的操作。

DimPlot(object = object, reduction = reduction.name, group.by = groups, label = T)

其中,展示特定降维方法:UMAPPlot, TSNEPlot

FeaturePlot(object = object, features = c("gene1", "gene2", "gene3", "gene4")),也可以是meta.data里的值

VlnPlot(object = merged, features = c("nFeature_RNA", "nCount_RNA", "gene1", "gene2"), ncol = 2, pt.size = 0.1)

VlnPlot(object = merged, features = c("gene1", "gene2", "gene3", "gene4"), ncol = 2, pt.size = 0.1, slot = "counts")

DotPlot(object = object, features = genes)

DoHeatmap(object = object, features = genes)

由于不同cluster细胞数目不同,建议抽样之后再画

DoHeatmap(object = object, features = genes, cells = downsampledCells)

两个feature的Scatter: FeatureScatter(object = object, feature1 = feature1, feature2 = feature2)

两个细胞所有feature的Scatter:CellScatter(object = object, cell1 = cell1, cell2 = cell2)

相似回答