Seurat基础知识

如题所述

第1个回答 2022-06-25

直接输入Seurat object的名称，我们可以得到类似如下内容：

An object of class Seurat 13425 features across 39233 samples within 1 assay

Active assay: RNA (13425 features, 3000 variable features) 3 dimensional reductions calculated: pca, umap, tsne

这个告诉我们当前对象主体是13425（基因数）*39233（细胞数）的矩阵，有一个叫RNA的assay，在这个assay中，我们选择了3000个基因作为variable features（一般用来计算PCA），计算了三种降维：PCA, UMAP, t-SNE。

The Assay object is the basic unit of Seurat; each Assay stores raw, normalized and scaled data as well as cluster information, variable features, and any other assay-specific metadata . Assays should contain single cell expression data such as RNA-seq, protein, or imputed expression data.

默认情况下，我们的seurat对象中是一个叫RNA的Assay。在我们处理数据的过程中，做整合（integration），或者做变换（SCTransform），或者做去除污染（SoupX），或者是融合velocity的数据等，我们可能会生成 新的相关的Assay，用于存放这些处理之后的矩阵 。在之后的处理中，我们可以根据情况使用指定Assay下的数据。不指定Assay使用数据的时候， Seurat给我们调用的是Default Assay下的内容。可以通过对象名 @active.assay 查看当前Default Assay，通过 DefaultAssay() 函数更改当前Default Assay。

调用Assay中的数据的方式为，以调取一个名为PBMC的Seurat对象中Assay integrate中的nomalized数据为例： PBMC@assays$RNA@data

元数据，对每个细胞的描述。一般计算的nFeature_RNA等信息就以metafeature的形式存在Seurat对象的metadata中。计算的分类信息一般以RNA_snn_res.x（x指使用的resolution）存放在metadata中。

调取metadata中metafeature值的方式有多种，以调取一个名为PBMC的对象中stim这个metafeature为例：

降维之后的每个细胞的坐标信息。

以调取一个名为PBMC的对象中PCA embedding (也就是坐标)信息为例：

PBMC@[email protected]

包括subset, WhichCell, VariableFeatures, Cells

对Seurat对象结构有所了解之后，我们其实可以直接在Seurat对象中提取数据。可能为了方便，Seurat也提供了一些函数来帮助我们提取一些我们想要的数据。

这里用一些例子来做实际说明

获取整个object的细胞ID：Cells(object)，colnames(object)

按照idents获取部分细胞ID：WhichCells(object, idents = c(1, 2))

按照基因表达获取部分细胞ID：WhichCells(object, expression = gene1 > 1), WhichCells(object, expression = gene1 > 1, slot = "counts")

按照细胞ID提取：subset(x = object, cells = cells)

按照idents提取：subset(x = object, idents = c(1, 2))

按照meta.data中设置过的stim信息提取：subset(x = object, stim == "Ctrl")

按照某一个resolution下的分群提取：subset(x = object, RNA_snn_res.2 == 2)

当然还可以根据某个基因的表达量来提取：subset(x = object, gene1 > 1)，subset(x = object, gene1 > 1， slot = "counts")

Embeddings(object = object[["pca"]])

Embeddings(object = object[["umap"]])

Seurat作为单细胞数据处理的R包，用于处理数据的函数非常的丰富。这里做一些简单的介绍和总结。

一般用的是：NormalizeData()

可以选择的另一种：SCTransform()，SCTransform也不是简单的标准化数据，这个函数会生成data, scale.data, VariableFeature, 然后存在一个叫SCT的assay里

提供了包括RunPCA, RunUMAP, RunTSNE，在每种降维算法里还可以选择不同的方法

FindClusters()

分析特定某些idents的差异：FindMarkers(object = object, ident.1 = 1, ident.2 = 2), FindMarkers(object = object, ident.1 = c(1, 2), ident.2 = c(3, 4))

分析每个ident和其他idents的差异：FindAllMarkers(object = object)

CellCycleScoring(object = object, s.features = s.genes, g2m.features = g2m.genes)

Seurat给了两种选择去考虑一个基因集的整体表达情况。

计算基因模块分值（Calculate module scores for feature expression programs in single cells）：AddModuleScore(object = object, features = genes, name = "Module_Score")

合计基因集表达（Aggregate expression of multiple features into a single feature）：MetaFeature(object = , features = genes, meta.name = "Aggregate_Feature")

数据的展示对于数据分析来说尤为重要，Seurat提供了多种类型的展示方式，在结果展示方面给我们提供了很多选择。而且由于Seurat很多展示方法的基础是ggplot，所以除了Seurat函数固定的那些参数以外，我们还可以有很多个性化的操作。

DimPlot(object = object, reduction = reduction.name, group.by = groups, label = T)

其中，展示特定降维方法：UMAPPlot, TSNEPlot

FeaturePlot(object = object, features = c("gene1", "gene2", "gene3", "gene4"))，也可以是meta.data里的值

VlnPlot(object = merged, features = c("nFeature_RNA", "nCount_RNA", "gene1", "gene2"), ncol = 2, pt.size = 0.1)

VlnPlot(object = merged, features = c("gene1", "gene2", "gene3", "gene4"), ncol = 2, pt.size = 0.1, slot = "counts")

DotPlot(object = object, features = genes)

DoHeatmap(object = object, features = genes)

由于不同cluster细胞数目不同，建议抽样之后再画

DoHeatmap(object = object, features = genes, cells = downsampledCells)

两个feature的Scatter: FeatureScatter(object = object, feature1 = feature1, feature2 = feature2)

两个细胞所有feature的Scatter：CellScatter(object = object, cell1 = cell1, cell2 = cell2)

相似回答

深入解析Seurat整合单细胞数据函数FindIntegrationAnchors 2(CCA和L2...答：也就是说在满足限定条件的基础上,尽量让 Ein 最小。我们来看,w 是沿着圆的切线方向运动,如上图绿色箭头所示。运动方向与 w 的方向(红色箭头方向)垂直。运动过程中,根据向量知识,只要 -∇Ein 与运行方向有夹角,不垂直,则表明 -∇Ein 仍会在 w 切线方向上产生分量,那么 w 就会继续运动,寻找下一步最优...

实验记录9:Monocle包的使用方法答：如果直接通过Seurat输出的一些重要的基因（比如每个cluster中的高FC值基因）作为输入对象的话就能够实现一个“无监督”分析。或者也可以利用生物学知识手动选择一些重要的基因进行“半监督”分析。利用Reversed graph embedding算法将数据降维。没有太懂。相对于PCA来说这个算法更能够反应数据的内部结构（据...

著名画家有哪些人答：庚斯博罗 Thomas Gainsborough 庚斯博罗是18世纪继荷加斯之后在英国画坛脱颖而出的天才画家.他虽然不大喜欢读书甚至连普通中学都没有读完但是他"说起话来妙语连篇"他虽然没有著述传世"可是以他写给密友的信来看他的知识又很少有人可以与其相比". 夏尔丹 Jean-Baptiste-Siméon Chardin 782年法国举办的青年画家展览会上...

欧洲著名画家有哪些答：乔治·修拉(Georges Seurat,1859--1891) 是新印象主义的倡导者。他运用的笔触是圆形小点,故人们称他为点彩派画家。修拉潜心研究关于色彩学的著作,试图把感觉加以综合上升到理性分析,变成科学的表现形式。他的画尺寸很大,虽然数量不多,但却有重要地位,因为这些精心设计的作品表现出对几何学和形式结构要素的关注,预示...

单细胞ATAC亚群分析答：上一期，跟大家简单介绍了下单细胞ATAC的背景知识点及其10x ATAC基础数据的获取方式。接下来就带大家从fragment.csv、singlecell.csv、peaks matrix等数据出发，做单细胞ATAC的亚群分析。与单细胞转录组类似，单细胞ATAC的分析流程也主要包括细胞质控、peaks标准化及其降维分群、marker基因的鉴定等几个步骤...

超实用水彩知识之7种水彩笔画答：然后将颜料涂在干的或微湿的画纸上，颜料会在纸上覆盖出一片区域。其实，水彩并不难，建议水彩初学者前期以简单的风景画入手，慢慢过渡到简单的静物和动物，从中学习一定的色彩知识理论，练习一定的素描基础，再慢慢进入复杂的动物和人物的一个训练。以上就是小编的今日分享，希望可以帮助到大家。

大家正在搜

基础知识管理基础知识语文基础知识有哪些语文基础知识网络基础知识教育公共基础知识数学基础知识综合基础知识计算机入门基础知识