生信课程笔记12-负二项分布与测序

如题所述

推荐答案 2022-07-16

随机试验的样本空间为Ω，如果对于每一个样本点ω∈Ω，有一个实数X(ω)与之对应，这样得到一个定义在Ω上的单值函数X=X(ω)，则称X(ω)为 随机变量 ，简记为X。也就是说，随机变量X是一个从Ω到实数域R的函数，它的定义域为Ω，它的值域X(Ω)为R或R的一个子集。通常用X,Y,Z表示随机变量，用x,y,z表示随机变量的取值。引入随机变量是为了将随机试验数量化，便于对其规律性进行研究。

例如，随机将一枚均匀的硬币投掷两次，则样本空间为Ω={++, +-, -+, --}，如果关心得到正面的次数，则可以对结果ω=++, +-, -+, --定义随机变量X(ω)=2,1,1,0。

如果随机变量的值都可以逐个列举出来，则为 离散型随机变量 。如果随机变量的取值无法逐个列举则为 连续型随机变量 。只要是能够用我们日常使用的量词度量的取值，比如次数、个数等都是离散型随机变量。如果无法用这些量词度量，取值为某个区间上的值，可以取到小数点2位、3位、甚至无限多位的时候，那么这个变量就是连续型随机变量。

事件的概率表示了一次试验中某一个结果发生的可能性大小。 概率函数 ，就是用函数的形式来表达概率。 概率分布 ，就是概率的分布，用于表述随机变量取值的概率规律。连续型随机变量的概率函数又叫做 概率密度函数 ；离散型随机变量的概率函数又叫做 概率质量函数 。

概率分布（probability distribution）描述了随机变量（random variable）在给定范围内可以接受的所有可能的值和似然（all the possible values and likelihoods） 。概率分布的形状的影响因素包括平均值（mean or average）、标准差（standard deviation）、偏度（skewness）、峰度（kurtosis）。某些现象数据生成的过程将决定其概率分布，这一过程称为概率密度函数，概率分布描述给定数据生成过程可能值的预期结果。

离散型概率分布包括：伯努利分布、二项分布、几何分布、泊松分布等。

连续型概率分布包括：正态分布、指数分布等。

离散型随机变量 ：设xi (i=1,2,3,4,5,6)为离散型随机变量X的所有可能取值，事件{X=xi}的概率P{X=xi} = pi (i=1,2,3,4,5,6)。

公式pi = P(X=xi) (i=1,2,3,4,5,6)就是 概率函数 ，自变量（X）是随机变量的取值，因变量（pi）是取值的概率，公式表示了每个取值的概率。从公式上来看，概率函数一次只能表示一个取值的概率。比如P(X=1)=1/6，这代表用概率函数的形式来表示当随机变量取值为1的概率为1/6，一次只能代表一个随机变量的取值。

把所有可能出现的取值和取值的概率全部都列出来，称为 离散型随机变量的值分布和值的概率分布列表 ，即X的 分布列（率）， 常写成表格形式：

概率分布律（law of probability distribution）简称概率律或 概率分布 。

分布列的性质：非负性：pi≥0；规范性：Σpi=1。

分布函数/概率分布函数（probability distribution function）， 又叫 累计概率函数/累积分布函数（cumulative distribution functions，CDFs）， 是概率函数取值的累加结果。

设X是一个随机变量，对任意实数x，定义F(x)=P (X≤x)为随机变量X的 分布函数 ，且称X服从F(x)，记为X~F(x)。

F(x)是一个普通函数，其定义域为(-∞,+∞)，F(x)的值为事件{X≤x}的概率。

分布函数的性质：单调不减性；规范性（总是从零开始，以100%结束）；右连续性。

连续型随机变量的分布函数F(x)是连续函数。连续型随机变量X 在某一点a的概率P{X=a} = 0，概率为0的事件未必是不可能事件。

对于离散型概率分布，我们关心的是取得一个特定数值的概率；对于连续型概率分布，不可能列举每一个精确数值，更关心一个特定范围的概率。

连续型随机变量X，分布函数

f(x)称X的 概率密度函数或分布密度函数 。 概率密度函数是分布函数的导函数，概率密度函数的曲线下面积总和为1 。

概率密度函数f(x)的性质：非负性：f(x)≥0；规范性。

最常见的概率分布是正态分布，或钟形曲线（bell curve）。

X~N(μ, σ^2)

期望（expected value） E = μ

方差（variance） D = σ^2

标准差（standard deviation）σ

特点：曲线关于x=μ对称；当x=μ时p(x)取得最大值；当x→±∞时，p(x)→0；曲线在x=μ±σ处有拐点；曲线以x轴为渐近线；σ决定曲线的形状，σ越大，曲线越矮平。

标准正态分布定义为平均值等于0，标准偏差等于1的正态分布。横轴表示(x-μ)/ σ。

研究的是事件的时间间隔的概率。例如：收到两条微信之间的时间间隔，某视频被播放的时间间隔。

指数分布的特性：无记忆性。比如灯泡的使用寿命服从指数分布，无论它已经使用多长一段时间，只要还没有损坏，它能再使用一段时间t 的概率与一件新产品使用时间t 的概率一样。表示为X~E(λ) 。

X~U(a, b)

f(x) = 1/(b-a)，a≤x≤b

均值 E = (a+b)/2

方差 D = (b-a)/√12

随机变量X只有两个可能的取值a和b，其概率分布为： P{X=a} = p, P{X=b} = 1-p (0<p<1)

两点分布中a和b取值分别为1和0的特殊情况。伯努利试验是只有两种可能结果（成功p或失败1-p）的单次随机试验。其概率分布为：

P{X=1} = p, P{X=0} = 1-p (0<p<1)

期望 E = p

方差 D = p(1−p)

是n重伯努利试验成功次数的离散概率分布。每一次试验中都有两种互斥的结果，成功的概率为p，失败的概率为（1-p）。每次试验之间独立，互不影响。在n次独立重复试验中，成功出现x次的概率：

称X服从参数为n, p的二项分布，记为X~B(n, p)。

均值 μ = np

方差 σ^2 = np(1-p)

泊松分布适合于描述单位时间（或空间）内随机事件发生的次数（事件发生的次数只能是离散的整数）。如汽车站台的候客人数，机器出现的故障数，自然灾害发生的次数，一块产品上的缺陷数，显微镜下单位分区内的细菌分布数等等。

二项分布中，如果p非常小，并且n非常大，则成为泊松分布。

λ是事件发生的速率，t是时间间隔的长，X是该时间间隔内的事件数。μ表示长度为t的间隔中的平均事件数，那么µ = λt。

X~P(λ)

均值 μ = λ

方差 σ^2 = λ

μ是泊松分布所依赖的唯一参数，μ值越小分布越偏倚，μ=20时分布接近正态分布，μ=50时可以认为呈正态分布。

每一次试验中都有两种互斥的结果，成功的概率为p，失败的概率为（1-p）。每次试验之间独立，互不影响。重复试验，直到预定的失败数发生r次，那么成功的次数X会服从负二项分布。

X~NB(r, P)

该公式描述的是，在合格率为p的一堆产品中，进行连续有放回的抽样，当抽到r个次品时，停止抽样，此时抽到的正品正好为k个的概率。

进行两组数据间的差异分析，通常可以用方差分析判定两组分布数据间是否存在显著差异，当组间方差大于组内方差，并且统计学显著时，则认为组间处理是可以引起差异的。而在RNA-seq中，问题是实验重复数量很少，counts是非连续的（芯片信号是连续的），这些数据并不符合正态分布。我们面临两个核心问题：基因表达数据适合用什么统计学分布进行差异显著性检验？如何利用少量生物学重复数据估算基因表达的标准差？

从统计学的角度出发，进行差异分析肯定会需要假设检验，通常对于分布已知的数据，运用参数检验结果的假阳性率会更低。转录组数据中，raw count值符合什么样的分布呢？count值本质是reads的数目，是一个非零整数，而且是离散的，其分布肯定也是 离散型分布 。对于转录组数据，学术界常用的分布包括泊松分布（poisson）和负二项分布（negative binomial）两种。

dispersion指的是离散程度，研究一个数据分布的离散程度，我们常用方差这个指标。对于泊松分布而言，其均值和方差是相等的，但是我们的数据确不符合这样的规律。

横坐标为均值，纵坐标为方差，真实数据的分布是偏离了泊松分布的，方差明显比均值要大。称为over dispersion（过度离散）。因此选择泊松分布分布作为总体的分布是不合理。

在RNA-seq中，技术误差(sampling variability)是满足泊松分布的，因为期望和方差差不多。但是生物学重复之间的误差(biological variability)不能用泊松分布来描述，因为它的方差可能很大，所以要用负二项分布，加了一个额外的误差项。

负二项分布均值是方差的二次函数，方差随着均值的增加而进行二次函数形式的递增。

有三种R包（edgeR，DESeq，baySeq）实现的方法是基于负二项模型的。

测序计数数据的特点包括非正态性、方差对均值的依赖等。将reads计数Kij建模为负二项分布，只是因为目前人们认为reads的分布情况更符合负二项分布。这个负二项分布具有两个参数，均值（mean）μij和离散（dispersion）αi。组内变异由 离散参数αi 建模，该参数通过Var Kij = μij + αi μij^2描述计数的方差。离散参数αi的准确估计对于差异表达的统计推理至关重要，但是在生物学重复很少时，很难准确计算每个基因表达的离散程度。在DESeq2中， 假设平均表达强度相似的基因具有相似的分散性 ，从而跨基因共享信息，对离散度进行收缩（shrink）。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/Dvi9vi9xvpD2ipvxpn.html

相似回答

负二项分布及其应用答：负二项分布的本质是gamma-poisson的完美融合，其中参数λ的分布遵循gamma分布，具体表现为λ~Gamma(r0, bo)，这使得X的边际分布呈现为NB(r0, b0/(1+b0))。一个显著的特性是，尽管在大r值接近泊松分布时显得收敛，但在小r时，负二项分布的方差超越泊松分布，展示了过dispersion的特性。与gamma期望的...

小白的生信笔记(1)——高通量测序的一些基础知识答：illumina公司主打产品MiSeq测序仪、HiSeq X Ten测序仪、Miseq FGx测序仪、NextSeq 500/550桌上型测序仪、MiniSeq台式测序仪等,涵盖了不同的应用场景的不同需求。第二代测序技术测序平台和测序成本,测序费用,花费时间,建库等实验技术难度,错误率以及读长(150-400bp),分析工作的体量,对于满足更高的科研需求和在医...

RNA-seq中的那些统计学问题(一)为什么是负二项分布?答：RNA-Seq生成的读数是非负的整数计数，这与负二项分布的性质相符合。2.过度离散（Overdispersion）：在生物学样本中，基因表达水平通常具有变异性，这种变异性往往超过了泊松分布所假设的均值和方差相等的程度。负二项分布相比泊松分布，可以通过一个额外的参数来建模这种过度离散，即允许方差大于均值。3.生物...

生物信息学笔记-术语篇答：它是一个介于 1 和 -1 之间的值,其中,1 表示变量完全正相关, 0 表示无关,-1 表示完全负相关。 r值就是皮尔逊相关系数的大小,代表了相关的强度,即两个变量共变性的程度,取值范围为(-1,1)。p值是显著性,与皮尔逊相关显著性检验有关,P<0.05时表示相关显著,即在当前的样本下可以明显的观察到两变量的相关...

第二章微生物组数据的结构和特点答：由于零膨胀,带过多零点的类群丰度不能用任何标准参数模型来正确分析,例如正态分布、二项分布、泊松分布、负二项分布和贝塔分布。其次,具有多个零点的稀疏性也使得非参数方法失效。非参数方法基于秩或中值;因此,通常对异常值不敏感或更“稳健”,避免做出可能被稀疏样本歪曲的方差估计。在多个分类单元零点多、可用样本...

《BSA》-生信笔记---003答：1)覆盖范围:全基因组BSA可以覆盖整个基因组, 98%的编码区可以覆盖到。而RNAseq只对编码区进行测序。2)基因检测的偏好性:全基因组BSA对基因的检测较均匀,无偏好性,不受时间或者组织的影响。RNAseq偏向于在特定时间或者组织中高表达的基因。3)区域偏好性:基因分布不均匀,若一些区域基因密度低,用RNAseq...

大家正在搜

负二项分布与二项分布负二项分布与几何分布泊松分布与负二项分布语文课程与教学论笔记为什么叫负二项分布正态分布和负态分布 108成交系统课程笔记王本陆课程教学论笔记大学写作课程笔记