以四分位距和以平均值的标准差检测离散值和极值之间有什么区别

如题所述

变异程度一般用间距或者方差来描述.
boxplot 箱线图就是显示全距(最大值-最小值)和
四分位间距(把数组分为最小值点,上四分位点,中位数,下四分位点和最大值点) 每两个之间就是四分位间距 .
优点:直观,各组线段是各包括了25%的数据,因此,线段长度实际反映了数据的密度.
你随机输入任意的一组超过30个的数据,做一个箱线图,就会发现,那个箱体不会是总是均匀的.
缺点:没有把样本容量考虑进去
方差标准差是一回事儿,只不过标准差和均值的单位是一样的,所以大家偏向于用标准差.
标准差把样本容量和离散程度结合考虑,给出变异程度.
优点:类似一个综合指标,大体上结合样本容量告诉你的变异程度.适合初步筛选用
缺点:方差相同的两组数,可以相差十万八千里,所以要了解细致的东西必须得画boxplot
温馨提示:答案为网友推荐,仅供参考
第1个回答  2016-04-25
变异程度一般用间距或者方差来描述.
boxplot 箱线图就是显示全距(最大值-最小值)和
四分位间距(把数组分为最小值点,上四分位点,中位数,下四分位点和最大值点) 每两个之间就是四分位间距 .
优点:直观,各组线段是各包括了25%的数据,因此,线段长度实际反映了数据的密度.
你随机输入任意的一组超过30个的数据,做一个箱线图,就会发现,那个箱体不会是总是均匀的.
缺点:没有把样本容量考虑进去
方差标准差是一回事儿,只不过标准差和均值的单位是一样的,所以大家偏向于用标准差.
标准差把样本容量和离散程度结合考虑,给出变异程度.
优点:类似一个综合指标,大体上结合样本容量告诉你的变异程度.适合初步筛选用
缺点:方差相同的两组数,可以相差十万八千里,所以要了解细致的东西必须得画boxplot
第2个回答  2016-05-10
实际上在统计教学中的核心概念就是“统计观念”。新课程标准修订以后,将统计观念改为数据分析观念,但其内涵是没有变的。那么什么是统计观念呢?
统计的研究的对象是数据,所以在数据分析观念中的第一个内涵就是要有数据意识。换句话说就是在遇到问题时要想到需要收集和分析一些数据。
第二点要体会到数据是蕴涵信息的,就是能从数据中提取一些你需要的信息。让数据发挥它的作用。怎样在数据中提取信息呢?首先要对数据进行排序;在此基础上对数据进行分组;用统计图来表示它;用统计量来刻画它(用中位数、平均数、标准差等)。
第三个内涵就是要根据背景来选择合适的方法,这一点与其他的数学有所不同,很难有统一的、固定的方法,一定要根据背景来表达数据,因此说,统计不仅是一门科学,同时也是一门艺术。
第四个内涵是数据是具有随机性的。比如你上班要花多长时间,首先你会去统计数据,一周、一个月或多长时间,你会发现每天的时间都是不同的,但在重复试验的时候,你也会发现虽然每天的时间不同,但是有一定的规律,每天的所用的时间是大致是多少分钟,你可以知道在多长时间内一定可以到学校的,这就是说数据有随机性,既是不确定的,但大量重复实验后,又具有一定的稳定性。
所以在教学中首先要培养学生的数据意识,想去用它,其次是要能尽可能多的在数据中提取信息,要能根据具体问题的背景来选择合适的方法,最后就是要体会到数据是具有随机性的。
本章在20.1.2小节,通过几个具体实例,研究了中位数和众数。中位数是一个反映数据集中趋势的位置代表值,能够表明一组数据排序最中间的统计量,可以提供这组数据中,约有一半的数据大于(或小于)中位数。对于中位数的这个作用,教科书通过一个比较典型的考查体育比赛成绩的例子来体现。另外,在这个例子中,也体现了用样本估计总体的思想。众数是表明一组数据出现次数最多的统计量,当一组数据有较多的重复数据时,众数往往是人们所关心的一个统计量,它提供了哪个(些)数据出现的次数最多。对于众数的这个作用,教科书也是通过一个典型的销售量问题来研究的,在这个例子中,同样也体现了用样本估计总体的思想。在本节最后,教科书结合一个具体问题,编写了综合利用平均数、中位数和众数解决问题的例子,在这个例子中,涉及根据具体问题的的需要选择适当的统计量来刻画数据的集中趋势的问题,在解决问题的过程中,也让学生经历了一个数据处理的基本过程:对数据适当分组、用表格整理数据、用统计图描述数据,分析统计图表和计算平均数、中位数、众数。在这个过程中也体现了用样本估计总体的思想。在本节最后,教科书利用一个归纳的栏目,对平均数、中位数和众数这三种刻画数据集中趋势的统计量进行了概括总结,突出了它们各自的统计意义和各自的特征。
本章20.2节研究了刻画数据波动情况的统计量。统计中刻画数据离散程度的统计量有极差、方差、标准差、平均差、四分位差等,根据《标准》的要求,本章只研究极差和方差。极差是一组数据中最大值与最小值的差,它反映了一组数据的波动范围,是刻画数据离散程度的最简单的统计量。教科书利用温差的例子来研究极差。温差是人们日常生活中熟悉的概念,是一个典型的极差的例子。利用温差介绍极差,有助于学生认识极差的统计意义。方差是统计中常用的一种刻画数据离散程度的统计量,教科书对方差进行了比较详细的研究。首先在一个讨论栏目设计了一个实际问题背景,根据背景提出两个具体问题,从统计上看,这两个问题中是要计算两组数据的平均数和比较它们的波动情况。通过计算可知两组数据的平均数是相同的,这一点有利于学生理解数据的波动情况。为了直观地看出数据的波动情况,教科书画出了两个散点图,通过观察散点图,可以比较两组数据的波动情况。通过这两个散点图,可以使学生对数据偏离平均数的情况有一个直观的认识。在此基础上,教科书引进了利用方差刻画数据离散程度的方法,介绍了方差的公式,并从方差公式的结构上分析了方差是如何刻画数据的波动的,即方差越大,数据的波动越大,方差越小,数据的波动越小。将利用方差刻画数据的波动和利用散点图显示数据的波动结合起来,更有利于学生理解方差的意义,因此,教科书对本小节开始提出的实际问题用两种方法进行了比较,然后又设计一个例子,来利用方差反映数据的波动。利用计算器的统计功能也可以求方差,由于不同品牌计算器在计算方差时操作的步骤不同,教科书对使用计算器求方差,只做了简单的介绍。在本节最后,教科书回到本章前言中提出的问题。因为这个实际问题涉及用样本方差估计总体方差的问题,这样,教科书就结合这个例子介绍了如何利用样本方差估计总体方差的问题。
对于本章内容,教学中应达到以下几方面要求:1.进一步理解平均数、中位数和众数等统计量的统计意义;2.会计算加权平均数,理解“权”的意义,能选择适当的统计量表示数据的集中趋势;3.会计算极差和方差,理解它们的统计意义,会用它们表示数据的波动情况;4.能用计算器的统计功能进行统计计算,进一步体会计算器的优越性;5.会用样本平均数、方差估计总体的平均数、方差,进一步感受抽样的必要性,体会用样本估计总体的思想;6.从事收集、整理、描述和分析数据得出结论的统计活动,经历数据处理的基本过程,体验统计与生活的联系,感受统计在生活和生产中的作用,养成用数据说话的习惯和实事求是的科学态度。
——————————————————————
3 统计量
假设有一个容量为n的样本(即一组数据),记作x=(x1,x2,…,xn), 需要对它进行一定的加工,
才能提取有用的信息,用作对总体(分布)参数的估计或检验。统计量就是加工出来的、反映样本
数量特征的函数,它不含任何未知量。
1)表示位置的统计量--平均值和中位数
平均值(简称均值)

中位数是将数据由小到大排序后位于中间位置的那个数值。
MATLAB中 mean(x) 返回x的均值,median(x) 返回中位数。
2)标准差、方差和极差
标准差

方差是标准差的平方s2。
极差是x=(x1,x2,…xn)的最大值与最小值之差。
MATLAB中 std(x)返回x的标准差, var(x)返回方差, range(x)返回极差。
3)表示分布形状的统计量--偏度和峰度
偏度g1和峰度g2分别定义为

MATLAB中skewness(x) 返回x的偏度,kurtosis(x) 返回峰度。
————————————————————————————————
抽样指标(Sampling indicator)
抽样指标又称“样本指标”、“样本统计量”,由样本总体各单位标志值计算出来反映样本特征,用来估计全及指标的综合指标。统计量是样本变量的函数,用来估计总体参数,因此与总体参数相对应,统计量有样本平均数(或抽样成数)、样本标准差(或样本方差 )。
对于一个问题全及总体是唯一确定的,所以全及指标也是唯一确定的,全及指标也称为参数,它是待估计的数。而统计量则是随机变量,它的取值随样本的不同而发生变化。

抽样指标是用来估计全及指标的,因此和全及指标相对应,有抽样平均数,抽样成数p,及样本标准差 σi,样本方差等等。

1、样本平均数及样本方差(样本标准差)。
设样本有n个变量:x1、x2、…、xn。则抽样平均数为:

样本方差:
样本标准差:
2、样本成数及样本成数标准差。
设样本n个单位中有n1个单位具有某种属性,n0 个单位不具有某种属性,n1 + n2 = n,p为样本中具有某种属性的单位数所占的比重,q为不具有某种属性的单位数所占的比重,则抽样成数为:
p = n1 / n  q = n0 / n = (n ? n1) / n = 1 ? p
同理,样本成数标准差为:

————————————————————————————————————
3.1 数理统计量概述

SPSS在描述性统计分析中,提供了多个统计量来描述数据特征,这些统计量包括均值、中位数、众数、方差、标准差、四分位数、十分位数、百分位数、峰度系数、偏度系数等。在进行描述性统计分析之前,首先要对这些统计量在统计学上的定义及其计算公式有所了解。
3.1.1 均值(Mean)和均值标准误差(S.E. Mean)
均值(平均数、平均值)表示的是某个变量所有取值的集中趋势或平均水平。例如,某班学生数学考试的平均成绩、公司员工的平均收入、某年级学生的平均身高、某高校高招录取平均分等。
平均数有总体平均数和样本平均数之分。
总体平均数:若一组数据X1,X2,……,XN代表一个大小为N的有限总体,则其总体平均数为:
(3.1)
样本平均数:若一组数据x1,x2,……,xn代表一个大小为n的有限样本,则其样本平均数为:
(3.2)
样本数据是从总体数据中抽取出来的,但在不同次抽样中得到的样本是不同的。虽然在一定程度上,样本数据可以反映总体数据的特征,但由于抽样等原因,样本数据是总体数据的随机变量。同样,虽然样本均值可以反映总体数据的特征,但在不同次抽样中所得的样本均值是不同的,并且它们与总体均值间存在差异。
均值标准误差(Standard Error of Mean,S.E. Mean,简称标准误)就是描述这些样本均值与总体均值之间平均差异程度的统计量。
3.1.2 中位数(Median)
中位数是将总体数据的各个数值按大小顺序排列,居于中间位置的变量,用Median表示。中位数将所有的数据等分成两半,中位数两端的数据个数相同,因此它也被称为二分位数。中位数的确定,仅仅取决于它在数列中的位置,不受极端值的影响,因此可以用它表示总体的一般水平。同时,中位数比算术平均数具有更好的稳定性。
一个大小为N的数列,要求其中位数,首先应把该数列按大小顺序排列,如果N为奇数,那么该数列的中位数就是 位置上的数;
如果N为偶数,中位数则是该数列中第 第位置上的两个数值的平均数。
3.1.3 众数(Mode)
众数是指总体数据中出现次数最多的变量,用Mode表示。它同样不受数据极端值的影响,从而在一定程度上提高了平均水平的代表性。例如,制衣厂可以根据消费者所需服装尺码的众数来安排生产。此外,如果众数的值出现的频数或频率较大,那么说明众数的代表性就越高,数列的集中趋势也就越显著。
确定众数没有明确的公式,一般只能用手工统计,故较为烦琐。SPSS所提供的统计功能可以减少诸如此类烦琐的过程。
众数、中位数与算术平均数之间存在一定的关系,这种关系决定于总体分布的状况。当总体分布呈对称的钟形分布时,算术平均数位于分布曲线的对称点上,而该点又是曲线的最高点和中心点,因此,众数、中位数和算术平均数三者相等。当总体分布呈非对称的钟形分布时,由于这三种平均数受极端数值影响程度的不同,因而它们的数值就存在一定的差别,但三者之间仍有一定的关系。当分布右偏时,算术平均数受偏高数值影响较大,其位置必然在众数之右,中位数在众数与算术平均数之间。反之,当次数分布左偏时,算术平均数受偏小数值的影响较大,其位置在众数之左,中位数仍在众数与算术平均数之间。
以上的均值、中位数和众数都是反映数据集中趋势的统计量。

3.1.4 全距(Range)
全距,又称极差,是数据的最大值(Maximum)与最小值(Minimum)之间的绝对差,借以表明总体标志值最大可能的差异范围。全距越长,说明数据越离散;反之,全距越小,说明数据越集中。
用符号表示全距的计算公式为:

(3.3)
全距的缺点在于其方法过于粗略,因为它只考虑总体两端数值的差异,没有考虑中间数值差异的情况,因而它是测定离散程度的一种粗略的方法,不能全面反映总体数据的差异程度。要充分利用每一个数据的信息,就需要利用方差和标准差。
3.1.5 方差(Variance)和标准差(Standard Deviation)
方差是总体所有变量值与其算术平均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根,它表示了一组数据关于平均数的平均离散程度。总体方差公式:
(3.4)
总体标准差公式:
(3.5)
样本方差公式:

(3.5)
样本方差公式:

(3.7)
其中,m为总体平均数, 为样本平均数,N为总体的个数,n为样本的个数。
虽然标准差有计量单位,而方差无计量单位,但两者的作用一样,故在此仅介绍标准差。标准差用平方的方法消除了正负号,因而它是最常用、最重要的离散趋势统计量。标准差越大,表示变量值之间的差异越大,各数据距离均值越远,则平均数的代表性就越低。反之,标准差越小,表示变量值之间的差异越小,各数据距离均值较近,则平均数的代表性就越高。
标准差在实际生活中也有广泛的应用。例如,可以用标准差来测定居民收入分配的差异程度,还可以用来反映平均收支、平均结余、平均产量等经济变量的代表性等。
全距、方差和标准差都是反映数据离散趋势的统计量。

3.1.6 峰度(Kurtosis)和偏度(Skewness)
峰度是描述总体中所有取值分布形态陡缓程度的统计量。这个统计量需要与正态分布相比较,峰度为0表示该总体数据分布与正态分布的陡缓程度相同;峰度大于0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰;峰度小于0表示该总体数据分布与正态分布相比较为平坦,为平顶峰。峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。
峰度的具体计算公式为:

(3.8)
偏度与峰度类似,它也是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性。这个统计量同样需要与正态分布相比较,偏度为0表示其数据分布形态与正态分布的偏斜程度相同;偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值;偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。
偏度的具体计算公式为:

(3.9)
3.1.7 四分位数(Quartiles)、十分位数(Deciles)和百分位数(Percentiles)
四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数,即中位数)、Q3(第三四分位数)。其中,Q3到Q1之间的距离的一半又称为四分位差,记为Q。四分位差越小,说明中间部分的数据越集中;四分位数越大,则意味着中间部分的数据越分散。
与四分位数类似,十分位数是将一组数据由小到大(或由大到小)排序后,用9个点将全部数据分为10等份,与这9个点位置上相对应的数值称为十分位数,分别记为D1,D2,……,D9,表示10%的数据落在D1下,20%的数据落在D2下,……,90%的数据落在D9下。
同理,百分位数是将一组数据由小到大(或由大到小)排序后分割为100等份,与99个分割点位置上相对应的数值称为百分位数,分别记为P1,P2,……,P99,表示1%的数据落在P1下,2%的数据落在P2下,……,99%的数据落在P99下。
通过四分位数、十分位数和百分位数,可以大体看出总体数据在哪个区间内更为集中,也就是说,它们在一定程度上可以反映数据的分布情况。
上面的峰度系数、偏度系数和四分位数、十分位数、百分位数,都是反映数据分布状况的统计量。

阅读(21034)| 评论(5)

喜欢推荐转载 SQLServer和Oracle的常用函数对比(转) Reporting Services 方案 (转)
历史上的今天
识别Windowds所有系统文件(转)2008-05-19 16:00:42
从少女截肢看素质教育2008-05-19 11:48:30
人之生也柔弱,其死也坚强(原)2008-05-19 01:51:11
XML介绍(转)2008-05-19 00:59:20

在LOFTER的更多文章
关闭玩LOFTER,免费冲印20张照片,人人有奖! 我要抢>
评论
登录后你可以发表评论,请先登录。登录>>2011-04-16 21:48茗枫一般来说,是不是中位数越大,则意味着平均数也越大??2011-04-20 11:40 rex 回复 茗枫平均数:反映了一组数据的平均大小,常用来一代表数据的总体 “平均水平”。

中位数:像一条分界线,将数据分成前半部分和后半部分,因此用来代表一组数据的“中等水平”。

众数:反映了出现次数最多的数据,用来代表一组数据的“多数水平”。

这三个统计量虽反映有所不同,但都可表示数据的集中趋势,都可作为数据一般水平的代表。
平均数:与每一个数据都有关,其中任何数据的变动都会相应引起平均数的变动。主要缺点是易受极端值的影响,这里的极端值是指偏大或偏小数,当出现偏大数时,平均数将会被抬高,当出现偏小数时,平均数会降低。

中位数:与数据的排列位置有关,某些数据的变动对它没有影响;它是一组数据中间位置上的代表值,不受数据极端值的影响。

众数:与数据出现的次数有关,着眼于对各数据出现的频率的考察,其大小只与这组数据中的部分数据有关,不受极端值的影响,其缺点是具有不惟一性,一组数据中可能会有一个众数,也可能会有多个或没有 。

平均数:是统计中最常用的数据代表值,比较可靠和稳定,因为它与每一个数据都有关,反映出来的信息最充分。平均数既可以描述一组数据本身的整体平均情况,也可以用来作为不同组数据比较的一个标准。因此,它在生活中应用最广泛,比如我们经常所说的平均成绩、平均身高、平均体重等。

中位数:作为一组数据的代表,可靠性比较差,因为它只利用了部分数据。但当一组数据的个别数据偏大或偏小时,用中位数来描述该组数据的集中趋势就比较合适。

众数:作为一组数据的代表,可靠性也比较差,因为它也只利用了部分数据。。在一组数据中,如果个别数据有很大的变动,且某个数据出现的次数最多,此时用该数据(即众数)表示这组数据的“集中趋势”就比较适合。2011-04-20 11:40 rex 回复 茗枫平均数、中位数和众数的联系与区别:
平均数应用比较广泛,它作为一组数据的代表,比较稳定、可靠。但平均数与一组数据中的所有数据都有关系,容易受极端数据的影响;简单的说就是表示这组数据的平均数。中位数在一组数据中的数值排序中处于中间的位置,人们由中位数可以对事物的大体进行判断和掌控,它虽然不受极端数据的影响,但可靠性比较差;所以中位数只是表示这组数据的一般情况。众数着眼对一组数据出现的频数的考察,它作为一组数据的代表,它不受极端数据的影响,其大小与一组数据中的部分数据有关,当一组数据中,如果个别数据有很大的变化,且某个数据出现的次数较多,此时用众数表示这组数据的集中趋势,比较合适,体现了整个数据的集中情况。
平均数、中位数和众数它们都有各自的的优缺点:
样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。

数学上一般用E{[X-E(X)]^2}来度量随机变量X与其均值E(X)的偏离程度,称为X的方差。

定义
设X是一个随机变量,若E{[X-E(X)]^2}存在,则称E{[X-E(X)]^2}为X的方差,记为D(X)或DX。即D(X)=E{[X-E(X)]^2},而σ(X)=D(X)^0.5(与X有相同的量纲)称为标准差或均方差。

由方差的定义可以得到以下常用计算公式:
D(X)=E(X^2)-[E(X)]^2

方差的几个重要性质(设一下各个方差均存在)。
(1)设c是常数,则D(c)=0。
(2)设X是随机变量,c是常数,则有D(cX)=c^2D(X)。
(3)设X,Y是两个相互独立的随机变量,则D(X+Y)=D(X)+D(Y)。
(4)D(X)=0的充分必要条件是X以概率为1取常数值c,即P{X=c}=1,其中E(X)=c。2010-05-19 14:22 rex神经网络在这个领域中有很多优点,使得它越来越流行。它在类型分类/识别方面非常出色。神经网络可以处理例外及不正常的输入数据,这对于很多系统都很重要(例如雷达及声波定位系统)。很多神经网络都是模仿生物神经网络的,即是他们仿照大脑的运作方式工作。神经网络也得助于神经系统科学的发展,使它可以像人类一样准确地辨别物件而有电脑的速度!前途是光明的,但现在...

是的,神经网络也有些不好的地方。这通常都是因为缺乏足够强大的硬件。神经网络的力量源自于以并行方式处理资讯,即是同时处理多项数据。因此,要一个串行的机器模拟并行处理是非常耗时的。
神经网络的另一个问题是对某一个问题构建网络所定义的条件不足 - 有太多因素需要考虑:训练的算法、体系结构、每层的神经元个数、有多少层、数据的表现等,还有其它更多因素。因此,随着时间越来越重要,大部份公司不可能负担重复的开发神经网络去有效地解决问题。2010-05-19 14:12 rex
有监督的数据挖掘模型
预测算法:神经网络、C&RT、线性回归
分类算法:C5.0、Logistic回归、C&RT、神经网络我的会的请采纳
相似回答