数据分析

如题所述

第1个回答  2022-06-26
1、按照计量精确程度,由高到低可分为定比尺、定距尺度、定序尺度、定类尺度。

a.定类尺度:也称类别尺度或名义尺度,是将调查对象分类,标以各种名称,并确定其类别的方法。它实质上是一种分类体系。

b.定序尺度:也称等级尺度或顺序尺度,是按照某种逻辑顺序将调查对象排列出高低或大小,确定其等级及次序的一种尺度。

c.定距尺度:也称等距尺度或区间尺度,是一种不仅能将变量(社会现象)区分类别和等级,而且可以确定变量之间的数量差别和间隔距离的方法。

d.定比尺度:也称比例尺度或等比尺度,是一种除有上述三种尺度的全部性质之外,还有测量不同变量(社会现象)之间的比例或比率关系的方法。

2、受极端数值影响较小的集中趋势值是众数和中位数。

3、用决策树进行分析时,采用的方式是反推。

4、推断统计学研究如何根据样本数据去推断总体数量特征的方法。

描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabulation),并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation),进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。

5、描述统计与推断统计有何区别和联系?

区别:描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计是研究如何利用样本数据来推断总体特征的方法。

联系:描述统计学和推断统计学是现代统计学的两个组成部分呢,相辅相成、缺一不可,描述统计学是现代统计学的基础和前提,推断统计学是现代统计学的核心和关键。

6、R中,使用哪一个函数进行logit回归?

glm

7、bootstrap

Bootstrap方法根据给定的原始样本复制观测信息对总体的分布特性进行统计推断,不需要额外的信息,Efron(1979)认为该方法也属于非参数统计方法。Bootstrap方法从观察数据出发,不需任何分布假定,针对统计学中的参数估计及假设检验问题,利用Bootstrap方法产生的自举样本计算的某统计量的数据集可以用来反映该统计量的抽样分布,即产生经验分布,这样,即使我们对总体分布不确定,也可以近似估计出该统计量及其置信区间,由此分布可得到不同置信水平相应的分位数——即为通常所谓的临界值,可进一步用于假设测验。因而,Bootstrap方法能够解决许多传统统计分析方法不能解决的问题。在Bootstrap的实现过程中,计算机的地位不容忽视(Diaconis et al.,1983),因为Bootstrap涉及到大量的模拟计算。可以说如果没有计算机,Bootstrap理论只可能是一纸空谈。随着计算机的快速发展,计算速度的提高,计算费时大大降低。在数据的分布假设太牵强或者解析式太难推导时,Bootstrap为我们提供了解决问题的另一种有效的思路。因此,该方法在生物科学研究中有一定的利用价值和实际意义

  非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法.其核心思想和基本步骤如下:

(1) 采用重采样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样.

(2) 根据抽出的样本计算给定的统计量T.

(3) 重复上述N次(一般大于1000),得到N个统计量T.

(4) 计算上述N个统计量T的样本方差,得到统计量的方差.

应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好.通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸.

具体抽样方法举例:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘.

进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算.。

8、统计对现象总体数量特征的认识是从个体到总体。

9、抽样误差与非抽样误差有什么区别?

抽样误差:抽样方法本身所引起的误差。当由总体中随机地抽取样本时,哪个样本被抽到是随机的,由所抽到的样本得到的样本指标x与总体指标μ之间偏差,称为实际抽样误差。举个列子,为了方便计算我就举小的列子,自己可以放大,10个男生 身高有3个为170,4个为175,3个为180, 平均身高为175,抽样抽了5个人,分别是170,175,175,175,175,很明显就存在误差了。

非抽样误差是指除抽样误差以外所有的误差的总和。引起非抽样误差的原因很多,比如抽样框不齐全,访问员工作经验有限,被访者不配合访问而加以虚假的回答,问卷设计本身存在缺陷等等。

10、研究者想收集证据予以支持的假设通常称原假设。

11、根据统计分析方法的研究和应用来分,可将统计学分为理论统计学和应用统计学。

12、统计分组的关键在于选择分组标志和划分相邻两组间的界限。

13、下面的哪一个误差属于随机误差?(A)

A.随机误差    B.抽样框误差    C.回答误差    D.无回答误差

14、小钱收集了上海、江苏和浙江三省2007年三次产业的增加值的资料,如果要反映2007年这三个省三次产业的结构,用什么图形最为合适?()

A.直方图    B.散点图    C.饼图    D.折线图

15、tableau文件类型:      .twb    .tds    .tde    .bat

16、以一、二、三等品来衡量产品质地的优劣,那么该产品等级是(D)。

A.品质标志    B.数量标志    C.质量指标    D.数量指标
相似回答