对国内生产总值和消费水平之间的关系进行统计分析,用什么方法?

逐步回归,聚类分析,判别,因子还是别的?

3.3对百货商品销量连续40天如下:
单位:万元

41 25 29 47 38 34 30 38 43 40

46 36 45 37 37 36 45 43 33 44 BR /> 35 28 46 34 30 37 44 26 38 44

42 36 37 37 49 39 42 32 36 35

要求:根据上述数据适当分组,频数分布表的编制,并绘制直方图。

1,确定组数:

,取k = 6

2,确定从小组:

组从=(最大值 - 最小值)÷组数= (49 - 25)÷6 = 4,取5

3,分组频率表

销售收入(百万元)频率频率%累积频率累积频率%

<= 25 1 2.5 1 2.5 BR /> 5月26日至30日12.5 6 15.0

31 - 35 6 15.0 12 30.0

36 - 40 14 35.0 26 65.0

41 - 45 10 25.0 36 90.0

46 + 4 10.0 40 100.0

的/> 3.6 40 100.0

<br的自动装弹袋食品生产线总和,每袋重约50g,但由于某些原因,每袋的重量是不完全50克。这里是100袋食物的随机样本,测得的体重数据如下:

单位g

57 46 49 54 55 58 49 61 51 49

51 60 52 54 51 55 60 56 47 47

53 51 48 53 50 52 40 45 57 53

52 51 46 48 47 53 47 53 44 47

50 52 53 47 45 48 54 52 48 46

49 52 59 53 50 43 53 46 57 49

49 44 57 52 42 49 43 47 46 48

51 59 45 45 46 52 55 47 49 50

54 47 48 44 57 47 53 58 52 48 55 53 57 49 56 56 57 53 41 48

要求:

(1)建立数据的频率表。

(2)画出频率分布直方图。

(3)中的特征数据分布的描述。

溶液:(1)根据上述数据适当地组合,频数分布表的编制,并计算累积频率和累积频率。

1,确定组数:

,取k = 6或7

2,确定从小组:

组从=(最大 - 最小)÷数量组=(61-40)÷6 = 3.5,取3或4,5

组从=(最大 - 最小)组数÷=(61-40)÷7 = 3,

3从三组分组

频率表,上限小于

频率百分比累积频率累积百分比

有效40.00 - 42.00 3 3.0 3 3.0

43.00 - 45.00 9 9.0 12 12.0

46.00 - 48.00 24 24.0 36 36.0

49.00 - 51.00 19 19.0 55 55.0

52.00 - 54.00 24 24.0 79 79.0

55.00 - 57.00 14 14.0 93 93.0

58.00 + 7 7.0 100 100.0

总计100 100.0

柱状图:在4

组,上限为小于或等于

频率百分比累积频率累积百分比 BR />有效<= 40.00 1 1.0 1 1.0

41.00 - 44.00 7 7.0 8 8.0

45.00 - 48.00 28 28.0 36 36.0

49.00 - 52.00 28 28.0 64 64.0

53.00 - 56.00 22 22.0 86 86.0

57.00 - 60.00 13 13.0 99 99.0

61.00 + 1 1.0 100 100.0

总计100 100.0

直方图:

组从5最大为小于或等于

频率百分比累积频率累积百分比

有效<= 45.00 12 12.0 12.0 12.0

46.00 - 50.00 37 37.0 49.0 49.0

51.00 - 55.00 34 34.0 83.0 83.0

56.00 - 60.00 16 16.0 99.0 99.0

61.00 + 1 1.0 100.0 100.0

总计100 100.0

直方图:

分布:左侧钟。

25网民4.2随机样本得到他们的青睐如下:

单位:生日

19 15 29 25 24

23 21 38 22 18

30 20 19 19 16

23 27 22 34 24

41 20 31 17 23

要求;

(1)计算模式,中位数:

1,排序形成单因素和分值累积频率分布频率分布:

网民青睐

频数百分比累积频数累计百分比

有效期15 1 4.0 1 4.0

16 1 4.0 2 8.0

17 1 4.0 3 12.0

18 1 4.0 4 16.0

19 3 12.0 7 28.0

20 2 8.0 9 36.0

21 1 4.0 10 40.0 /> 22 2 8.0 12 48.0

<br 23 3 12.0 15 60.0

24 2 8.0 17 68.0

25 1 4.0 18 72.0

27 1 4.0 19 76.0

29 1 4.0 20 80.0

30 1 4.0 21 84.0

31 1 4.0 22 88.0

34 1 4.0 23 92.0

38 1 4.0 24 96.0

41 1 4.0 25 100.0

合计25 100.0

从可见频率,模态,莫有两个:19,23;从累积频率看,我的中位数= 23。

(2)根据四分位数定义的公式进行计算。

Q1位置= 25/4 = 6.25,所以Q1 = 19,Q3位置= 3×25/4 = 18.75,因此Q3 = 27,或者像25和27都只有一个,所以Q3也可以等于25 +0.75×2 = 26.5。

(3)计算出的平均值和标准偏差;

均值= 24.00,标准差= 6.652

(4)计算偏度和峰度。

偏度= 1.080;峰度= 0.773

(5)对网民的年龄分布综合分析:

分布,均值= 24,SD = 6.652,分布为右偏。一看形式分配需要进行分组。

下一个分组直方图:

分组概率密度曲线情况:

分组:

1,确定组数: ,取k = 6

2,确定从小组:从组= - 组=(41-15)÷6 = 4.3,取5

3,分组频率表(最大最小)÷数量

互联网用户的年龄(离散化)

频数百分比累积频数累计百分比

有效<= 15 1 4.0 1 4.0

8月16日至20日32.0 9 36.0

21 - 25 9 36.0 18 72.0

三月26日至30日12.0 21 84.0

31 - 35 2 8.0 23 92.0

36 - 40 1 4.0 24 96.0

41±1 4.0 25 100.0
>共25 100.0

分组的均值和方差:

平均23.3000

标准偏差7.02377

方差49.333

偏度1.163

。直方图的峰度1.302

分组:

4.6抽取一个地区120家企业,利润是根据以下结果进行分组:

受获利金额分组(元)数量企业的()

200300

300400

400500

500600

600超过19

42 BR /> 18

共有120

要求:

(1)计算出的120企业利润的金额均值和标准差。

(2)计算企业利润额120位数,众数,中位数

四方解决方案:值N适用120

缺数0

平均426.6667

标准。偏差116.48445

偏度0.208

标准。的偏度0.221

峰度-0.625 标准错误。的/> 7.11生产包装食品用全自动打包机袋,标准体重l00g的峰度0.438

<br错误。从日现在由一批产品50包重复检查随机抽样产生的,每包的重量测量(单位:g)如下:

每包重量(g)包装数量 9698

98100

100102

102104

104106 2

3

7 BR /> 4共50

已知重量的正态分布食品包装要求:

(1)确定种类的食物,以95%的置信区间的平均重量。

解决方案:一个大样本,总体方差未知,与z统计

样本平均值= 101.4,样本标准差s = 1.829

置信区间:
>

= 0.95,== 1.96

==(100.89,101.91)

(2)如果要求不合格食品重量小于l00g确定95%的合格率的批次的食品置信区间。

解决方法:大样本的估计,总体方差未知,与z统计

采样率=(50-5)/ 50 = 0.9 置信范围:占国内

= 0.95,== 1.96

==(0.8168,0.9832)

11.6以下是七个方面,2000年,人均生产总值(GDP)和人均消费统计数据水平:人均消费水平

人均GDP(元)(元)

上海,辽宁,江西

贵州,河南,陕西22 460

11 226

34 547

4 851

5 444

2 662

4 549 7 326

4 490

11 546

2 396

2 208

1 608

2 035

要求:

(1)人均GDP为自变量,人均消费水平为因变量,绘制散点图,并描述了两种形式之间的关系。

(2)计算两个变量之间的线性相关系数,说明两个变量之间关系的强度。

(3)用最小二乘法计算出的估计回归方程,并解释回归系数的实际意义。

(4)计算判定系数并解释其意义。

(5)检验线性回归方程为显著关系(α= 0.05)。

(6)如果一个地区的人均GDP为5000元,人均消费水平的预测。当

(7)人均国内生产总值的需求是每95%的置信区间和预测区间的人均消费水平5000元。

解决方案:(1)

有可能是一个线性关系__



(2)相关系数:<br人均国内生产总值(元)人均消费水平(元)

人均GDP(元)1.998 Pearson相关系数之间p>相关(**)人均

显著(双面)0.000

以北7 7

消费水平(元)Pearson相关0.998(**)1

显著(双面)0.000 BR />以北7 7

**。在.01水平显著相关(双侧)上。

有很强的线性关系。

(3)的回归方程为:

系数标准化系数T显著

乙SE Beta版

1(常量)734.693 139.540非标准化系数(一)

模型5.265 0.003

人均GDP(元)0.309 0.008 0.998 36.492 0.000

一个因变量:人均消费水平(元)

回归系数是指:不提高1元,人均GDP,人均消费0.309亿美元。

(4)

模型摘要模型居民方调整的R平方估计的标准差

1 0.998(一)0.996 0.996 247.303

一。预测变量:(常量),人均国内生产总值(人民币)。

人均消费人均GDP的影响达到99.6%。

(5)F检验:

方差分析(二)

平方的总和型号DF平均平方和F显著

1返回81,444,968.680 1 81,444,968.680 1,331.692 .000(一)
残差305,795.034 5 61,159.007

合计81,750,763.714 6

一个预测变量:(常量),人均国内生产总值(人民币)。

b因变量:人均消费水平(元)测试

回归系数:t检验

系数(一)

非标准化系数模型显著标准化系数T
>β 1(常量)734.693 139.540 5.265 0.003

人均GDP(元)0.309 0.008 0.998 36.492 0.000

一个因变量:人均消费水平(元)
>(6)

一个地区的人均GDP是人均5000元消费水平预测2278.10657元。

(7)

人均GDP为每95%信心区间[1990.74915,2565.46399],预测区间[1580.46315,2975.74999]人均消费水平5000元。

13.4下表显示了中国的财政1981年和2000年的文化,教育,科技,卫生支出数据表明量

年度支出(万元)年支出(元)
> 1981 171.36 1991 708.00

1982 196.96 1992 792.96

1983 223.54 1993 957.77

1984 263.17 1994 1278 0.18

1985 316.70 1995 1467 .06

1986 379.93 1996 1704。 25

1987 402.75 1997 1903 0.59

1988 486.10 1998 2154 0.38

1989 553.33 1999 2408 .06

1990 617.29 2000 2736 0.88

(1)渲染时间序列图描述的趋势。

(2)选择合适的趋势线拟合数据,并根据趋势线预测开支在2001年。

详细的解答:

(1)趋势如下:

(2)可以从趋势中可以看出,中国的金融文化,教育,科技,卫生支出的数额列示表明指数增长的趋势,所以选择的指数曲线。线性变换后,运用Excel输出的回归结果如下:

复R 0.998423

R平方0.996849

调整的R平方0.996674

标准观测误差0.022125

DF SS MS F显著性F

回归1 2.787616 2.787616 5694.885 5.68E-24

残差18 0.008811 0.000489 BR />共19 2.796427

系数标准误差t统计P值低95%95%上限

截2.163699 0.010278 210.5269 5.55E-32 2.142106 2.185291

X变量1 0.064745 0.000858 75.46446 5.68E-24 0.062942 0.066547

,,,。因此,指数曲线方程:。

2001年的预测是:13.10 19952000年北京月平均气温数据如下(单位:):

月/年份1995 1996 1997 1998 1999 2000

1 -0.7 -2.2 -3.8 - 3.9 -1.6 -6.4

2 2.1 -0.4 1.3 2.4 2.2 -1.5

3 7.7 6.2 8.7 7.6 4.8 8.1

4 14.7 14.3 14.5 15.0 14.4 14.6

5 19.8 21.6 20.0 19.9 19.5 20.4

6 24.3 25.4 24.6 23.6 25.4 26.7

7 25.9 25.5 28.2 26.5 28.1 29.6

8 25.4 23.9 26.6 25.1 25.6 25.7

9 19.0 20.7 18.6 22.2 20.9 21.8

10 14.5 12.8 14.0 14.8 13.0 12.6 11 7.7 4.2 5.4 4.0 5.9 3.0

类型的时间序列的12 -0.4 0.9 -1.5 0.1 -0.6 -0.6

(1)年的时间序列绘制折地图,判断。

(2)用多元回归模型来预测季节平均气温为每月2001。

详细的解答:

(1)年的时间序列折叠示意图如下:

折叠的时间序列可以从每年的图中可以看出,北京的月平均气温具有明显的季节变化。由于越线图的走势表明,该序列不存在。

(2)季节性的多元回归模型:

月份设置。季节性的多元回归模型:

虚拟变量为:

,,......,。

Excel的输出由回归结果如下:

B0 -0.2233

B1 -0.0030

M1 -2.7832

M2 1.3365

M3 7.5062

M4 14.9092

M5 20.5289

M6 25.3319

M7 27.6349

M8 25.7213

M9 20.8743

M10 13.9606 M11 5.3803

季节性的多元回归方程为:

2001年的预测值在一月份的平均气温为如下:??

年/月时间假人预测

M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 M11

1 73 1 0 0 0 0 0 0 0 0 0 0 -3.2

2 74 0 1 0 0 0 0 0 0 0 0 0 0.9 3 75 0 0 1 0 0 0 0 0 0 0 0 7.1

4 76 0 0 0 1 0 0 0 0 0 0 0 14.5

5 77 0 0 0 0 1 0 0 0 0 0 0 20.1

6 78 0 0 0 0 0 1 0 0 0 0 0 24.9

7 79 0 0 0 0 0 0 1 0 0 0 0 27.2

8 80 0 0 0 0 0 0 0 1 0 0 0 25.3

9 81 0 0 0 0 0 0 0 0 1 0 0 20.4

10 82 0 0 0 0 0 0 0 0 0 1 0 13.5
> 11 83 0 0 0 0 0 0 0 0 0 0 1 4.9
12 84 0 0 0 0 0 0 0 0 0 0 0 -0.5
温馨提示:答案为网友推荐,仅供参考
第1个回答  2014-04-01
如果只有这两个变量做分析,直接用相关分析就好了(pearson相关系数),或者用单变量回归分析。
比如你是研究消费水平对国内生产总值的影响,前面的分析发现单单消费水平这一个解释变量对国内生产总值的解释能力(R值)不强,你就要考虑是否遗漏了其它影响因素。
最好的做法是,把所有的因子(解释变量)都放上去,然后用逐步回归挑选出最重要的几个变量本回答被提问者采纳
第2个回答  2014-03-31
可以采纳逐步回归,但应多加入一些自变量。
相似回答