预测结果一:
5.5 用估计的回归方程1预测20xx年伦敦奥运会这九个国家的金牌数量
因此根据估计的回归方程:
金牌 = - 33.4 + 1.56 届数 + 21.5 美国 + 15.0 俄罗斯 + 4.96 德国+ 12.4 是否东道主 + 0.000150 总人口数 (万人),代入20xx年各个国家自变量的实际数据,
可以计算20xx年伦敦奥运会这九个国家的金牌数量:(忽略边际误差的影响,直接用估计值作为预测值) 国家 金牌 调整后的金牌数量
美国 39.6 40
中国 33.6 34
俄罗斯 30.5 31
英国 26.7 27
德国 19.6 20
日本 15.3 15
法国 14.4 14
韩国 14.2 14
澳大利亚 13.7 13
预测结果二:
5.9 用估计的回归方程2预测20xx年伦敦奥运会这九个国家的金牌数量
因此根据估计的回归方程:
金牌 = 0.93 - 187 中国 - 13.2 美国 + 7.29 澳大利亚 - 11.3 日本 + 9.83 是否东道主
+ 0.00169 总人口数 (万人),代入20xx年各个国家自变量的实际数据,
可以计算20xx年伦敦奥运会这九个国家的金牌数量:(忽略边际误差的影响,直接用估计值作为预测值) 国家 金牌 调整后的金牌数量
中国 41.63215 41
美国 40.627 41
俄罗斯 24.8435 25
英国 21.238 21
德国 14.82011 15
澳大利亚 12.0225 12
法国 11.915 12
日本 11.262 11
韩国 9.38 9
3 预测前准备
3.1 相关数据收集
从互联网上收集并整理从19xx年到20xx年各主要国家的金牌榜数据,并收集大致影响奖牌数量的因素,如是否东道主、人均GDP(美元)、人口自然增长率(‰)、总人口数 (万人)、GDP(万美元)等。 年份 届数 国家 金牌 银牌 铜牌 奖牌总数 是否东道主 人均GDP(美元) 人口自然增长率(‰) 总人口数 (万人) GDP(万美元) 19xx年 26 中国 16 22 12 50 0 703 10.42 122389 86039467
20xx年 27 中国 28 16 15 59 0 949 7.58 126743 1202791
07
20xx年 28 中国 32 18 14 64 0 1490 5.87 129988 193682120
20xx年 29 中国 51 21 28 100 1 3414 5.08 132802 453386028
19xx年 26 美国 44 32 25 101 1 30000 6 26519 795570000
20xx年 27 美国 39 25 33 97 0 35298 6 28217 996003666
20xx年 28 美国 35 39 29 103 0 40309 6 29366 1183714094
20xx年 29 美国 36 38 36 110 0 46971 7 30406 1428200226
19xx年 26 俄罗斯 26 21 16 63 0 2000 -5.3 17205 34410000
20xx年 27 俄罗斯 32 28 28 88 0 2300 -5.2 16339 37579700
20xx年 28 俄罗斯 27 27 38 92 0 2896 -4.7 15532 44980672
20xx年 29 俄罗斯 23 21 28 72 0 3500 -4.84 14834 51919000
19xx年 26 英国 1 8 6 15 0 20980 1.5 5880 123362400 20xx年 27 英国 11 10 7 28 0 25134 1.1 5889 148014126 20xx年 28 英国 9 9 12 30 0 36769 1.3 5983 219988927 20xx年 29 英国 19 13 15 47 0 43625 1.2 6140 267857500
19xx年 26 德国 20 18 27 65 0 29434 -0.9 8210 241653140
20xx年 27 德国 13 17 28 58 0 22809 -0.8 8221 187512789
20xx年 28 德国 14 16 18 48 0 31378 -0.7 8252 258931256
20xx年 29 德国 16 10 15 41 0 40123 -0.7 8214 329570322
19xx年 26 澳大利亚 9 9 23 41 0 22036 7.2 1740 38342640 20xx年 27 澳大利亚 16 25 17 58 1 26036 6.7 2000 52072000 20xx年 28 澳大利亚 17 16 16 49 0 21650 6.5 2050 44382500 20xx年 29 澳大利亚 14 15 17 46 0 42553 6.5 2100 89361300 19xx年 26 韩国 7 5 15 27 0 7500 9.9 4470 33525000 20xx年 27 韩国 8 9 11 28 0 8840 9 4613 40778920
20xx年 28 韩国 9 12 9 30 0 12431 8.7 4700 58425700 20xx年 29 韩国 13 10 8 31 0 19624 9.1 4878 95725872 19xx年 26 日本 3 6 5 14 0 38952 2.5 12576 489860352 20xx年 27 日本 16 9 12 37 0 40589 2.1 12687 514952643
20xx年 28 日本 16 9 12 37 0 41202 2.2 12776 526396752
20xx年 29 日本 9 6 10 25 0 42983 2.1 12770 548892910 19xx年 26 法国 15 7 15 37 0 20000 3.4 5838 116760000 20xx年 27 法国 13 14 11 38 0 24957 3.3 5890 146996730
20xx年 28 法国 11 9 13 33 0 30640 3.4 6052 185433280 20xx年 29 法国 7 16 17 40 0 40782 3.2 6205 253052310
3.2 相关系数分析
因为各国的经济实力,人口数量相差较大,奖牌数量也不是简单的受这些因素的影响,更多在于某个特别的国家在不同年份的奖牌数量受本身的人口规模和经济水平的影响较大。因此用相关系数分析方法看奖牌总数受哪些因素的显著影响,好像几乎没有,如下表所示:
奖牌总数 是否东道主 人均GDP(美元) 人口自然增长率(‰) 总人口数 (万人) GDP(万美元)
奖牌总数 1
是否东道主 0.383622 1
人均GDP(美元) -0.13532 -0.08185 1
人口自然增长率(‰) -0.12073 0.17868 0.01864968 1
总人口数 (万人) 0.36058 0.241502 -0.480931829 0.278334 1 GDP(万美元) 0.531541 0.130263 0.569794769 0.148804 0.08933 1 3.3 引入新的虚变量
相关系数分析方法来告诉我们影响奖牌总数的因素不完全取决与上面的一些因素,可能各个国家本身之间就有很大差异,因此需要构建新的哑变量,样本数据共有九个国家,因此需要引入八个哑变量。 中国(如果是中国就为1,否则为0)
美国(如果是美国就为1,否则为0)
俄罗斯(如果是俄罗斯就为1,否则为0)
英国(如果是英国就为1,否则为0)
德国(如果是德国就为1,否则为0)
澳大利亚(如果是澳大利亚就为1,否则为0)
韩国(如果是韩国就为1,否则为0)
日本(如果是日本就为1,否则为0)
加入新变量后的数据如下所示:
年份 届数 国家 中国 美国 俄罗斯 英国 德国 澳大利亚 韩国 日本 金牌……
19xx年 26 中国 1 0 0 0 0 0 0 0 16
20xx年 27 中国 1 0 0 0 0 0 0 0 28
20xx年 28 中国 1 0 0 0 0 0 0 0 32
20xx年 29 中国 1 0 0 0 0 0 0 0 51
19xx年 26 美国 0 1 0 0 0 0 0 0 44
20xx年 27 美国 0 1 0 0 0 0 0 0 39
20xx年 28 美国 0 1 0 0 0 0 0 0 35
20xx年 29 美国 0 1 0 0 0 0 0 0 36
19xx年 26 俄罗斯 0 0 1 0 0 0 0 0 26
20xx年 27 俄罗斯 0 0 1 0 0 0 0 0 32
20xx年 28 俄罗斯 0 0 1 0 0 0 0 0 27
20xx年 29
斯 0 0 1 0 0 0 0 0 23 19xx年 26
国 0 0 0 1 0 0 0 0 1 20xx年 27
国 0 0 0 1 0 0 0 0 11 20xx年 28
国 0 0 0 1 0 0 0 0 9 20xx年 29
国 0 0 0 1 0 0 0 0 19 19xx年 26
国 0 0 0 0 1 0 0 0 20 20xx年 27
国 0 0 0 0 1 0 0 0 13 20xx年 28
国 0 0 0 0 1 0 0 0 14 20xx年 29
国 0 0 0 0 1 0 0 0 16 19xx年 26 亚 0 0 0 0 0 1 0 0 9 20xx年 27 亚 0 0 0 0 0 1 0 0 16 20xx年 28 亚 0 0 0 0 0 1 0 0 17 20xx年 29 亚 0 0 0 0 0 1 0 0 14 19xx年 26
国 0 0 0 0 0 0 1 0 7 20xx年 27
国 0 0 0 0 0 0 1 0 8 20xx年 28
国 0 0 0 0 0 0 1 0 9 20xx年 29
国 0 0 0 0 0 0 1 0 13 19xx年 26
本 0 0 0 0 0 0 0 1 3 20xx年 27
本 0 0 0 0 0 0 0 1 16 20xx年 28
本 0 0 0 0 0 0 0 1 16 20xx年 29
本 0 0 0 0 0 0 0 1 9 19xx年 26
国 0 0 0 0 0 0 0 0 15 20xx年 27
国 0 0 0 0 0 0 0 0 13 澳澳澳澳 俄 大大大大 罗英英英英德德德德利利利利韩韩韩韩日日日日法法
20xx年 28 法国 0 0 0 0 0 0 0 0 11
20xx年 29 法国 0 0 0 0 0 0 0 0 74 建立回归模型
4.1 多元回归模型和回归方程
设想金牌数量或者奖牌总数受上述的某些变量(也包括新引入的哑变量)的影响,从而建立一个多元回归模型和回归方程。
5 建立估计的回归方程
5.1 用样本数据建立估计的多元回归方程
回归模型设计完后,紧接着需要根据样本数据建立估计的多元回归方程。
5.2 用Minitab逐步回归方法选择合适的自变量
因为变量太多,可用逐步回归的方法让Minitab帮你选择合适的自变量,入选用 Alpha: 0.15 删除用 Alpha: 0.15。
逐步回归: 金牌 与 届数, 中国, ...
入选用 Alpha: 0.15 删除用 Alpha: 0.15
响应为 14 个自变量上的 金牌,N = 36
步骤 1 2 3 4 5 6
常量 16.28 12.65 10.79 10.42 -32.54 -33.45
美国 22.2 21.3 23.0 21.0 20.9 21.5
T 值 4.37 5.37 7.00 7.27 7.63 8.12
P 值 0.000 0.000 0.000 0.000 0.000 0.000
总人口数 (万人) 0.00016 0.00017 0.00015 0.00014 0.00015
T 值 4.78 6.08 6.06 6.32 6.77
P 值 0.000 0.000 0.000 0.000 0.000
俄罗斯 13.6 14.2 14.3 15.0
T 值 4.13 5.02 5.29 5.74
P 值 0.000 0.000 0.000 0.000
是否东道主 11.7 12.1 12.4
T 值 3.49 3.77 4.04
P 值 0.001 0.001 0.000
届数 1.56 1.56
T 值 2.08 2.17
P 值 0.046 0.038
德国 5.0
T 值 1.88
P 值 0.070
S 9.59 7.48 6.14 5.28 5.02 4.82
R-Sq 35.96 62.16 75.30 82.26 84.51 86.19
R-Sq(调整) 34.08 59.86 72.98 79.97 81.93 83.33
Mallows Cp 130.3 65.9 34.6 18.9 15.3 13.0
Minitab推荐使用6个自变量(美国、俄罗斯、德国、总人口数(万人)、是否东道主、届数)来建立回归方程,且拟合优度和调整后的拟合优度分别是86.19和86.33。
5.3 用Minitab建立回归方程1(金牌的数量受哪些自变量的影响)
用以上提及的6个自变量建立回归方程:
回归分析:金牌 与 届数, 美国, 俄罗斯, 德国, 是否东道主, 总人口数 (万人)
回归方程为
金牌 = - 33.4 + 1.56 届数 + 21.5 美国 + 15.0 俄罗斯 + 4.96 德国
+ 12.4 是否东道主 + 0.000150 总人口数 (万人)
自变量 系数 系数标准误 T P
常量 -33.45 19.82 -1.69 0.102
届数 1.5637 0.7197 2.17 0.038
美国 21.530 2.652 8.12 0.000
俄罗斯 15.042 2.622 5.74 0.000
德国 4.957 2.639 1.88 0.070
是否东道主 12.447 3.081 4.04 0.000
总人口数 (万人) 0.00015027 0.00002219 6.77 0.000
S = 4.82139 R-Sq = 86.2% R-Sq(调整) = 83.3%
方差分析
来源 自由度 SS MS F P
回归 6 4206.62 701.10 30.16 0.000
残差误差 29 674.13 23.25
合计 35 4880.75
来源 自由度 Seq SS
届数 1 101.25
美国 1 1755.28
俄罗斯 1 525.22
德国 1 4.67
是否东道主 1 753.88
总人口数 (万人) 1 1066.32
异常观测值
拟合值 标准化
观测值 届数 金牌 拟合值 标准误 残差 残差
1 26.0 16.000 25.602 2.667 -9.602 -2.39R
4 29.0 51.000 44.305 3.588 6.695 2.08R
R 表示此观测值含有大的标准化残差
总结:从以上估计的回归方程可以看出,F检验统计量的p-value接近于0,金牌数量与这6个自变量的关系在总体上是显著的。对于单个的变量的t检验统计量在α=0.05显著水平下,只有自变量“德国”的t检验统计量的p-value=0.07略微高一点点。从拟合效果来看,R-Sq = 86.2% R-Sq(调整) = 83.3%,还是不错的。但仍有两个异常的观测值,因为标准化残差的绝对值大于2,来自中国的数据,这样的话说明中国的金牌数量是确实有点变化无常,预测难度也相当大,毕竟占世界人口近四分之一的一个国家,且各地经济发展不均衡,教育水平不均衡,体育发展事业不均衡等等诸多因素都会对中国队的金牌和奖牌总数量有着直接或间接的影响。
5.4 残差分析 1.jpg
从上图标准化残差图来看,基本上呈现带状,且在正负2之间对称分布。
5.5 用估计的回归方程1预测20xx年伦敦奥运会这九个国家的金牌数量
因此根据估计的回归方程:
金牌 = - 33.4 + 1.56 届数 + 21.5 美国 + 15.0 俄罗斯 + 4.96 德国+ 12.4 是否东道主 + 0.000150 总人口数 (万人),代入20xx年各个国家自变量的实际数据,
可以计算20xx年伦敦奥运会这九个国家的金牌数量:(忽略边际误差的影响,直接用估计值作为预测值) 国家 金牌 调整后的金牌数量
美国 39.6 40
中国 33.6 34
俄罗斯 30.5 31
英国 26.7 27
德国 19.6 20
日本 15.3 15
法国 14.4 14
韩国 14.2 14
澳大利亚 13.7 13
5.6 用Minitab最佳子集回归来选择自变量建立回归方程
用Minitab最佳子集回归来选择自变量从而建立回归方程。
最佳子集回归: 金牌 与 中国, 美国, 俄罗斯, 英国, 德国, 澳大利亚, 韩国, 日本, 是否东道主, 总人口数 (万人)
响应为 金牌
总
人
口
数
是
澳 否 (
俄 大 东 万
R-Sq(调 Mallows 中 美 罗 英 德 利 韩 日 道 人
变量 R-Sq 整) Cp S 国 国 斯 国 国 亚 国 本 主 )
1 36.0 34.1 122.1 9.5878 X
1 29.1 27.0 138.6 10.087 X
2 71.8 70.1 37.7 6.4527 X X
2 62.2 59.9 61.1 7.4815 X X
3 79.6 77.7 21.1 5.5807 X X X
3 78.9 76.9 22.9 5.6796 X X X
4 85.2 83.3 9.5 4.8217 X X X X
4 82.5 80.2 16.2 5.2547 X X X X
5 86.6 84.4 8.2 4.6685 X X X X X
5 86.5 84.2 8.5 4.6910 X X X X X
6 89.1 86.9 4.2 4.2803 X X X X X X
6 87.7 85.2 7.5 4.5406 X X X X X X
7 89.4 86.8 5.4 4.2901 X X X X X X X
7 89.2 86.5 5.9 4.3343 X X X X X X X
8 89.6 86.5 7.1 4.3397 X X X X X X X X
8 89.5 86.4 7.2 4.3523 X X X X X X X X
9 89.6 86.0 9.0 4.4175 X X X X X X X X X
9 89.6 86.0 9.0 4.4186 X X X X X X X X X
10 89.6 85.5 11.0 4.5035 X X X X X X X X X X
我们可以看到红色标注的几个推荐拟合得比较好,不妨选择变量“中国”,“美国”, “澳大利亚”, “日本”,“是否东道主”和“总人口数(万人)”做为自变量。
6 89.1 86.9 4.2 4.2803 X X X X X X
5.7 用Minitab建立回归方程2(金牌的数量受哪些自变量的影响)
选择Minitab最佳回归推荐的组合之一(“中国”,“美国”, “澳大利亚”, “日本”,“是否东道主”和“总人口数(万人)”)来建立新的回归方程。
回归分析:金牌 与 中国, 美国, 澳大利亚, 日本, 是否东道主, 总人口数 (万人)
回归方程为
金牌 = 0.93 - 187 中国 - 13.2 美国 + 7.29 澳大利亚 - 11.3 日本 + 9.83 是否东道主
+ 0.00169 总人口数 (万人)
自变量 系数 系数标准误 T P
常量 0.927 1.993 0.47 0.645
中国 -187.45 25.70 -7.29 0.000
美国 -13.160 4.962 -2.65 0.013
澳大利亚 7.288 2.818 2.59 0.015
日本 -11.347 2.538 -4.47 0.000
是否东道主 9.835 2.865 3.43 0.002
总人口数 (万人) 0.0016863 0.0002141 7.88 0.000
S = 4.28035 R-Sq = 89.1% R-Sq(调整) = 86.9%
方差分析
来源 自由度 SS MS F P
回归 6 4349.43 724.91 39.57 0.000
残差误差 29 531.32 18.32
合计 35 4880.75
来源 自由度 Seq SS
中国 1 760.50
美国 1 2088.64
澳大利亚 1 0.02
日本 1 45.63
是否东道主 1 318.03
总人口数 (万人) 1 1136.60
异常观测值
拟合值 标准化
观测值 中国 金牌 拟合值 标准误 残差 残差
13 0.00 1.000 10.843 1.075 -9.843 -2.38R
29 0.00 3.000 10.787 2.140 -7.787 -2.10R
R 表示此观测值含有大的标准化残差
总结:从以上估计的回归方程可以看出,F检验统计量的p-value接近于0,金牌数量与这6个自变量的关系在总体上是显著的。对于单个的变量的t检验统计量在 =0.05显著水平下,只有常量的t检验统计量的p-value=0.645高不是太好。从拟合效果来看,R-Sq = 89.1% R-Sq(调整) = 86.9%,还是不错的。
但仍有两个异常的观测值,因为标准化残差的绝对值大于2,来自19xx年英国和日本的数据。
19xx年 26 英国
19xx年 26 日本
5.8 残差分析 2.jpg
从上图标准化残差图来看,基本上呈现带状,且在正负2之间对称分布 5.9 用估计的回归方程2预测20xx年伦敦奥运会这九个国家的金牌数量
因此根据估计的回归方程:
金牌 = 0.93 - 187 中国 - 13.2 美国 + 7.29 澳大利亚 - 11.3 日本 + 9.83 是否东道主
+ 0.00169 总人口数 (万人),代入20xx年各个国家自变量的实际数据,
可以计算20xx年伦敦奥运会这九个国家的金牌数量:(忽略边际误差的影响,直接用估计值作为预测值) 国家 金牌 调整后的金牌数量
中国 41.63215 41
美国 40.627 41
俄罗斯 24.8435 25
英国 21.238 21
德国 14.82011 15
澳大利亚 12.0225 12
法国 11.915 12
日本 11.262 11
韩国 9.38 9
相比前一个回归方程所得到的预测结果,和出于自己爱国的情怀,本人更倾向于后一种模型所得到预测结果,中国队41枚金牌仍将保持奥运会金牌榜的第一位;但和20xx年北京奥运会相比毕竟中国已经失去了东道主的优势,很难再达到超越20xx年51块金牌的辉煌成绩了,理性得出的结果可能偏向第一种模型所得到预测结果,如下所示:
国家 金牌 调整后的金牌数量
美国 39.6 40
中国 33.6 34
俄罗斯 30.5 31
英国 26.7 27
德国 19.6 20
日本 15.3 15
法国 14.4 14
韩国 14.2 14
澳大利亚 13.7 13
用以上两种方法同样可以建立预测奖牌总数,银牌和铜牌的数量回归模型,这里就不再赘述了,有兴趣的朋友可以试一试。
6 总结
6.1 总结
如果本人对20xx年伦敦奥运会主要国家金牌数量预测准确,那也只是纯属巧合,大家不必惊讶!如果相差甚远,也希望大家理解不要鄙弃唾骂,毕竟这只是一场预测,就算 “章鱼哥”保罗在世也难免会有差错。
另外提醒各位不要拿此预测结果去买码赌博,在此郑重申明:对此预测结果用于博彩事业所造成的任何经济损失,本人一概不承担任何责任。