第一章
P(A+B)=P(A)+P(B)- P(AB)
特别地,当A、B互斥时, P(A+B)=P(A)+P(B)
条件概率公式
概率的乘法公式
全概率公式:从原因计算结果
Bayes公式:从结果找原因
第二章
二项分布(Bernoulli分布)——X~B(n,p)
泊松分布——X~P(λ)
概率密度函数
怎样计算概率
均匀分布X~U(a,b)
指数分布X~Exp (θ)
分布函数
对离散型随机变量
对连续型随机变量
分布函数与密度函数的重要关系:
二元随机变量及其边缘分布
分布规律的描述方法
联合密度函数
联合分布函数
联合密度与边缘密度
离散型随机变量的独立性
连续型随机变量的独立性
第三章
数学期望
离散型随机变量,数学期望定义
连续型随机变量,数学期望定义
l E(a)=a,其中a为常数
l E(a+bX)=a+bE(X),其中a、b为常数
l E(X+Y)=E(X)+E(Y),X、Y为任意随机变量
随机变量g(X)的数学期望
常用公式
方差
定义式
常用计算式
常用公式
当X、Y相互独立时:
方差的性质
D(a)=0,其中a为常数
D(a+bX)=b2D(X),其中a、b为常数
当X、Y相互独立时,D(X+Y)=D(X)+D(Y)
协方差与相关系数
协方差的性质
独立与相关
独立必定不相关
相关必定不独立
不相关不一定独立
第四章
正态分布
标准正态分布的概率计算
标准正态分布的概率计算公式
一般正态分布的概率计算
一般正态分布的概率计算公式
第五章
卡方分布
t分布
F分布
正态总体条件下
样本均值的分布:
样本方差的分布:
两个正态总体的方差之比
第六章
点估计:参数的估计值为一个常数
矩估计
最大似然估计
似然函数
均值的区间估计——大样本结果
正态总体方差的区间估计
两个正态总体均值差的置信区间
大样本或正态小样本且方差已知
两个正态总体方差比的置信区间
第七章
假设检验的步骤
① 根据具体问题提出原假设H0和备择假设H1
② 根据假设选择检验统计量,并计算检验统计值
③ 看检验统计值是否落在拒绝域,若落在拒绝域则拒绝原假设,否则就不拒绝原假设。
不可避免的两类错误
第1类(弃真)错误:原假设为真,但拒绝了原假设
第2类(取伪)错误:原假设为假,但接受了原假设
单个正态总体的显著性检验
l 单正态总体均值的检验
Ø 大样本情形——Z检验
Ø 正态总体小样本、方差已知——Z检验
Ø 正态总体小样本、方差未知—— t检验
l 单正态总体方差的检验
Ø 正态总体、均值未知——卡方检验
单正态总体均值的显著性检验
统计假设的形式
双边检验
左边检验
右边检验
单正态总体均值的Z检验
拒绝域的代数表示
双边检验
左边检验
右边检验
比例——特殊的均值的Z检验
单正态总体均值的 t 检验
单正态总体方差的卡方检验
拒绝域
双边检验
左边检验
右边检验
第二篇:统计方法总结
统计分析方法综述
一、聚类分析:
1、基本思想 :
在样本之间结构不明确的情况下,建立一个定量尺度,借以度量样品(变量)之间的亲疏程度,从而实现对样品(变量)进行分组的目的。
2、聚类分析的思路:
开始,n个样品(P个变量)各自成类→每次,按样品(变量)间的亲疏程度,将最近(最相似)的两个样品(变量)聚成一类→最终将n个样品(P个变量)聚成一个大类
在实际问题中,是聚成若干类,以有利于问题的分析
3、距离的计算方法有:明氏距离、马氏距离、兰氏距离;系统聚类的方法有:最短距离法、最长距离法、中间距离法等等。
4、 按聚类对象分为样品聚类(Q型聚类)和变量聚类(R型聚类)。
(1)样品聚类是对事件进行聚类,或是说对观测量进行聚类,是对反映被观测对象的特征的变量值进行分类。
(2)变量聚类则是当反映事物特点的变量很多时,根据所研究的问题选择部分变量对事物的某一方面进行研究的聚类方法。
二、判别分析:
在已知的一些样品 (多指标)已经分成若干个类型的基础上,建立必要的判别函数、判别准则,对新样品的归属进行判别。
判别分析有:距离判别法、费歇尔判别法、贝叶斯判别法
判别分析包括以下两步:
1、分析和解释各类指标之间存在的差异,并建立判别函数。
2、以第一步的分析结果为依据,将对那些未知分类属性的案例进行判别分类。
三、主成分分析:
1、是将原有众多的指标变量经组合后生成新的相互无关的综合指标的方法。
注意:1、原指标变量之间可能存在相关性(信息重叠)。 缺陷
2、新指标互不相关,且可以重现原指标的的全部信息。 优化
3、主成分分析在中选取前2-3个主成分,集中反映全部信息的80%-90%,因此用来分析问题。 简化
2、基本思路:构造一个线性组合(变换)
要求经(7.1)生成的:
1、即和不相关;
2、,即主成分携带的信息量递减;
3、,即新指标重现原指标的全部信息;
4、从p个新指标中选出前k个指标,一般要求。 K=2~3。
四、因子分析:
1、基本思想:构造几个不可观测的随机变量(称为因子)来描述原指标变量之间的相互关系,以达到降维、简化、综合评价的目的。R型因子分析、Q型因子分析。
2、因子分析与主成分分析的区别、联系
区别
(1)结构上
主成分分析是一个变换,使原变量
因子分析是用因子来描述原变量,
(2)主成分个数p=原变量个数p
因子个数m﹤原变量个数p
(3)主成分的取值可由计算得到,因子分析由模型无法得到因子的取值
联系:因子分析是主成分分析的扩展和深化
3、因子分析的基本步骤
(1)、确定研究变量。(2)、计算所有变量的相关矩阵。
(3)、构造因子变量。(4)、因子旋转。(5)、计算因子得分。
五、对应分析
1、基本思想 :
是在R型和Q型因子分析基础上,发展起来的一种多元相依的变量统计分析技术。对应分析是用标度变换的方法在低维空间(一般为2维)中,用图形直观地表示变量与变量之间、样品与样品之间、变量与样品之间联系的技术。使用这一分析技术可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。
2、分析的步骤
(1)、 确定研究的内容 (2)、 获取分析资料
(3)、 对列联表作对应分析 (4)、 解释结果意义(5)、 评价分析结果
六、典型相关分析:
基本原理:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。
七、回归分析:
1、一元线性回归:一元线性回归模型,该模型的特点是只有两个变量(自变量和因变量),而且函数形式为线性。回归分析的主要任务就是设法求出总体回归参数的具体数值,进而利用总体回归方程描述和分析总体的平均变化规律。
(1)、根据样本观测值对模型参数进行估计,求得线性回归方程;
(2)、对线性回归方程的参数估计值进行检验;
(3)、利用线性回归方程进行预测
2、多元线性回归:
多元线性回归模型中的估计参数称作偏斜率系数,它和一元线性回归模型的斜率系数有所区别。它在度量某一个自变量对因变量影响时,需要其他自变量保持不变。
(静态数据用一元或多元统计分析,动态数据则用时间序列分析)
八、时间序列分析
1、时间序列分析分为:确定性时序分析和随机性时序分析,随机性时序分析有:AR模型、MA模型、ARMA模型
2、时间序列研究的一般程序
确定研究对象→采集数据→数据预处理→模型识别→参数估计→建立模型→模型检验→预测与控制
3、用途
①系统描述。根据对系统进行观测得到的时间序列数据,用曲线拟合方法对系统进行客观的描述。②系统分析。当观测值取自两个以上变量时,可用一个时间序列中的变化去说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理。③预测未来。一般用ARMA模型拟合时间序列,预测该时间序列未来值。④决策和控制。根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到过程要偏离目标时便可进行必要的控制。
九、向量自回归模型:(VAR)
这种模型采用多方程联立的形式,它不以经济理论为基础,在模型的每一个方程中,内生变量对模型的全部内生变量的滞后值进行回归,从而估计全部内生变量的动态关系。
VAR模型的结构与两个参数有关。一个是所含变量个数N,一个是最大滞后阶数k。
以两个变量y1t,y2t滞后1期的VAR模型为例,
y1, t = c1 + p11.1 y1, t-1 + p12.1 y2, t-1 + u1 t
y2, t = c2 + p21.1 y1, t-1 + p22.1 y2, t-1 + u2 t
VAR模型的特点是:
(1)不以严格的经济理论为依据。在建模过程中只需明确两件事:①共有哪些变量是相互有关系的,把有关系的变量包括在VAR模型中;②确定滞后期k。使模型能反映出变量间相互影响的绝大部分。
(2)VAR模型对参数不施加零约束。(对无显着性的参数估计值并不从模型中剔除,不分析回归参数的经济意义。)
(3)VAR模型的解释变量中不包括任何当期变量,所有与联立方程模型有关的问题在VAR模型中都不存在(主要是参数估计量的非一致性问题)。
(4)VAR模型的另一个特点是有相当多的参数需要估计。比如一个VAR模型含有三个变量,最大滞后期k = 3,则有kN2 = 3 ´ 32 = 27个参数需要估计。当样本容量较小时,多数参数的估计量误差较大。
(5)无约束VAR模型的应用之一是预测。由于在VAR模型中每个方程的右侧都不含有当期变量,这种模型用于样本外一期预测的优点是不必对解释变量在预测期内的取值做任何预测。
(6)用VAR模型做样本外近期预测非常准确。做样本外长期预测时,则只能预测出变动的趋势,而对短期波动预测不理想。
十、面板数据计量经济分析方法
面板数据,即Panel Data,是截面数据与时间序列数据综合起来的一种数据类型。
1、面板数据模型的一般形式:
其中表示N个个体;表示已知的T个时点,是被解释变量对个体在时的观测值;是第个非随机变量对于个体在时的观测值;是带估计的参数;是随机误差项。
2、面板数据回归模型的分类:
(1)混合回归模型
不同个体或不同时间序列均不存在显著性差异,直接把面板数据混合在一起,用普通最小二乘法(OLS)估计参数。
(2)变截距模型
对于不同的截面或不同的时间序列,模型的截距项是不同的,模型的斜率系数是相同的。
(3)变系数模型
解释变量的截距和斜率随截面和时间的不同而不同
十一、数据包络分析
数据包络分析是评价同类部门或单位间的相对有效性的决策方法,可用于各行各业,例如,用它对某行业的诸上市公司进行相对有效性评价;又如在某企业中以每天的输入与输出作为一个生产活动,用DEA对若干天的生产活动进行相对有效性评价。DEA也是在经济中用来研究具有多输入、多输出的边界生产函数的有力工具,因而可用它来研究与边界生产函数有关的问题,如狭义技术进步率、生产率指标、预测、规模收益分析、资金分配问题及最大收益问题等,它已成为决策分析、管理、经济等领域中的一个重要的方法。
十二、结构方程模型
1、结构方程模型(Structural Equation Modeling/ Structural Equation Model/ Structure Equation Modeling,简称SEM)是基于变量的协方差矩阵来分析变量之间关系的一种综合性的统计方法,因此又称为协方差结构分析。 它是研究不可直接测量之间的结构关系,潜变量由可测变量表现。
2、结构方程模型的结构分为两部分:测量模型和结构模型
测量模型:测量指标与潜变量之间的关系
x=∧xξ+δ
y= ∧yη+ε
其中,
ξ:外生潜变量(xi) η:内生潜变量(eta)
x:外生指标 δ:x的误差项(delta)
y:内生指标 ε:y的误差项(epsilon)
∧x:外生指标与外生潜变量的关系(lambda)
∧y:内生指标与内生潜变量的关系
结构模型
对于潜变量间的关系,可用结构方程
表示:
η=Bη+Гξ+ζ
η:内生潜变量(eta)
ξ: 外生潜变量(xi)
B:内生潜变量间的关系(bta)
Г:外生潜变量对内生潜变量的影响(gamma)
ζ: 结构方程的残差项(zeta)
3、SEM的优点:
(1)同时处理多个因变量;
(2)容许自变量和因变量含有误差,精确估计观察变量与潜在变量之间的关系;
(3)同时估计因子结构和因子关系;
(4)可以估计整个模型和数据的拟合程度。
十三、参数检验
1、对参数平均值、方差进行的统计检验。
先由测得的样本数据计算检验统计量,若计算的统计量值落入约定显著性水平a 时的拒绝域内,说明被检参数之间在所约定的显著性水平a 下在统计上有显著性差异;反之, 若计算的统计量值落入约定显著性水平a 时的接受域内,说明被检参数之间在统计上没有显著性差异,是同一总体的 2、参数检验运用范围
当总体分布已知(如总体为正态分布),根据样本数据对总体分布的统计参数进行推断。
此时,总体的分布形式是给定的或是假定的,只是其中一些参数的取值或范围未知,分析的主要目的是估计参数的取值,或对其进行某种统计检验。这类问题往往用参数检验来进行统计推断。它不仅仅能够对总体的特征参数进行推断,还能够实现两个或多个总体的参数进行比较。
3、参数检验的步骤
(1)提出原假设和备择假设
(2)确定适当的检验统计量
(3)规定显著性水平a
(4)计算检验统计量的值
(5)作出统计决策
十四、非参数检验
参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。
非参数统计在总体未知时效率要比传统方法要高。是否用非参数统计方法,要根据对总体分布的了解程度来确定。
十五、投入产出分析法
1、投入产出分析法是从宏观经济角度出发,把国民经济划分为若干不同但互有联系的产品群或产品部门,并借助线性方程,来模拟社会再生产过程和国民经济结构,以此综合分析各部门之间的经济技术联系和重要比例关系的一种方法
2、投入产出表的数学模型 :
(1)投入产出表的行模型:投入产出表的行模型是根据投入产出表的横行平衡关系式建立的模型,它主要反映了各部门中间产品、最终产品和总产出之间的数量平衡关系。
Ø 应用行模型分析最终使用量变化对各产业部门生产规模的影响
Ø 应用行模型分析各产业部门总产出变化对各产业部门最终使用量的影响
(2)投入产出表的列模型:投入产出表的列模型是根据投入产出表的纵列平衡关系式建立的模型,它主要反映了各部门中间投入、最初投入和总投入之间的数量平衡关系。
Ø 应用列模型分析各产业部门总产出变化对各产业部门增加值的影响
Ø 应用列模型分析各产业部门增加值变化对各产业部门总产出的影响