@什么是多元统计分析
多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广
@多元统计分析的内容和方法
1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等
2、分类与判别,对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。
@方差分析的基本思想:方差分析又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。
应用条件: (1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。
(2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。
(3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。
@聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化
@聚类分析的基本思想:是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕.
@判别分析的特点(基本思想)1、是根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则。2、根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。
@聚类分析的类型有:(1)对样本分类,称为Q型聚类分析(2)对变量分类,称为R型聚类分析 # Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。# R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。
@判别分析根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。
@判别分析类型及方法(1)按判别的组数来分,有两组判别分析和多组判别分析(2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别(3)按判别对所处理的变量方法不同有逐步判别、序贯判别。(4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则
@因子分析:因子分析是主成分分析的推广,也是利用降维的思想,由研究原始变量相关矩阵或协方差矩阵的内部依赖关系出发,把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析方法。
@主成分分析与因子分析的联系和差异:因子分析是主成分分析的推广,是主成分分析的逆问题。主成分分析是将原始变量加以综合、归纳;因子分析是将原始变量加以分解、演绎。(1)主成分分析仅仅是变量变换,而因子分析需要构造因子模型。(2)主成分分析:原始变量的线性组合表示新的综合变量,即主成分; 因子分析:用潜在的假想变量(公共因子)和随机影响变量(特殊因子)的线性组合表示原始变量。用假设的公因子来“解释”相关矩阵内部的依赖关系。 (3)主成分分析中主成分个数和变量个数相同,它是将一组具有相关关系的变量变换为一组互不相关的变量,在解决实际问题时,一般取前m个主成分; 因子分析的目的是用尽可能少的公因子,以便构造一个结构简单的因子模型。
@因子分析的基本思想:把每个研究变量分解为几个影响因素变量,将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子。
@主成分分析:将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。
@共同度----又称共性方差或公因子方差就是变量与每个公共因子之负荷量的平方总和(一行中所有因素负荷量的平方和)。
@简述两个变量之间的相关分析
相关分析是研究随机变量之间的相关关系的一种统计方法。相关关系是一种非确定性的关系。相关性探讨的是两变量间相关情况的的大致趋势。相关分析涉及两个变量:应变量和自变量。应变量是度量研究结果的变量;自变量是解释或影响反应变量的变量。
两变量数据相关检验的步骤:一、图示两变量数据以及各个统计数字;二、查看整体状态及数据的离散情况;三、如果有较稳定的关系,就用简单的数学模式描述该关系。 对连续型变量常用相关系数刻画两个变量之间的相关性,而对离散型变量则用质相关系数。
@系统聚类法基本原理和步骤为:1、先计算n个样本两两间的距离2、构造n个类,每个类只包含一个样本3、合并距离最近的两类为一新类4、计算新类与当前各类的距离5、类的个数是否等于1,如果不等于回到3在做6、画出聚类图7、决定分类个数和类
@聚类和判别分析的异同
聚类分析是把研究目标分割成为具有相同属性的小的群体。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。它们在数学上是无区别的。 聚类的基本想法:根据某种距离,把最近的聚在一起。这里的距离含义很广,如欧氏距离、马氏距离等距离,相似系数也可看作为距离。
判别分析的基本思路是:设有G1、G2、…GK个总体,从不同的总体中抽出不同的样本,根据样本→建立判别法则→判别新的样品属于哪一个总体。当然,根据不同的方法,建立的判别法则也是不同的。 常用的判别方法有:距离判别、Fisher判别、Bayes判别。
判别分析和聚类分析都是分类。其主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。 而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。
@Fisher判别和贝叶斯判别的基本原理
Fisher判别法是一种先投影的方法。使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。进行投影后,再根据距离判别思想由距离的远近得到判别准则,从而进行判别分析。
贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。
@简述两个类别的判别及判别准则
用距离判别法的基本思想是,先根据已知分类的数据,分别计算各类的重心,然后计算待判样本与各类的距离,与哪一类距离最近,就判待判样本x属于哪一类。
计算距离时常用的是马氏距离D(x,G1)、D(x,G2),根据基本思想,可得距离判别法的判别函数为:W(x)=D(x,G2)-D(x,G1)
判别准则
@主成分分析基本步骤
(1)对原变量的样本数据矩阵进行标准化变换(2)求标准化数据矩阵的相关系数矩阵R(3)求R的特征根及相应的特征向量和贡献率等(4)确定主成分的个数(5)解释主成分的实际意义和作用
@明考夫斯基距离三种特殊形式:
绝对距离
欧氏距离
切比雪夫距离
@主成分分析的基本步骤
1:将原始数据进行标准化,得;
2:计算的相关系数矩阵;
3:求相关系数矩阵的特征根及相应的单位正交特征向量;
4:计算方差累积贡献率,确定主成分的个数;
5:写出主成分,解释其实际经济意义并指导实践。
第二篇:多元统计分析考试真题
二、填空题(共24分,每空2分)
1、P维随机向量X = ~N(,),则相互独立的充要条件为是( 对角矩阵 ),设A是sp阶常数阵,d为维常数向量,则AX+d ~ ( Np(A+d,AAT )
2、在一元统计中,若统计量t ~ t (n-1) 分布,则~ ( F(1,n) )分布,在多元统计分析中统计量也有类似的性质。若X~ N(0,), 样本离差阵S~ W(n,), 且X与S相互独立,令= nX, 则~ 。
3、 随机向量 X= 的R型因子分析模型为:
(i=1,...,p)
则为(j=1,…,m)的 因子,为的 因子。的关系为
Cov(,)= (j= 1,…,m)
4、若随机矩阵服从Wishart分布W( ,),(i=1,2)且 和相互独立,则统计量服从 分布。在实际应用中,经常把统计量化为统计量进而化为F统计量。在多个正态总体均值向量检验中,设有k个p元正态总体,每个抽取独立样品个数分别为,且。类似一元方差分析方法,有组间离差阵A= ,
组内离差阵E= ,总离差阵T= , 且T =A+E。
=-
三、证明题(共20分)
1、 p维随机向量 X= 的第i个主成分:
,(i= 1,….p),X的协差阵Var(X)=的特征值依次为:
(1) 试证: 其中
(2) 求 的协差阵Var(F) (10分)
2、证明典型变量的性质:中出现的一切典型变量都是不相关的,且方差为1。中出现的一切典型变量也是如此。与的不同对典型变量不相关(10分)
四、设抽取5个样品,每个样品只测一个指标,它们是1,2,3.5,7,9,试用最长距离 法对5个样品进行分类。要求写出和的距离的定义式,用表和图(树形图)表示聚类过程。(12分)
五、两个总体和分别有11个和12个样本,算得其样本均值分别为=,样本离差阵和的和S的逆矩如下:
要求:(1)求Fisher判别函数;
(2)试判断样本属于哪一类?(12分)
四、设抽取5个样品,每个样品只测一个指标,它们是1,2,3.5,7,9,试用最长距离 法对5个样品进行分类。要求写出和的距离的定义式,用表和图(树形图)表示聚类过程。(12分)
六、设随机向量的协方差阵为:
试求X的主成分及主成分对变量的贡献率(i=1,2,3)并解释(12)