spss期末复习总结

时间：2024.4.20

1-1、SPSS运行方式：菜单操作方式、程序运行方式、Include运行方式、Production Facility方式。

1-2、Spss界面窗口：数据编辑窗口、结果管理窗口、结果编辑窗口、语法编辑窗口、脚本窗口。

1-3、在数据预处理中应用最广泛的是计算变量。

1-4、Spss基本模块不能直接实现的功能：统计分析、数据计划、数据收集。

1-6、spss不能直接打开*.html文件。

2-1、spss数据文件格式：每一行的数据成为一个记录；每一列为一个变量。

2-2、Spss数据编辑器界面为数据视图界面和变量视图界面（定义数据集的数据字典）。 2-3、变量名命名准则：必须以英文字母开口，其他部分可以含有字母、数字、下划线；变量名尽量避免和spss已有的关键字重复（sum、compute、anova）；变量名最长为64个英文字符或者32个中文字符；spss变量名不区分大小写。

2-4、变量的度量类型不是固定不变的，可以分局分析过程来改变变量的度量类型。 2-5、spss中字符型数据值区分大小写；字符型数据可以设置值标签。

2-6、对于数据的处理缺省值默认为”.”，字符串默认为空，若空字符串有意义，需在变量是同对缺省值进行定义。

2-7、spss只读入数据（excel）。

2-8、添加变量合并文件：一对一合并，一对多合并；合并相同个案数，不同属性的数据文件，为添加变量；合并数据之前，需按关键变量进行排序，合并的诗句恩见必须是.sav或已经在spss中打开的文件，并确保两个文件中需要合并的变量名称不同。

3-1、可视化分段方法：直接输入分割点；根据条件自动生成分割点。

3-2、填补缺失数据方法：序列均值、临近点均值、临近点的中位数、线性插值法、点处线性趋势。

3-3、在做统计分析之前一般要做数据效验，如果是录入错误则重新录入；若数据确实错误，则可将这些数据设置成缺失值。

3-4、“标记异常个案”过程基于个案偏离聚类组中心的大小来判断异常个案，一般用于探索性数据分析步骤中。

3-5、可视化变量分段是对连续数据进行离散化。

4-1、描述数据特征的统计量，一类表示数据的中心位置（均值、中位数、众数），一类表示数据的离散程度（方差、标准差、极差）。进行数据分析第一步往往是进行描述性统计分析。 4-2、频率分析：对于给定的类，落入这个类的个案数成为频率，落入该类中的个案数和个案总数的比例成为相对频率——直方图、条形图、集中趋势和离散趋势的统计量来描述数据的分布特征。

4-3、饼图和条形图使用于分类变量类别个别数较少的情况，如果个别数较多，选择直方图。 4-4、中心趋势的描述：均值、中位数、众数、5%截尾均值，指一组数据向某个中心值靠拢的倾向。对于连续变量（尺度变量）和定序变量，描述中心趋势的有均值、中位数、众数、5%截尾均值（升序排序，剔除最小和最大的5%后的算术均值）；对于定性数据（名义数据），指标只有众数。（尺度变量——连续变量；名义变量——定性数据；名义变量和定序变量——分类变量）

4-5、离散趋势的描述：极差、方差、标准差、分位数、变异指标。

4-6、总结五数：最小值、下四分位数、中位数、上四分位数、最大值。（箱图）

4-7、偏度：α∈（-3,3），α>0，左偏，在左拖尾。α=0对称分布。峰度：β>3，高峰度，β=0，正太峰。

4-8、分析/描述统计/频率（条形图、饼图、直方图）/描述/探索（箱图、茎叶图、直方图、Q-Q图），输出统计量（均值、中值、众数、标准差、方差、偏度、峰度、全距、极值、百分位数）

4-9、定性数据图形的描述：条形图、帕累托图（从高到低排序条形图）、饼图。（首先加权个案）

4-10、定量数据图形的描述：直方图（用于连续型数据）、茎叶图、箱图。

4-11、在探索图里面勾选带检验的正态图可以输出选定变量的QQ图、变量正态性的K-S检验和S-W检验。

4-12、IQR（四分位距）=Q3-Q1，最下面的短线Q1-1.5IQR，最上面短线Q3+1.5IQR，离群值（圆圈表示）落入[Q3+1.5IQR，Q3+3IQR）或者（Q1-3IQR，Q1-1.5IQR],极端值（※表示）大于等于Q3+3IQR或Q1-3IQR。

4-13、如果只有一个因变量，茎叶图或者箱图按因子各个水平输出，选择不分组的输出结果和选择“按因子水平分组”的输出结果只在标题的组织形式上略有不同，如果有两个因变量，则两种选项的结果差异较大。

5-1、因为假设检验有何能犯两类错误：拒真、受伪。

5-2、假设检验的步骤：确定恰当的原假设和被择假设；选择检验统计量；计算检验统计量观测值发生个概率（P）；给定显著性水平α，并作出决策。

5-3、分析/比较均值/均值，输出表格“案例处理摘要”（看缺失值）、“均值报告表”（看均值列，趋势与增加幅度，如随着工作年限增加，小时工资也增加，增加幅度不均匀，列举每阶段增加幅度）、“方差分析表（ANOVA表）”（线性显著性<0.05,有线性关系，线性偏差>0.05，非线性关系成分不显著）、“相关性度量表”（R方值不大，线性关系不十分强）

5-4、双因素分析：在均值对话框—下一张，均值过程只对第一层的自变量进行方差分析和线性相关检验（只有描述性统计表，即均值分析报告不一样，均值列分析：同等经验下，病房护士小时工资比办公室高，随着工作经验增加，差距变小；标准差列分析：同等经验的办公室护士，小时工资差距大于同等经验的医院护士）。

5-5、单样本T检验即检验某个变量的总体均值和某指定值之间是否存在显著性差异。T检验的稳健性好。数据准备：数据—拆分文件—分割文件—比较组（完成分析之后要关闭文件分割）、单样本T检验：分析/比较均值/单样本T检验（输入检验值）—— “单个样本统计量”——均值，偏离检验值、“单个样本检验”——t为T统计量，df为自由度，sig（双侧）为P值，均值差值为各数据减去检验值，上限下限位该均值差95%的置信区间的上限和下限。sig值<0.05，拒绝原假设，不等于检验值，不满足要求。

5-6、两个样本的T检验分为：独立样本T检验和配对样本T检验。独立样本T检验分析两个独立样本的均值是够有显著性差异（男女身高、不同行业的起始工资）。配对样本T检验比较同一个总体的两次不同的测量（医学研究中药物疗效、被调查者父亲和母亲的受教育程度）。

5-7、独立样本T检验的前提条件：独立性、正态性、方差齐性；数据初探：分析/描述性统计/探索（直方图、带检验的正态图）—— “描述”（比较均值大小、标准差比接近于1，初步认定方差齐性）、“直方图”（初步判断正态分布）、“正态性检验”（K-S检验和S-W检验，sig>0.05，接受正态性假设）——判定是够满足T检验前提条件，满足则进行T检验；分析/比较均值/独立样本T检验（定义分组变量）—— “组统计量”（显示均值、标准差及均值的标准误，均值的标准误即为标准差除以样本N的平方根）、“独立样本检验”（方差方

程的Leven检验，即方差齐性检验，和均值方程的t检验，p>0.05接受方差齐性假设，选择“假设方差相等”，sig（双峰）<0.05，说明新促销方法消费金额显著不同于标准促销消费金额，再比较均值大小，说明新方案有效）。

5-8 配对样本T检验配对设计方法：同一受试对象处理前后的数据/两个部位数据/两种方法测试数据/配对的两个收拾对象分别接受两种处理后的数据。

5-9、配对样本T检验的前提条件：两个样本配对、两个样本所来自的总体服从正太分布；分析/比较均值/配对样本T检验——“成对样本统计量”（均值、标准量、标准差、均值的标准误），“成对样本相关系数”（样本量N、相关系数、相关系数P值sig<0.05,相关系数明显大于0，有强线性相关），“成对样本检验”（差值的均值、差值的标准差、差值均值的标准误，t统计量和相对应的显著性，t=差值的均值/均值的标准误，分析：对1的差值均值及为减轻量，由于对1均值及均值的标准误远远高于对2，所以对2的t值远远大于对1的t值，从显著性来看，对2的减轻是显著的，因此该计划最终的评估结果为可以减轻体重但不确定可以减轻脂肪）。注意：配对样本T检验之前需要检查两样本是否服从正态分布（直方图、QQ图、k-s检验，注意分析变量中的离群值，用箱图检验）。

6-1、非参数检验的优点：稳健性、使用范围广。缺点：检验能效较差。适用场合：参数检验方法的条件不满足，研究定类变量和定序变量之间的关系。单样本非参检验方法：二项检验、卡方检验、k-s检验。

6-2、卡方检验——对总体分布进行检验（心脏病猝死人数与日期关系、人口结构、血型和性格等），原假设：样本来自的总体分布于假设的分布无显著性差异。卡方统计量服从自由度为k-1的卡方分布，如果卡方值较大，说明期望频数与观测频数分布差距较大，拒绝原假设。

6-3、二项式检验（首先定义成功或失败的类别，默认第一类为成功类）

7-1、相关关系分为线性相关和非线性相关，相关变量的研究根据变量的度量类型分为定类变量之间的相关，定序变量之间的相关，尺度变量之间的相关。

7-2、相关分析在统计分析中的作用：判断变量之间有无联系、确定相关关系的表现形式及相关分析方法、把握相关关系的方向与密切程度、进一步采取其他统计方法进行分析提供依据、用来描述变量之间的关系状况和进行预测。

7-3、相关分析的主要方法：图示法（散点图）、计算相关系数法。图形/散点图/简单散点图，偏离大部分的点为离群值。

7-4、相关系数为0只能说明没有线性相关关系，相关系数适用于样本量大于30且两个变量的总体是正态分布的情况。

7-5、相关系数检验，原假设为ρ=0；分析/相关/双变量——“相关性”（相关系数<0.3、显著性>）0.05，线性相关不显著；剔除离群值：数据/选择个案/如果、分割文件：数据/拆分文件、分析/相关/双变量——“相关性”（相关系数、显著性）

（散点图——相关系数检验——回归）

8-1、确定变量之间线性相关后，通过回归分析找出线性关系。线性回归是指回归系数为线性，不是非相关变量和预测变量之间的的关系。

8-2、回归分析的步骤：写出研究的问题和分析的目的、选择潜在相关变量、收集数据、选择合适拟合优度、模型求解、模型验证和评价、应用模型解决研究问题。

8-3、简单线性回归：Y=β0+β1X+ε（X为预测变量，可控，Y为因变量，随机，ε为随机误差，ε~N(0, σ?)，且假设σ?与X无关）。

8-4、决定系数R?=SSR/SST=1-SSE/SST，残差平方和SSE，回归平方和SSR，总平方和SST=SSR+SSE，0<=R?<=1。决定系数越大，回归方程的拟合程度越高，0.6以上即可以接受回归直线。

8-5、分析/回归/线性——“系数”（B列，写出方程Y=常量B+UnitsBX，注意Y的帽子）、“模型摘要（汇总）”（调整）R?小于R?，一元看R?，多元看调整R?，分析：R?=0.978，说明该线性模型可以解释自变量97.8%的变差，拟合效果好、“模型拟合优度检验Anova”（F=回归平方和/残差均方，sig<0.05，方程整体有效，分析：F检验中的显著性小于0.05，一元线性回归模型显著）

8-6、COOK距离和Leverage值（杠杆值）能给出个案对回归影响大小的信息。

8-7、进行线性回归需要对回归进行的条件验证：因变量和自变量的因果关系、残差具有方差齐性、残差之间不相关（自变量不需要服从正太分布）。

8-8、在一元的情况下，回归方程的显著性和斜率的显著性检验是等价的。

9-1、三个或三个以上样本均值的差异——方差分析（ANOVA）。方差分析的因变量必须是尺度类型数据（连续数据）。因素分为观测因素（因变量，最终结果）、控制因素（潜在原因，可选择）。方差分析的条件：每个处理的因变量为正态分布（正态性）；每个处理的因变量具有相同的方差（方差齐性）。

9-3、描述性数据分析：检验方差分析的前提条件是否满足，如果不满足，看偏离是否严重，决定使用方差分析还是非参数检验。

9-4、单因素方差分析（四表一图）：分析/比较均值/单因素ANONA，选择因变量和因子，两两对比，假定方差齐性部分18种（LSD—精度最高、S-N-K输出同类子集、Tukey—各组大小相等，及组等容量时使用）、未假定方差齐性4种，选项/单因素勾选“描述性”（输出方差分析描述性统计量“描述”）、“方差同质性检验”、均值图。

9-5、总体均值之间是够显著差异：

“描述”（均值、标准差，分析：培训时间越长，成绩越好越稳定）；

“方差齐性检验”（显著性希望>0.05，<0.05说明方差不齐，分析：在比较各个组别样本量相差不大，且各组分别的分布形态类似的情况下，方差分析对方差不等具有稳健性，案例中内个组个案数相等，峰度和偏度相等，分布形态类似，可进行方差分析，建议方差分析后进行相应非参检验验证方差分析结果）

“ANOVA表”（均方=相应平方和/自由度，F=组间均方/组内均方，一共三个组，组间自由度2,60个个案，3个组，组内自由度57。分析：显著性<0.05，没有证据说明三种方式的效果相同）

9-6、均值的两两比较：

“多重比较”（观测：显著性。分析：多重比较结果一致，即培训两天和三天无差异，培训一天和另外两种都有差异）

“同类子集”（同一类放在一列，当其中一个可以在任意一列时，看sig值大小，sig值大的在一列，分析：TukeyB两两比较把5%的显著性水平下没有区别的总体放在同一列，作为同类子集，这里2天和3天没有差别，放在一列，1天单独一列）

“均值图”（直观看出总体均值的趋势）

第二篇：spss学期笔记总结

学期笔记总结

一、基本掌握

1.研究要注意的问题

2.题目的输入编码（各种题型的输入方法）

3.数据的筛选：Data--select cases

A.simple size（百分比和个数）

B.If条件（复杂条件的筛选）

4.简单编码

5.新变量的产生：transform--compute--variable

6.重新编码：transform--recode into different variable

7.数据合并：Data--Merge files--1.Add Cases纵向合并（样本量增加）

(注意ID码的重要性） 2.Add Variables横向合并（变量增加）

二、描述统计（Analyze)

类型：频率分析，描述分析，相关分析，图标分析，交叉分析等等

1.连续变量统计：均值，标准差，众数，中数，平均数

A.频率：Analyze--Descriptive statistics--123 Frequency

B.交叉分析：Analyze--Descriptive statistics--crosstabs

C.多变量交叉分析--加层

Analyze--Descriptive statistics--crosstabs（next加层）

D.连续变量分析的数据分组

Analyze--Descriptive statistics--123 Frequency--statistics

a.等分点：cut point for __equal groups

b.百分比：percentile

C.重新编码和数据分组的综合运用

2.多选题选项的分析：Analyze--multiple response--frequencies

三、推断统计（Analyze)

A.包括参数估计和假设估计

B.用样本统计量推断（估计）总体参数

采用标准误

C.假设检验

检验组间差异

检验组内差异

检验变量之间的关系

1.单样本T检验:Analyze--Compare means--One sample T test

一组数据和平均数进行比较

（平均数自己输，可以设置置信度）

结果：采用单样本T检验，结果发现T=5.63（p＜.05）。说明本机构员工工资34419.57.显著高于当地平均工资30000元。

（置信区间两端不能有一正一负，不包含0一定有显著差异，包含0一定没有显著差异。当题目没有给你常模或者其他条件的时候，只有区间，要学会判断）

2.双组别T检验:Analyze--Compare means--independent samples T test

（两个组，独立样本（你是男就不能是女）样本要有显著性差异）

例如：少数民族和非少数民族的起始工资

一定和原来的分类命名一样（和自己定义的编码一样，如0是汉族，1少数民族）

3.配对样本T检验:Analyze--Compare means--Paired samples T test

（对一组样本进行两次重复的检验，前测后测）

4.单因素方差分析：Analyze--Compare means--One way ANOVA

单因素是指只有一个自变量X，该自变量有3个或以上的水平（X1,X2,X3)

自变量为分类变量，因变量为连续变量

例如：分析同一个自变量三个不同水平对因变量均值变化的影响

追踪分析（多重比较）post hoc Tukey

（事后平均数比较）

比tukey的要求更高。

如果根据两个变量对样本进行分组，至少有4个组。

（要求懂得看和描述）

四、析因设计与多因素方差分析

多元素方差分析：指同时探讨两个或两个以上分类变量不同水平上因变量均值差异的一种分析方法

对多因素方差分析来说，最重要的是交互效应

交互效应

1.不完全交互效应

（不完全同比的效应，都有变化，但是变化的显著性不相同。瘦死的骆驼比马大）

2.完全的交互效应

（出现如果语句，看情况描述，就像变化的函数曲线，1个小时时，2个小时，3个小时，4个小时哪个情景好要去选择，看曲线变化。)

1.Analyze--general linear model--univariate

因变量：dependent variable

自变量：fixed variable

协变量（偏相关）：Covariate(协变量，试验中的控制变量）

2.Mean（平均数），更细化的分析

Analyze--Compare means--Means

(通过画图看他的交互效应）

五、相关分析

1.相关分析是分析变量Y和X之间的相互关系。如：教育水平与收入的关系

2.相关分析揭示的是变量之间不确定关系，而非函数关系。

根据对变量的控制情况，可以分为简单相关和偏相关两种基本类型。

3.相关分析：有正相关，曲线相关，负相关，多重曲线相关。