心理测量

时间：2024.3.31

心理测量

第一章、心理测量的基本理论... 3

一、心理测量的基础... 3

（一）、心理测量的基本概念... 3

（二）、心理测量的特征与分类... 3

（三）、心理测量的发展历史... 4

二、经典测量理论... 5

（一）、经典测量理论模型... 5

（二）、测量的信度与效度... 5

（三）、心理测量的误差... 12

（四）、心理测验的项目分析... 12

三、项目反应理论... 13

（一）、单维性假设与项目特征曲线... 13

（二）、单参数模型、双参数模型和三参数模型... 14

（三）、项目信息函数与测验信息函数... 15

四、概化理论... 15

（一）、方差分量的估计... 15

（二）、概化系数与可靠性指数... 16

（三）、概化研究（G研究）与决策研究（D研究）... 16

第二章、心理测验及其应用... 17

一、心理测验的编制技术... 17

（一）、测验编制的主要原则... 17

（二）、心理测验编制的基本程序... 17

（三）、测验目标与命题双向细目表... 18

（四）、题目编制技术... 18

（五）、测验合成与标准化... 18

（六）、测验的鉴定与手册编写... 18

（七）、测验等值技术... 18

二、心理测验的施测... 20

（一）、测验的设计... 20

（二）、施测的程序和步骤... 20

三、测验常模... 21

（一）、常模与常模团体... 21

（二）、分数转换与合成... 21

（三）、常模的编制... 21

（四）、几种常用的常模... 22

四、标准参照测验... 22

（一）、标准参照测验的定义与作用... 22

（二）、标准参照测验的题目分析... 22

（三）、标准参照测验的信度与效度... 23

（四）、标准参照测验的分数解释... 23

五、常用心理测验... 24

（一）、智力测验... 24

（二）、人格测验... 32

（三）、态度测验... 42

（四）、兴趣测验... 44

（五）、临床测验... 48

（六）、发育量表... 50

六、心理测验的应用... 51

第一章、心理测量的基本理论

一、心理测量的基础

（一）、心理测量的基本概念

测量的定义：依据一定的法则，使用量具对事物特征进行定量描述的过程。

测量对象依据性质分类：确定型、随机型、模糊型（事物的量本身模糊不定，难以获得确定的量）。

测量的基本要素：参照点（绝对参照点和相对参照点）和单位（理想测量单位应有确定的意义、相等的价值，心理测量既无同一单位，也不符合等距要求）。

测量量表：

（二）、心理测量的特征与分类

心理测量的定义：依据一定的心理学理论，使用一定的操作程序，给人的行为和心理属性确定一种数量化的价值。

心理测量的特征：间接性、相对性、客观性（标准化测验）。

心理测量中存在的问题：心理测量都是基于有限的行为样组；测量结果总是受到误差的影响；测量量表缺乏定义清晰的单位；对于任何特质的测量都不存在普遍认同的一种方法；心理特质不能仅以操作定义来界定，还必须说明他与其他特质或可观察现象之间的关系。

心理测验实质上是对行为样本的客观和标准化测量，其应具备四个基本条件：行为样本（代表性样本）、标准化（测验内容标准化、施测条件标准化、评分规则标准化、测验常模标准化）、难度或应答率、信度和效度。

（三）、心理测量的发展历史

冯特证实个体差异的存在，发明了测量思维敏捷性等方面个体差异的工具。

高尔顿首先倡导测验运动，提倡以科学方法测量人格，首次提出“心理测量”和“测验”两个术语。他采用定量研究方法，将统计方法用于对个体差异资料的研究，开创个别差异心理学研究。他还是应用等级评定量表、问卷法和自由联想法的先驱。

此外，卡特尔开展对个别差异的研究，正式使用“心理测验”的术语，被誉为心理测量学的先驱；克雷佩林开展精神病理学研究，最早使用自由联想测验来诊断精神病人；艾宾浩斯开展对记忆的研究；比奈发明第一个智力测验常模量表；伍德沃斯编制第一个现代意义的人格问卷：伍德沃斯个人资料调查表；罗夏发表第一个投射测验：罗夏墨迹测试；西肖尔编制第一套音乐能力测验；宾特纳和派特森编制第一个非文字操作量表：宾特纳-派特森操作测查量表；桑代克发表第一个书法量表。

三国时期刘邵在《人物志》中描述了关于心理测量最早且比较完整的思想体系；中国古代心理与教育测量最早的内容，主要为六艺；两汉时期，考试制度建立，称察举制；隋朝建立科举制度；我国的七巧板、九连环和华容道等是世界上最早的非文字操作测验。

二、经典测量理论

（一）、经典测量理论模型

心理特质：表现在一个人身上所特有的相对稳定的行为方式。

CTT的心理特质可测性假设：凡客观存在的事物都有其数量，凡有数量的事物都可以测量。

真分数：特定心理特质真正水平的值，操作定义为无数次测量结果的平均值。

CTT数学模型：

，

在CTT模型中，假定观察分数与真分数之间存在线性关系，两者差值则为误差，而误差为随机误差，服从均值为零的正态分布。真分数可分为两部分：与测量目的有关的变异和与测量目的无关的变异。

经典测量理论以弱假设为基础，假设容易验证而且多数资料可以满足。但是，其采用的指标依赖于被试样本，从不同被试样本得出的指标难以进行有效比较，而且对各种参数的估计只能在事后进行，使其对测验编制的指导意义有限；能力量表和难度量表不匹配，对能力的估计依赖于项目样本，以一个相同的测量标准误作为每个被试的测量误差指标，忽视了个体差异；忽视被试的反应组型，测验结果难以有效扩展，对未来缺乏预测力；理论假设建立在平行复本测量的概念之上，在实际情境中难以满足，由此使得信度估计不准确。

（二）、测量的信度与效度

1、信度的定义

信度：测量结果的一致性和稳定性程度，其中，一致性是指被试在不同时间使用同一测验，或者在同一时间使用它的等值复本，所得结果相同；稳定性，是指测验结果不随时间和情境的改变而产生变异，保持稳定不变的程度。

A、信度是真分数的变异数与实得分数变异数之比，；

B、信度是真分数与实得分数的相关系数的平方，；

C、信度是一个测验与它的任意一个平行测试的相关系数，。

信度是指一组测验分数或一列测量的特性，而不是个人分数的特性；信度是测量工具所获得结果的可靠性，而非工具本身；真分数的变异不可直接测量，因此信度是一个理论上构想的概念，只能根据一组实得分数做出估计；信度估计完全采用统计方法；每一个信度的估计值，仅指特定方面的一致性，而非一般的一致性。

信度是测量过程中随机误差大小的反映；可以根据信度在不同测验分数之间进行比较；可以用来解释测验分数的意义；提高信度有助于提高统计检验力。

在将原始分数转化为标准分数时，采用差异的标准误进行显著性检验，其公式为：

其中S为相同单位的标准分数的标准差，分别是两个测验的信度系数。

测量的标准误是测量分数误差的标准差，标准误公式：

其中，S为实得分数的标准差，是测量的信度。

2、信度系数的估计；

（1）、重测信度：用同一个量表对同一组被试施测两次所得结果的一致性程度，以两次测试分数的积差相关系数表示，其与测验的时间间隔和测量特质的稳定性密切相关。

误差来源主要包括：心理特质可能在两次测试期间因成熟、教育或发育等因素影响而发生变化，练习效应，保持效应。

使用前提：所测量的心理特质保持稳定，被试没有获得额外的学习或训练；练习和遗忘的效果基本可以互相抵消。

人格测验、运动测验、感觉测验等适宜采用重测信度，能力测验则不宜使用。

（2）、复本信度：两个平行测试测量同一批被试所得结果的一致性程度。可用两个样本数据的积差相关系数衡量。

若两个复本同时连续测试，则称为等值性系数，反映两个复本测验的题目差别带来的变异情况；若间隔一段时间测试，则称为稳定-等值系数，题目的差别、施测时的时间差别都会导致其变动，它是对信度最严格的检验，其值最低。

误差来源包括：非平行测试的两个副本之间的差异，被试的生理状况、情绪波动、动机变化等，测试情境的变化。

使用前提：构造出两份或以上真正平行的测试；被试要有条件接受两个测验。

（3）、分半信度：将一个测试分成对等的两半后，所有被试在这两半上所得分数的一致性程度。可采用难度排序奇偶法、随机安置法和内容匹配法。

斯皮尔曼-布朗公式：（为两个分半测验的相关系数，两个分半测验应严格平行，变异系数相等）；

斯皮尔曼-布朗通式：（为单个测验的信度系数）；

费拉南根公式：，其中分别为两个分半测验的方差和测验总分方差；

卢龙公式：，其中，是两个分半测验分数之差的方差。

分半信度测试在只能测试一次或没有复本的情况下使用。有联系的题目应放在同一半，否则会高估信度；存在任意题或速度测验不宜用分半法；如果测试有多个分量表，应在分量表内部排好顺序，再把各分量表的两半组合起来求相关。

（4）、同质性信度：也称内部一致性系数，是指测验内部所有题目间的一致性程度。

当一个测验具有较高的同质性信度，说明测验主要测试同一心理特质，实测结果就是该特质水平的反映。如果一个测验同质性信度不高，则说明测验结果可能是几种心理特质的综合反映。题目内部的一致性主要受两个方面影响：内容取样，研究对象的异质性。并非所有测验均要求较高的同质性信度，其取决于测验的目的。

A、库德-理查逊公式20（KR20）

其中，k为题目数，为第i题的通过率，为第i题的失败率，为整个测验的总方差。此公式仅适用于记分的测验。

B、库德-理查逊公式21（KR21）

其中，和分别表示题目的平均通过率和失败率，使用条件为：测验题目难度大体相等，测验以对错二分法记分。

C、克龙巴赫系数

指所有被试在第i题上的分数变异。

D、荷伊特信度

（5）、评分者信度

多个评分者给同一批人的答卷进行评分的一致性程度。

A、肯德尔W系数，进行检验；

B、Kappa一致性系数

其中，a、d是不同评价者评价一致的次数。

（6）、信度系数与误差变异的来源

（7）、差异分数的信度

其中，分别代表分数x的信度、分数y的信度和分数x分数y之间的相关系数。由于两个实得分数相减时，原有两个量数的共同成分被抵消，使得差异分数的信度比构成差异的两个分数的信度都低。如果两个测验测量的是完全相同的特质，两者之间差异分数的信度就为零。

（8）、合成分信度

其中，分别代表分测验的数目、各分测验的平均信度和各分测验间的平均相关。通常，合成分信度高于分测验的信度。

（9）、标准参照测验的信度

一致百分比法，PA=（两次均掌握人数+两次均未掌握人数）/总人数

3、信度的影响因素与改进

影响因素：被试因素（团体内部的异质性程度和平均水平），主试因素，评分者因素，施测情境因素，测量工具因素（试题数量、测验难度、试题的同质性程度），两次施测的时间间隔。

提高信度的方法：

I、合理确定测验的长度，题目之间应具有较高的同质性；

II、使题目难度接近正态分布，并控制在中等水平，注意提高试题的区分度；

III、选取恰当的被试，提高测验在各同质性较强的亚团体上的信度；

IV、因素分析和鉴别力分析、衰减校正；

V、减少无关因素的干扰。

斯皮尔曼-布朗预测公式：，其中和分别为期望信度水平和已观察的信度水平。

衰减校正公式：，其中为两个测验的相关系数，和分别为两个测验的信度系数。

4、效度的定义

一个测验或量表实际能测出其所要测的心理特质的程度（操作定义），效度是由总变异中由所测量的特性造成的变异所占的百分比（理论定义，）。

效度是一个相对概念，其只有程度上的差异，而不能非常精准；效度是测量的随机误差和系统误差的综合反映；效度是针对测验结果的有效程度；效度针对特定的测量目的；效度是经验或逻辑上的“真”或“有效”，未必具有必然的因果关系。

5、效度的估计

（1）、内容效度：测验题目对有关内容或行为取样的适当程度，即一个测验实际测到的内容与所要测量的内容之间的吻合程度。其应具备两个条件：要有定义完好的内容范围；测验题目应是所界定的内容范围的代表性取样。

估计内容效度，主要采取专家评定法。它主要应用于成就测验，也应用于部分用于选拔和分类的职业测验，对于能力倾向测验和人格测验有效性较低。

（2）、结构效度：一个测验实际测到所要测量的理论结构或特质的程度，或曰测验分数能够说明心理学理论的某种结构或特质的程度。结构是指用来解释人类行为的理论框架或心理特质，是心理学中抽象的概念、特性或变量。

结构效度具有以下特点：结构效度的大小取决于事先假设的心理特质理论；结构效度有时很难获得；结构效度没有单一指标，由各方面的证据积累起来进行评价。具体方法包括：

A、测验内方法：分析测验的内容效度，分析被试对题目反映的特点，计算测验的同质性信度。

B、测验间方法：相容效度、区分效度、因素分析（找出影响测验的共同因素，测验分数总变异来自有关因素的比例即是该测验结构效度的指标。）

C、考察测验的效标关联效度：根据效标把被试分组，考察其得分差异；根据测验得分把被试分组，考察其所测特质的差异。

D、多种特质-多种方法矩阵：若有多种特质接受多种方法的测量，就可以分别计算出任意两种方法测量同一特质的相关和测量不同特质的相关，以及任意两种特质接受同一种方法和不同方法的相关，以这些相关系数为元素构成一个矩阵。通过评估会聚效度（测验分数与不同方法测量相同特质的测验分数呈高相关）和区分效度（测验分数与测量不同特质的测验分数呈低相关）对效度进行估计。

（3）、效标关联效度：测验对处于特定情境的个体的行为进行估计的有效性。

效标：被估计的行为，也即独立于测验并可以从实践中直接获得的实验者感兴趣的行为。根据效标效度资料搜集的时间差异，可分为同时效度和预测效度。同时效度指测验分数与效标资料同时收集，预测效度指先获得测验分数，一定时间后再收集效标资料。效标测量要求：有效性、可靠性、客观性、实用性。

效标估计的方法：

I、相关法：计算测验分数与效标测量之间的相关系数；

II、区分法：根据效标测验的成绩将被试分为两组，然后分析两组被试在测验分数上的差异；

III、命中率：依据测验取舍时，评估决策的正确命中率和否定率；

IV、基础率、灵敏度和确认度：基础率是指符合筛选要求的群体在整个人群总体中所占的比率，灵敏度是指符合要求的人能被测验鉴别出来的比率，确认度是指不符合要求的人能被测验正确拒绝的比率。

6、效度的影响因素与改进

影响效度的因素：测量信度、测量长度、被试特性、效标性质、干涉变量。

测量长度与效度的关系为：

其中，是测验x增长到原来n倍后，新测验与效标（y）的相关（效度系数）；n为测验增长的倍数，为原测验的效度系数，为原测验的信度系数。

测验与效标测量的关系为：

其中，为两个测验之间最大可能相关，和分别是两个测验的信度，为两个测验的实测相关。

提高测量效度的方法：提高信度，控制无关变量。

7、信度和效度的关系。

信度高是效度高的必要而非充分条件，。

（三）、心理测量的误差

1、测量误差的定义

测量过程中由与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。包括随机误差和系统误差，系统误差只影响测量的准确性，不影响测量的稳定性；随机误差既影响稳定性又影响准确性。

2、测量误差的来源及控制

A、测量工具

B、测量对象：测验焦虑，测验经验，学习、发展和教育，应试动机，练习效应，反应倾向，生理因素。

C、测量过程：测试环境，测试时间，意外干扰；

D、主试因素；

E、评分计分。

3、测量误差的估计。

同经典测量理论模型。

（四）、心理测验的项目分析

项目分析包括定性分析和定量分析，定性分析包括考虑内容效度、题目编写的恰当性和有效性等，重点在于分析测试题目的内容和形式；定量分析主要是采用统计方法来分析试题的品质。

1、常模参照测验的定量分析

（1）、难度

以通过率衡量：；两端分组法：

在非二分法记分的项目中，常采用以下公式：

，其中k为选项的数目，r为答对的题目数，w为答错的题目数。

难度不具有等距性质，会对测验分数的分布形态、信度、区分度产生影响。

（2）、区分度

测验项目对被试心理品质水平差异的区分能力或鉴别能力。区分度可以用个别项目与测验总分的一致性为依据进行相关计算，称为内部一致性分析，适用于同质性测验，即各个项目都是为测量同一心理特质而设的测验。对于异质性测验，即测验上的不同项目指向测量不同的心理特质，则需要用被试的反应与外在效标的相关来计算，称为项目效度分析。

A、项目鉴别指数法：

B、相关法（以项目分数与效标分数或测验总分的相关作为区分度指标，具体包括二列相关、点二列相关和Ф相关）

C、方差法(特定项目得分的方差)

难度越接近0.5，项目潜在区分度越大，所以，在利用项目分析选择试题时，应扩大项目难度分布，增加梯度，使整个测验的难度呈正态分布，同时使整体难度保持在0.5左右。

2、标准参照测验的定量分析

主要计算区分度指数（同常模参照测验的鉴别指数）和灵敏度指数（灵敏度指数=（后测通过的人数-前测通过的人数）/总人数）。

3、项目的综合分析和筛选。

区分度通常应大于0.3；难度在0.35-0.65为宜，0.5左右最佳。

难度和区分度主要针对效标参照测验和标准参照测验，对于测量人格、兴趣等特质的测验，难度并不是主要的控制项目。

测验中个别项目对不同团体的不公平现象称为项目偏差，在测验编制时必须对试题进行项目功能差异分析。

三、项目反应理论

（一）、单维性假设与项目特征曲线

单维性假设：作为测量对象的一个项目或测验中的各个项目所测量的是同一种能力或特质，此种单一能力或潜在特质包含在全部测验项目中，能用一个数字变数加以说明和解释。

局部独立性假设：被试在测验项目上的反应只与自身能力和项目的性质相关，而与他人或其自身在其他项目上的反应无关。

项目特征曲线假设：被试对测验项目所作反应的概率遵循一定的函数关系，此关系可以用项目特征曲线表示出来。

项目特征曲线（ICC）：用能稳定反映被试水平的潜在特质变量取代卷面总分作为回归曲线的自变量的曲线。反映特定测试项目的正确反应概率与该项目所对应的能力或特质水平之间的一种函数关系。

项目特征曲线是一条项目答对概率随能力水平值提高而逐渐单调上升的点对称曲线。首先，曲线的对称点是曲线的拐点，它在横轴上的取值为b（通过能力为50%的能力水平，表示项目难度），它是曲线的位置参数，拐点位置越向右移，说明项目越难，即要在项目上取得50%的正确率，所需特质水平越高；其次，过拐点作曲线的切线，当切线斜率增大时，曲线变得陡峭，此时项目区分被试的能力越强，反之亦然，因此，拐点曲线斜率代表的a值，可作为项目的区分度参数；最后，曲线下尾端渐近线在纵轴上的高度c（猜测度），显示能力水平很低的被试可能答对项目的概率。

（二）、单参数模型、双参数模型和三参数模型

I、单参数模型

只包含难度，数学公式为：

II、双参数模型

包含难度和鉴别度，数学公式为：

III、三参数模型

包含难度、鉴别度、猜测度，数学公式为：（Logistic函数）

（三）、项目信息函数与测验信息函数

项目反应理论提出信息函数的概念，它是一个关于项目质量、包含难度和区分度等各方面作用的统一的综合指标。一个试题提供的信息函数越大，测试的误差越小，试题的信息函数与试题的区分度成反比，与伪随机水平成反比，与成反比。信息函数用于单个项目时，称为项目信息函数，能具体指明质量特定的各个项目对不同能力的被试可提供信息量的水平，和测验对被试能力水平的估计的测量误差水平，从而提出测验编制的指导原则。由于信息函数的可加性，各项目信息函数之和就是测验信息函数，反映整个测验在评价不同被试特质水平时的信息贡献。

四、概化理论

概化理论是关于行为测量的可信赖度的统计学理论，其关注测验分数的概括性，也就是测验分数能够推论的范围。由于每次测试实施的条件总会存在一定差异，因此各次测验的实得数之间必然存在一定的误差。如果测验误差较大，以实得分数为依据所做推论的可信度就会降低。而且测量误差越大，测验得分的可信赖度就越低。可信赖度是指一个人在一次测量中获得的实得分数，推广应用到该被试在所有可能条件下获得的平均分数时，推论或概括化的准确程度。

概化理论的主要特点在于其将研究范围界定为一个可接受的观测域，而将每一次测量结果视为该领域内的一个随机样本。它认为，测验的目的不是获得特定条件下的测验结果，而是以此来推论在更广泛条件下可能获得的测量结果。概化理论通过系统地分析实得分数和多种误差来研究此类问题。它将影响总体估计的每个因素称为一个测量面，在可接受的观测域中包含的测量面数量越多，其误差估计过程就越复杂。

（一）、方差分量的估计

概化理论运用实验设计与方差分析技术，对总变异进行分解。其将误差变异分为多个成分，每个成分对应一个特定的误差来源，通过分析指出测验分数在向超出现有研究条件之外推广时的概括能力。同时，也可为采取控制措施提供指引。

（二）、概化系数与可靠性指数

随机误差由测量目标的稳定性和各类交互作用引起，系统误差则由各个测量侧面引起。

（三）、概化研究（G研究）与决策研究（D研究）

概化研究中，研究者首先考虑在测量过程中有哪些因素影响被试的测量结果，相关因素称为研究层面。研究者在一次研究中，其所选择并加以考察的各个因素和条件就构成该研究可接受的观测域。概化研究的目的就是定量的估计测量目标的方差和各个测量侧面所产生的测量误差方差。它采用方差分量分析法，将总体方差分为三类：测量目标主效应方差、测量侧面主效应方差、各类交互作用方差。

在概化研究阶段，首先进行测验设计。在测验设计时首先要确定测量目标、选择测量侧面、确定各测量侧面的水平并明确观察全域；然后进行测验方法的设计；之后根据测量设计收集样本资料；最后对资料进行方差分析，获得测量目标个体差异的期望均方、各测量侧面的不同水平间差异的期望均方以及各测量侧面对测量目标的交互干扰程度的期望均方。严格讲，概化研究只是测验编制过程中的准备性研究，相当于传统方法中的预测与量化分析。

决策研究，是利用概化研究的结果，在原来测验设计的可推论全域内，分析比较各种可能的测验方案，根据分析结果，结合可能的实施条件选择能够有效控制误差、提高信度而且具有可行性的实际测验方案。可能的测验方案是指在原设计方案采集的资料范围内，通过固定一个或几个测量侧面、改变测量面的水平、改变测量资料的收集方法（将交叉设计的数据部分或全部改为混合设计或嵌套设计）等来改变原来的测量情境关系，从而形成新的不同的测量情境关系。

第二章、心理测验及其应用

一、心理测验的编制技术

（一）、测验编制的主要原则

1、基本原则

信度好，效度高，难度适中，区分度强。

2、具体原则

A、针对题目内容的要求

试题符合测验目的，内容取样具有代表性，试题之间彼此独立。

B、针对题目语言的要求

文句简明扼要，意义明确肯定。

C、针对题目表达的要求

避免诱导和暗示答案，避免涉及社会禁忌和个人隐私，避免使用主观情绪化字句和问题。

D、针对题目理解的要求

答案正确可靠，格式明确具体，考虑被试的知识和能力范围。

（二）、心理测验编制的基本程序

1、测验编制的准备阶段

确定测验目的，界定测量对象，界定测验全域。

2、编制测验计划阶段

界定构念和要测量的内容，编制双向细目表；选择测验形式；规定施测形式；确定评分方法。

3、测验的正式编制阶段

产生测题：搜集资料，选择测题形式，编写修订测题；

合成测验：预测和复核（试测），项目选择（难度和区分度）和编排；

编制等值复本。

4、测验编制的完善阶段

测验标准化：内容标准化，测试过程标准化，评分标准化，分数解释标准化，建立测验分数的临界值；

测验性能评估：交叉效度检验，界定不公正的区分，检验效度等值；

编制测验指导手册。

（三）、测验目标与命题双向细目表

（四）、题目编制技术

（五）、测验合成与标准化

1、测验合成

（1）、测验项目的选择

（2）、测验项目的编排

按题目类型组合、按题目测量内容组合、按难度组合：并列直进式（分测验内由易到难排列），混合螺旋式（将相同难度水平的不同类型和性质的题目组合在一起，再依难度排列），直接递增式（所有题目由易到难排列），混合式（随机排列）。

（3）、测验复本的编写

2、测验标准化

（六）、测验的鉴定与手册编写

1、测验的鉴定：信度和效度。

2、测验手册的编写

（七）、测验等值技术

1、等值的概念和种类

测验等值就是通过对考核同一种心理品质的多个测验做出测验分数系数的转换，进而使得这些不同测验的分数之间具有可比性。

根据等值对象不同，测验等值可分为测验分数等值和项目参数等值；

根据等值的应用性质不同，测验等值可分为横向等值和纵向（或垂直）等值，其中横向等值是在测验的平行版本之间建立联系，纵向等值多用于用一组水平不同的测验来考察考生的发展水平，以建立发展量表，此类在不同水平的测验之间建立联系的过程被称为纵向等值。

根据在等值时以何种理论作为指导，等值可分为经典测验理论等值和项目反应理论等值。

2、等值的条件和性质

并非任意两个测验都可以进行等值，要进行等值的测验必须是测量同一心理特质或能力，而且信度需要相等。具体而言，测验等值的性质和条件主要包括以下几点：

A、公平性，如果两个或多个测验可以进行等值，则以其中任何一个测验作为基础来进行等值转换，结果均一致。

B、对称性，等值转换具有双向关系。

C、样本不变性，等值处理的结果不应受到进行等值处理所采用的考生样本组的影响。

3、等值的理论与方法

（1）、经典测验理论等值

A、平均数等值

两个不同版本的测试在短时间内施测于同一组被试，可以认为被试特质在此阶段内保持稳定，在两个测验中的真分数应具有相同的平均数。

B、线性等值

它是指两个不同形式上转换分数的平均数和标准差相同，由此：

整理后可得：

C、等百分位等值

如果两个测验分数相对于各自样本组的百分等级相同，则认为两个分数等值。类似的方法还包括标准分数等值法。

百分等级可对原始分数进行非线性转换，定义直观，容易理解。但是其分数转换关系的求得依赖于所选用的样本，当抽样样本改变后，具体的等值关系就会发生变化，难以满足唯一性的要求。同时，百分位等值法通常要采用平滑化处理方法，会增加等值误差。

（2）、等值设计与处理

等值数据资料的收集方法可分为以“人”为媒介的共同组等值设计和以“题目”为媒介的共同题等值设计。共同组等值设计让同一组人接受不同的测验版本，共同题等值设计在不同测验版本中含有共同的题目。

二、心理测验的施测

（一）、测验的设计

测验选择时，应注意所选测验必须符合测量的目的和对象，符合测量学要求（功效性（测验能否全面、清晰的反映要评定的内容特征）、敏感性、简便性、科学性、时效性），同时要考虑测验的经济性、文化差异和可得性等问题。

（二）、施测的程序和步骤

A、事先告知被试，确保被试知情同意的权利；主试自身最好准备。

B、实施标准化的施测程序（标准化指导语、标准时限、控制测验的环境条件、评分计分的标准化）。

C、评分计分

D、分数解释

解释分数的原则包括：应参考其他资料；必须考虑测验的效度；测验分数应是一个范围；不同测验分数不能直接比较；测验结果原则上不能告诉除被试者本人以外的人员；解释分数时的态度应谨慎小心，防止对被试造成不利影响。

报告测验结果时应注意：要使用当事人可以理解的语言；告知被试测验的含义、功能、目的和可信度；使被试理解分数只是一个估计，可能有误差；考虑分数给被试带来的心理影响。

三、测验常模

（一）、常模与常模团体

常模团体是具有某种共同特征的人所组成的一个群体或群体的一个样本，常模团体的分数分布，就是常模。常模样本应具有代表性和时效性。

（二）、分数转换与合成

分数转化：按一定规则将原始分数转化为导出分数的过程称为分数转化。

导出分数：在原始分数转换的基础上，按照一定的规则，经过统计处理后获得的具有一定参考点和单位，可以相互比较的分数。常见导出分数包括：

百分等级：百分位数、百分位区间；

标准分数：线性转换的标准分数（Z分数）、正态转换的标准分数（T分数、标准九分数（4、7、12、17、20））；

商数：智力商数（比率智商、离差智商）、教育商数（教育年龄/实际年龄）、成就商数（教育年龄/心理年龄）。

（三）、常模的编制

1、确定测验将用于哪一个群体，选定最基本的计量，决定抽样误差的允许界限，在此基础上设计具体的抽样方法，并对该群体进行抽样，得到常模团体；

2、对常模团体进行施测，并获得团体成员的测验分数及分数分布；

3、确定常模分数的类型，制作常模分数转换表，同时给出抽样常模团体的书面说明和常模分数的解释指南。

（四）、几种常用的常模

1、组内常模和发展常模

在个体发展历程中，达到一定年龄时所表现的共同性与代表性的行为，称为该年龄组的发展常模。发展常模的具体形式主要包括智力年龄、年级当量和发展顺序量表。

团体内常模是根据团体分数计算得出的常模，将个人分数与团体常模对照时，可以了解个人在团体中的相对位置。

2、分数合成

临床诊断，加权求和，多重回归，连续栅栏。

四、标准参照测验

（一）、标准参照测验的定义与作用

在施测前制定标准，在施测后根据预定标准来核对测验分数，从而判定是否达到预定标准的测验。

（二）、标准参照测验的题目分析

1、内容范围的确定；

2、测验项目的内容效度分析-专家评价法；

3、测验项目的难度和区分度；

标准参照测验的预测方法主要包括：前测-后测方法，已接受教学组-未接受教学组方法，对照组方法（已掌握组/未掌握组）。

（三）、标准参照测验的信度与效度

1、标准参照测验的信度及其估计

（1）、分类一致性信度

计算两次都被分到一类中的被试占总被试人数的比例。

（2）、方差分析法-荷伊特信度

2、标准参照测验的效度及其估计

（1）、内容效度

（2）、效度关联效标

决策效度：预测源测验和效标测验中击中和正确否定的比例之和。

（四）、标准参照测验的分数解释

标准参照测验对比的标准主要包括两个：对材料数量掌握的程度和外在效标，前者称为内容参照分数，后者称为结果参照分数。

在解释内容参照测验时，主要包括两个步骤：确定测验所包含的知识或技能的范围，编制能够报告测验成绩的量表。衡量内容参照分数的指标包括掌握分数、正确百分比、内容标准分数（内容分数与常模分数结合）和等级评定量表。

结果参照也称效标参照，是用效标行为的水准来表示分数。获得结果参照分数应有两个条件：测验分数必须与一个重要的效标具有高相关，即要有效标证据；要有一个能把测验分数和效标成绩之间的关系结合起来的方法，即要有转换分数的图表。表示结果参照分数的方法包括期望结果概率（获得特定测验分数的人得到每种效标的百分比）和预期的效标分数（获得不同测验分数的人可能获得的预期效标分数）。

在标准参照测验中，临界分数的确定具有重要影响，其确定方法包括：

A、专家判定法：Nedelsky法（估计排除错误选项的能力计算正确回答的可能性，进而估计分界点）、Angoff法（估计正确回答的可能性，之后估计分界点）。

B、效标组预测法：临界组法、对照组法（两组被试原始分数分布曲线的交叉点即为测验分数的分界点）。

五、常用心理测验

（一）、智力测验

1、成就测验

对个体在一个学习阶段或训练之后，知识、技能发展水平的测定。

A、韦氏个别成就测验

它是一套综合性成就测验，主要用于评估儿童和青少年学识增长和学习技能的发展，也可作为学习障碍的诊断工具。其有两个特点：与韦克斯勒智力量表共用常模，适合学习障碍的诊断；内容涵盖几乎全部学习障碍领域，特别适用于残疾儿童的教育安置。它涵盖阅读、数学、语言和写作四个领域，原始分数可转换为多种导出分数。

B、大都会成就测验

它从幼儿园到高中均可使用，包括调查成套测验、诊断成套测验和一个附加的写作测验，可用于调查学生的教育成长，评估课程和教育方法的有效性，也可用于不同学校教学质量的比较和诊断学生不同学科的强弱。

C、斯坦福成就系列测验

它是最早的综合成就测验，目的是测量“公认为中、小学课程所达到的结果”，其最主要的一个心理测量技术是等值，包括横向等值和纵向等值，它使用相同的学生为锚来联接不同的试卷。

D、学业评估测验（SAT）

2、智力测验

（1）、个体智力测验：

A、比奈系列量表

比内-西蒙量表是世界上第一个智力量表，编制原则：年龄差异、一般智力。

斯坦福-比内量表使用智力商数来表示智力水平，1960年，将比率智商改为离差智商。

斯坦福-比奈量表有多个版本，1916年为第一版。1986年，桑代克、哈根等在第四版中引入卡特尔流体智力和晶体智力的概念，以及桑代克和哈根编制的认知能力测验，构成认知能力的理论框架。20##年的第五版，在卡特尔和斯滕伯格等人智力理论的基础上，依据现代测量理论对测验进行完善。在第五版中，测量五个智力一般因素，分别是流体推理、数量推理、空间视觉过程、工作记忆和知识、，每个分测验均通过言语和非言语两种形式反映。10个分测验的平均数为10，标准差为3。在分测验的基础上，可以得到言语智力分数、非言语智力分数和智力总分。合成分数的平均数为100，标准差为15。

B、韦克斯勒智力测验

韦克斯勒系列智力量表通常包含言语量表和操作量表两部分，言语量表和操作量表交替进行，每个分测验原始分数各不相同，最高为90，最低为18，转化为标准分后，每个分测验标准分为10，标准差为3，其中的11个分量表分数可以进行合并，得到言语总分、操作总分和全量表总分，再使用常模量表，可以得到言语智商、操作智商和全量表智商，它们平均分均为100，标准差都为15。

在临床方面，可将其成绩在病理情况下不能保持原来水平的测验称为DH测验，反之则称为H测验，DH测验成绩总分与H测验成绩总分之比就能够表示脑器质性损害引起的神经系统功能衰退，此比例常用来诊断抑郁症、精神分裂症、神经症和其他人格障碍，以及老年智力衰退。

韦克斯勒智力量表与比奈系列量表相比，它使用点量表而非年龄量表，包含操作量表。通过使用点量表，为每个测题赋予分值，就可以将特定内容的试题进行归集，从而产生每个领域的分数。在操作量表方面，因均在同一样本中进行了标准化，并且两个量表的结果均以对等的单位表示，韦克斯勒量表实现了对个体的言语和非言语能力进行直接比较的可能。它将多个量表在同一样本上进行标准化的程序，也同样成为现代心理测验的典范。

韦克斯勒智力量表可进行言语智商和操作智商的构型分析，通过二者的大小关系和差异程度决定其意义。同时，可以通过比较各分测验与言语量表或操作量表平均分的差异，以及与全量表平均分的差异，进行强点（高于平均分3分）和弱点（低于平均分3分）分析。

第三版成人智力量表包括14个分测验，其中有7个言语量表（常识、数字广度、词汇、算术、理解、类同和字母-数字排序），7个操作量表（填图、图片排列、积木图案、物体拼凑、数字符号、符号搜索和矩阵推理）。其中11个分测验用于计算全量表智商分数、言语智商分数和操作智商分数。量表适用年龄段为16-74岁，分为16-17，18-19，20-24，25-34，35-44，45-54，55-64，65-79，70-74共9个年龄组，各年龄组根据性别、地域、教育水平等因素分层抽样。信度按照年龄组计算，除数字广度和数字符号采用复本信度外，其余分测验均采用分半信度同时使用斯皮尔曼-布朗公式进行校正。

韦克斯勒儿童量表是目前世界上使用最广泛的儿童智力量表，共有12个分测验，5个言语测验（常识、类同、算术、词汇、理解），5个操作测验（填图、图片排列、积木图案、拼图、译码），2个备用测验（背数和迷津）。适用于6-16岁的儿童，从6岁0个月到16岁11个月，每4个月为一个年龄组，分别建立了常模表。第四版鉴于对区分言语与操作两类量表有效性的怀疑，不再划分这两个领域，测验可以得到全量表智商和言语理解（常识、类同、词汇、理解）、知觉组织（填图、排列、积木、拼配）、注意力集中或克服分心（算术、背数）、加工速度（译码、符号搜索）等4个合成分数。

韦克斯勒学龄前和学龄初期儿童智力量表适用于3-7岁的儿童，幼儿量表共11个分测验，其中3个分测验（句子测验、动物房测验、几何图形测验）是为适应幼儿特点专门编制，其余8个（常识、理解、词汇、算术、类同、填图、迷津、积木图案）则与儿童智力量表相同，只是内容进行了替换。它分为两个年龄段，2.5-4岁的儿童只接受四个核心分测验：词汇、常识、积木图案和物体拼配；4-7岁的儿童则接受全部测验。

C、考夫曼量表

考夫曼儿童成套评价测验用于评价2.5-12.5岁儿童的智力加工，它把测验重点放在信息加工上，在测验中区分同时性加工和继时性加工，同时加工包含7个分测验，要求被试从总体上观察空间和视知觉内容，并对内容进行综合和组织。继时性加工包含3个分测验，要求被试进行系列或时间的排列。此外，K-ABC还包含一个成就量表，包含6个分测验，评价被试在阅读、算数、词汇和尝试等方面的能力。量表最后可以得到四个综合分数：同时性加工分数、继时性加工分数、心理加工组合分数（两种加工的联合分数）和成就分数，每种综合分数都是标准分数形式，平均分均为100，标准差为15。

考夫曼儿童成套评价测验不易产生文化偏差，试图区分出流体智力和晶体智力，同时将流体智力进一步分解为同时性加工和继时性加工，颇具特色。

考夫曼青少年和成人智力测验（KAIT）适用于11岁以上青少年及成人智力水平，它由两个分量表组成，晶体量表测量学校教育和文化适应中获得的概念，流体量表测量被试解决新问题的能力，此外，KAIT还包含一个简短的心理状况测验，用来评定认知损伤严重、不能完整参加成套测验的被试的注意和定向。

KAIT在选择测验题目时，要求问题不仅能体现皮亚杰形式运算思维中典型的问题解决程序，而且要表现鲁利亚和高尔顿提出的成人思维所特有的计划评价机能，因此KAIT的题目比较有趣和特别，比如著名人像、神秘代码、双重意义等。

D、伍德考克-约翰逊认知能力测验修订版

卡特尔-霍恩-卡罗尔理论（CHC）是编制WJ-R的理论依据，CHC理论模型中7个能力组成了WJ-R COG认知能力测验量表的基础。

WJ-R COG仅供受培训的学校、诊所或教育心理学家使用，此测验总共有21个分测验，根据诊断对象的问题和评估需要选择使用。WJ-R COG分为标准成套测验和扩大成套测验。标准成套测验由7个分测验组成：流体推理能力、理解-知识能力、视觉-空间能力、听觉加工能力、加工速度、短时记忆能力、长时提取能力，每个分测验代表一个CHC能力因素，7项分测验（代表个体整体的智力能力）产生一个标准认知能力因素分数（IQ分数）。早期发展量表用于测验学龄前儿童（2-6岁），由5个标准分测验组成。其他7项分测验组成补充成套测验，每项分测验也代表一个CHC能力因素。由标准成套测验和补充成套测验组成的扩大成套测验提供了一个扩大的主要认知能力（BCA）因素分数（IQ）和9个CHC认知因素中的7个因素分数。

WJ-R COG测验项目全面，使用简单，计分简单，整个测验信度较高，特别适合判断能力倾向、成就差异测验、相互作用的成就差异测验，以及可以使用交叉群集的方法评估。

E、DN认知评价系统

由戴斯和纳格里瑞根据PASS智力模型编制，包括四个分量表，每个分量表各自包含3组不同的项目，具体包括：

计划性量表：视觉搜索、规则联系、数字匹配，

注意性量表：表现的注意、找数、听觉选择注意，

同时性加工量表：图形记忆、矩阵问题、同时性的言语加工，

继时性加工量表：句子重复、回答短句、字词回忆。

CAS适用于5-17岁的个体，总平均分为100，标准差为15。

（2）、团体测验

A、陆军测验

陆军甲种测验是世界上第一个团体智力测验，由推孟的学生奥蒂斯编制，它包括8个分测验，陆军乙种测验包括7个分测验，属于非文字测验，主要用于母语非英语人员和文盲，两个测验的相关达到0.8。

B、瑞文推理测验

瑞文推理测验目标是测验智力的G因素，它是非文字型的图形测验，分为三个水平：瑞文标准推理测验，5个系列60各项目，适用于8岁以上儿童，属于中等水平的瑞文测验；瑞文彩图推理测验，3个系列36个项目，适用于幼儿和智力水平低于平均水平的人，属于最低水平的测验；瑞文高级推理测验，适合于高智力成人，是最高水平的瑞文推理测验。

标准瑞文推理测验分为A、B、C、D、E5组，5组题目难度逐渐上升，每组内部题目难度也是逐渐上升。A组题目主要测试被试的知觉辨认、图形比较等能力，B组题目主要测试类同比较、图形组合等方面的能力，C组题目主要考察比较、推理、图形组合方面的能力，D组题目主要测试系列关系、图形组合方面的能力，E组题目主要测试组合、互换等抽象能力。

瑞文推理测验的优点在于测试对象不受文化、种族和语言等条件的限制，适用年龄广泛，可以个别施测也可以集体施测，使用方便，省时省力，结果以百分等级等常模解释，直观易懂，应用广泛。

C、认知能力测验

由桑代克和哈根编制，包含言语分量表（语言分类、句子完成、言语类别）、非言语分量表（图形分类、图形类比、图形分析）和数量分量表（数量关系、数字序列、等式建立）。所有题目均由易到难排列，除图形分析采用判断题形式，其他均为多选题，可转换为多种导出分数（标准分中平均分为100，标准差为16）。

D、文化公平智力测验

CFIT以卡特尔关于流体智力和晶体智力的理论为依据，目的是将个体的一般能力从学习教育和社会背景中分离出来，获得能力中最稳定、最核心的部分。它是非文字测验，包含3个不同水平的量表，每个量表又有A、B两个复本。量表1适用于4-8岁儿童和智力落后的成人，量表2适用于8-14岁的儿童和中等智力水平的成人，量表3适用于大学生等中等智力水平以上的成年被试。每个量表均包含4个分测验：系列推理、方阵推理、类同概括和定性分析。测验全部使用图形材料，主要考察被试从事物中发现联系和规律的能力。原始分数可转化为平均数为100，标准差为16的标准分数。

E、画人智力测验

画人测验由古德纳夫提出，要求儿童在6分钟内划一个全身的人像，评分系统包含14类，分别是头、发、眼、耳、鼻、口、颈、躯干、上肢、手、下肢、脚、连接和服饰，除连接外，其他各类均按有无、比例、细节和奖励四个维度来评分。

（3）、学习潜能评估-一种基于动态智力观的能力测验

传统测验对智力的评估均是针对个体已经具有的智力水平，其作用限于筛选、选拔或者诊断个体既有的能力状况，而对被试经过学习后能力发展状况缺乏预测力。同时，传统智力测验在实际应用中多为结果定向，诊断者仅考虑最终的IQ分数，而不考察被试是否有获得所测知识和技能的同等机会，导致文化上的不公平。

为此，许多研究者提出要测量个体获得特定能力的能力，或者说个体进行学习的能力。为此，必须对智力进行一种经历时间的研究，除对现有智力水平的评估外，还要给予个体同等机会的训练，通过复测和初测的比较，对个体的学习能力进行评估。主要工具包括福尔斯太因的学习潜能评估工具（强调中介学习）和古斯科等人的学习潜能推理量表。

3、能力倾向测验

能力倾向是一个人潜在的能力，在予以训练后，容易使个人获得一定知识或技能。能力倾向测验涉及广泛的学习经验，是在一定遗传素质基础上各种经验积累的结果。

（1）、多重能力倾向测验

多重能力倾向测验是由测量不同能力的分测验组成的综合测验，用于了解人的潜能方向，典型的多重能力倾向测验包括4-9个分测验，各分测验测量不同的能力倾向。它的常模通常根据一个标准化团体建立，因此测验得到的各分测验分数可以直接相互比较，从而判断一个人的优势和劣势。它在测验时间和材料上都比较经济，在实施上可以单独实施某个分测验，也可以把分测验结合起来使用。

A、区分能力倾向测验

DAP由本纳特、西肖尔和韦斯曼提出，主要用于美国8-12年级学生的职业咨询和教育咨询。它包括8个分测验：言语推理、数字能力、抽象推理、文书速度和准确性、机械推理、空间关系、拼写、语言运用。各分测验可得一个分数，其中言语推理和数字能力两项相加，可以作为学业能力倾向的指标。

B、一般能力倾向成套测验

GATB由美国联邦劳工部编制，主要用于职业咨询，也可以为中学生的专业选择和求职提供帮助。它包括12个分测验，其中8个纸笔测验，4个仪器测验，组合可以确定9种能力倾向，主要是一般学习能力、言语能力、数理能力、空间能力、形状知觉、书写知觉、运动协调、手指灵活度、手部敏感性。其原始分数可以转化为百分等级，也可以转化为标准分（平均分为100，标准差为20）。通过分析各个职业的GATB分数，确定每个职业团体GATB的分数特点，从而绘制出每种职业的能力剖析图（职业能力模型，OAP），从中可以确定每种职业临界的GATB分数。对于个体而言，可以将得分转换为标准分，与OAP比较，从而找到个体可能适合的职业。

C、弗拉纳根能力倾向分类测验

它包含14个分测验，具体是：检验测验、代号测验、记忆测验、精确性测验、装配测验、坐标测验、协调能力测验、判断和理解能力测验、算术测验、图样模仿能力测验、组成测验、表格阅读能力测验、机械测验、表达能力测验。

（2）、特殊能力倾向测验

A、心理运动能力测验

它是最早建构起来的特殊能力测验，主要用于预测特定职业和行业的工作绩效。

斯特龙伯格敏捷测验主要用于全面测试手指、手掌和手臂运动速度和准确性，测验过程中，要求被试将54张三种颜色的小图片按照规定的顺序尽快摆放在一起。与之类似的还有明尼苏达操作速度测验。

普度钉板测验主要测查被试手-手指-手臂的灵活性，在测试第一部分，被试分别用左手、右手和双手将钉子放入一块木板的小洞中；在测试第二部分，被试要将钉子放入小洞，之后在上面放上垫圈和铜圈。

本纳特手动工具敏捷性测试将手指敏捷性和手臂与手的整体运动结合起来测试，主要任务是要求被试从一个框架右边的三种不同型号的螺丝钉上拧下12个螺帽，然后重新装配框架左边的螺帽和螺丝钉。

B、文书能力倾向测验

一般文书测验是一种综合的文书能力测试，包含9个分测验，主要分三种能力计分：文书速度和准确性、数字能力和言语流畅性。

明尼苏达文书测验主要用于选拔要求知觉操作和操作符号能力的职业人员，分数目比较和姓名比较两个部分。

翁德里克人事测试是应用于人事与选拔中的智力测验，是一个多项选择测验，涉及语言、数学、图形和分析等方面。

ZHC国家职业汉语能力测试重点考察应考者在工作场所和职业情境中实际运用语言的能力。

C、机械能力倾向测验

明尼苏达空间关系测验，要求被试将零散的木板插入A板和B板，或者C板和D板。

本纳特机械理解测验，主要测量在实际情境中理解机械关系和物理定律的能力，有两个复本，S式和T式。

D、音乐能力倾向测验

西肖尔音乐才能测验是第一个标准化的音乐能力测验，其目的在于测量不受训练影响的基本音乐能力，适用于小学生到成人被试，此外，他还发明了音高镜和听力计。测验主要测量以下内容：音调辨别力、音量辨别力、时间音程辨别力、节奏判断力、音色判断力、音调记忆力。

戈登音乐能力倾向测验以真正音乐题材作为材料，要求被试分别以旋律、和声、速度和节拍为依据，判断两小段音乐是否相同，之后在进行三个分测验：T测验，考察被试的音调形象（旋律、和声），方法是使用两种演奏方法，让被试判断异同；R测试，考察被试的节奏形象（速度、节拍）；S测试，考察被试的音乐感受力（乐句、对比和风格），要求被试判断两段音乐哪一个更有魅力。

E、美术能力倾向测验

梅尔美术判断力测验主要考察被试的审美能力，即对美术作品的鉴赏能力，包括艺术判断（比较杰作复制品和修改版本）和审美知觉（对一件艺术品的四种不同形式进行排序）两个分测验。

5、创造力测验

A、吉尔福特发散思维测验（南加利福尼亚测验、DTTCU）

根据吉尔福特智力三维模型编制（内容、操作、产物），主要测量发散思维的能力，吉尔福特认为，发散思维是思维向不同方向发散的能力，它不受给定事实的局限，使得个体在解决问题时能产生各种不同解决问题的思路和方法。其包括14个分测验，10个使用言语反应，4个使用图形内容，从流畅性、灵活性和独特性三个维度进行评价，适用于初中以上文化水平的被试。

B、托伦斯创造性思维测验

TTCT主要包含言语、图形和声音三个部分，共分12个分测验，每个部分均有两个复本，适用于幼儿到成人。言语测验主要考察被试思维的流畅性、变通性和创造性；画图测验主要测查被试思维的流畅性、灵活性、独创性和精确性；声音测验主要考察被试思维的独特性和新异性。

C、芝加哥大学创造力测验

其测量小学到高中生的创造性，包括5个分测验：词语联想、用途测验、隐蔽图形、完成寓言、组成问题。

D、威廉斯创造力倾向测验

其共有50题，包括好奇性、想象力、冒险性、挑战性四项，具有人格测验的性质。

（二）、人格测验

1、人格测验的编制方法

A、逻辑分析法

由专家依据特定人格理论，确定要测量的特质，用逻辑分析的方法编写和选择能测验这些特质的题目，最后组卷编排成问卷。爱德华个人偏好量表、詹金斯活动调查表、显性焦虑量表的编制采取逻辑分析法。

B、因素分析法

对标准化大样本施测大量题目，然后通过被试在各题上的得分进行因素分析得出几个因素，每个因素均代表一个人格特质，同一因素内的题目高相关，不同因素间的题目低相关。然后将测量几种因素的题目组合在一起构成人格测验。卡特尔16种人格因素量表、埃克森人格问卷采取因素分析法编制。因素分析法的优点在于统计技术的先进性和量表的单维性，不过缺点也是由于题目产生于统计结果之中—因素分析的结果取决于被试和题目，因而面临缺乏实证效度的怀疑。

C、经验法

选取具有特定特征的效标组和对照组，然后，用一系列测试题给各组施测，选出能将两组分开的题目构成测试。其直接来源于实践，根据经验效标选择题目，具有良好实证效度，难点在于如何找到各种典型的效标被试。明尼苏达人格调查表采取经验法编制。

D、综合法

综合采用以上三种技术，首先根据理论假设建构内容框架，从而搜集和编制题目；然后将问卷施测于效标组和正常组，以确定试题可否有效将两组分开，被试的反应是否与理论假设一致，依此筛选试题；最后对题目进行因素分析，确定被试的反应是否符合原来的理论构念，是否是分量表之间低相关，分量表内题目高相关。中国人个性测量表、杰克逊人格问卷、加州心理调查表采用综合法编制。

2、自陈式测验

自陈人格测试就是根据要测量的人格特质，编制许多相关问题，要求受测者根据自己的实际情况回答相关问题，然后根据受测者的答案，去衡量受测者在相关人格特质上的表现程度。

自陈量表的特点：自陈量表题量比较大，多数用于测量人格的若干特质；自陈量表常采用纸笔测验的形式，可以团体施测；自陈量表常采取是非题或选择题，计分规则比较客观，施测手续比较简便，测量分数容易解释，应用广泛。

影响自陈式人格测验的信度和效度的因素主要包括社会赞许性、反应定势和无法测定的潜意识动机。为此，编制自陈式人格测验时应注意：尽量避免带有明显社会评价色彩的题目，代之以中性陈述；对于量表中有关个人隐私的问题，应采取适当的措辞加以掩蔽；应通过题目设计来避免被试极端、折中、默认、肯定等反应定势，此外还可以在测验中增加检查反应定势的效度量表，若该量表的分数达到一定程度，则视问卷无效；尽量提供有等级的选项，使被试可以选择最符合真实情况的选项。

（1）、基于临床效标的自陈式人格测验

A、明尼苏达多项人格问卷

MMPI由哈萨威和麦金利编制，测验由效度量表、临床量表和内容量表组成，其中效度量表提供受测者对测验的态度的信息，如是否存在伪装；临床量表用来确认诸如忧郁症和精神分裂症等心理障碍；内容量表包括与特定内容领域存在实证性相关的各组题目。

第一版包含10个临床量表和3个效度量表， 3个效度量表中，包括说谎量表（L），诈病量表（F）和修正量表(K)。说谎量表用于评估受测者美化自己的企图，在L量表上得分高的人不愿意承认自己的缺点。诈病量表用于评估受测者故意表现异常的企图，F量表得分高代表测验无效。修正量表探测受测者将自己伪装成“好人”或“坏人”的企图，高K值代表对测验的防卫性态度或展现为好人的企图，低K值表示过份坦率与自我批评或者装坏人的企图。K分数与社会经济地位有关，因此对不同经济地位的群体，K的标准也不同。

此外，由被试无法回答或对“是”、“否”均做回答的项目构成疑问量表，超过30题则答卷无效，无回答的反应偏向代表个体一定的心理冲突或对特定事物的回避，因此也值得重视。

第二版共567个项目，可分为基础量表(10个临床量表和3个效度量表)、内容量表（15个量表，量表项目具有内容同质性）和附加量表三类。具体如下：

基础量表：L、F、K量表，Hs（疑病症）、D（抑郁症）、Hy（癔症）、Pd（精神病态）、Mf（男子气-女子气）、Pa（妄想症）、Pt（精神衰弱）、Sc（精神分裂）、Ma（轻躁狂）、Si（社会内向）；

内容量表：焦虑紧张量表、恐惧担心量表、强迫固执量表、抑郁空虚量表、关注健康量表、古怪思念量表、愤怒失控量表、愤世嫉俗量表、逆反社会量表、A型行为量表、自我低估量表、社会不适量表、家庭问题量表、工作障碍量表、反感治疗量表；

附加量表：焦虑量表、抑制量表、自我力量量表、麦氏酗酒量表、受制敌意量表、支配性量表、社会责任量表、性别角色量表、伤后应激失常量表；

MMPI-2新增效度量表：后F量表、同向答题矛盾量表、反向答题矛盾量表和中文版低频量表。

根据被试在各项目上的得分，可以统计他们在每个量表上的原始分数，之后转换为平均分为50，标准差为10的T分数。在解释测量结果时，可采用简单分量表分析或编码系统分析，也可使用分析剖析图，在两点编码基础上考虑各分量表得分的形态。

B、加利福尼亚心理调查表

CPI由高夫以MMPI为基础编制，其更加关心人格中积极、正常的方面。1996年修订版包括20个分量表，通俗量表可分为三个向量：V.1(外向-内向)、V.2（遵从规范-挑战规范）、V.3（自我实现或个人整合）；特殊目标量表包括：管理潜能、领导潜力指标、创造性潜能指标、工作方向、社会成熟度指标。

根据两维度的划分，可分为四种人格类型：

为纵轴，分为七个水平，其代表的能力从水平一到水平七依次提高。

CPI根据Gi(Good impression)、Wb（Sen of well—being）、Cm(Communality)来检验试卷的可靠性。通常可将原始分数转换为T分数（平均数为50，标准差为10）。

（2）、基于因素分析的自陈式人格测验

A、卡特尔16中人格因素量表

量表分16个分量表，除聪慧性(B)量表外，其他各分量表的测题无对错之分，每一测题各有a、b、c三个答案，可按0、1、2三等记分(B量表的测题有正确答案，采用二级记分，答对给1分，答错给0分)，导出分数为标准十分制。

16PF可根据公式推算人格类型的次元因素，分别是焦虑性低与焦虑性高、内向性与外向性、情感丰富与坚决、顺从与独断。

B、埃克森人格问卷

EPQ量表由四个量表组成，分别测量受测者在内外倾（E）、精神质（P）、神经质（N）三个人格维度上的特征，L为说谎量表，用于识别受测者回答问题时的诚实程度。EPQ分为儿童和成人两种，儿童问卷适用于7-15岁的受测者，成人问卷适用于16岁以上的受测者。

C、大五人格问卷

考斯塔和马克雷采取因素分析法，归纳出五种重要的人格因素：

外向性（extraversion），代表个人在性格上外向的程度；

开放性(openness to experience)，代表个人观念开放的程度；

亲和力，或宜人性（agreeableness），代表个人与人相处的性格特质；

神经质（neuroticism），代表人格特质方面情绪稳定的程度；

责任感(consciousness)，或审慎性、严谨性，代表个人行事谨慎的程度。

据此他们编制NEO-PI,问卷分为两式，R式为他评量表，S式为自评量表，量表项目相同，仅对人称进行调整，分别在自评和他评情况下使用。量表分为五个分量表，每个分量表有6个层面，每个层面有8个项目，共240个项目。测验未设效度量表，但要求接受测试者对诚实和准确程度做出自我回答。

问卷采取平均数为50，标准差为10的T分数，未设立临界分，对被评估者进行分类或者诊断是根据T分数将五个维度及其所有层面划分为五个等级：低于34为极低，35-44为低，45-55为平均，56-65为高，66以上为极高。

（3）、基于类型理论的自陈式人格测验

A、价值观研究量表

价值观研究量表由奥尔波特根据Spranger区分的六种类型理论编制，也称奥尔波特-弗农-林赛量表，六种类型是：权力型、经济型、理论型、审美型、社会型、宗教型。

B、詹金斯活动调查表

JAS理论基础是福利曼和罗森曼描述的A-B人格类型，主要是为评价A型人格，量表共52个题目，包含4个量表，其中A量表是作为从整体评价个体A型行为程度的指标，S因素指速度和性急，J因素指对工作献身的程度，H因素指刻苦和竞争的因素。

C、MBTI测验

由凯瑟琳?布里格斯根据荣格内向型-外向型性格理论编制，形成四维八级共16个维度，具体包括：与世界相互作用的方式，内倾-外倾；获得信息主要方式，感觉-直觉；决策方式，思维-情感；做事方式，知觉-判断。

（5）、基于其他理论的自陈式人格测验

A、爱德华个人偏好量表

EPPS是以莫瑞明显需求理论为基础编制的自陈人格量表。此测验为大学生和成人设计，由15种需求量表和一个稳定量表构成，有225对由陈述句组成的题目，其中15道题重复两次。每个题目包括自我描述性陈述，这些陈述与被试的社会需求相匹配。测验采取迫选的形式，项目对中两个选项社会期望水平大致相同，测验产生的是自比分数。

B、杰克森人格研究表

以莫瑞需求理论为基础，PRF有5种选择，包括两套平行测试（A、B、AA、BB），长量表包含22个分量表，每个分量表20个项目，包括两个效度分数:罕有性（infrequency）和赞许性（desirability）；短量表包含15个分量表，每个分量表20个项目。E量表是采用项目分析技术发展的增强版，由22个分量表，每个量表16个项目。它应用计算机辅助技术，反映了测验建构的诸多进步。

C、心理控制源评定量表

控制源是指个人的行为有效控制和驾驭外部环境的期望，它有内控和外控的个体差异。

罗特的内在-外在心理控制源量表（LELCS）、赖文森的内控/他控/机控量表（IPC）、多维健康状况心理控制源量表（MHLC，包含内控性、机遇性、有势力的他人3个分量表）。

D、个人构念理论-角色构念测验

Rep Test 由凯利在其个人构念理论基础上编制，个人构念理论强调个人分析或解释事件的方式，其核心单元是构念-知觉、分析或解释事件的方式。一个人总是用各种构念去解释、评价、预测事件，个人的多种构念就组成一个构念系统，也就是人格系统。复杂的构念系统涉及许多相互联系的构念，以多水平的方式组织在一起，而一个简单的构念系统只有很少几个互不关联的构念，而且通常只有一两个组织水平。一个复杂的构念系统可以提供对世界知觉的更大的区分性和更细致的预测，如果一个人具有复杂的构念系统，那么他就具备较完整的人格和良好的社会适应能力，而一个简单的构念系统则意味着把所有人和事置于某些类别，而不管其所处的环境，因此一个人如果具有简单的构念系统，那么他的人格可能就有缺陷，适应能力也较差。

测试中，给予被试一个名称表，均为其熟悉的人物，向被试指出名单中的3个人，要求他说出其中两个和第三个人有何异同，以此确定被试的构念系统。

3、投射式测验

投射测验重在探讨人的无意心理特征。如果将无确定意义的刺激情境作为引导，受测者就会在不知不觉中将自己无意识结构中的愿望、要求、动机、心理冲突等特征投射在对刺激情境的解释中。

理论假设：人们对于外界刺激的解释性反应都是有其原因可以预测；反应者过去形成的人格特征、他当时心理状态和他对未来的期望等心理因素也会渗透在他对刺激的反应过程及其结果之中；人格结构的大部分处于潜意识中，当被试面对一种不明确的结构刺激时，就可以使隐藏在潜意识中的欲望、需求、动机等泄露出来，即把一个反映他人格特点的结构加到刺激上，通过分析，就可能获得对受测者自身人格特征的认识。

特点：测验材料没有明确的结构和确定的意义，受测者对测验材料的反应不受限制，为受测者提供针对材料进行广阔自由联想的机会和空间；测验目的具有隐蔽性，避免受测者防卫和伪装，使结果更能反应真实的人格特征；测验结果的解释重在对受测者人格特征获得整体了解；不受语言文字的限制；计分困难，难以对结果进行定量分析。

（1）、联想型投射测验

A、罗夏墨迹测试

在罗夏之前，比奈最早提出使用墨迹图评估个体特征，惠普勒制定了第一个墨迹测验，罗夏则将墨迹测验用于诊断心理障碍。RIT发表于1921年，由10张墨迹组成，其中5张黑白，3张彩色，其余2张为黑色和红色混合。测试中要求被试说出展示的墨迹可能代表什么，通常主试也会针对被试联想的内容进行提问。

B、词语联想测试

荣格是第一个利用词语联想技术研究反应障碍的心理学家，在此之前，高尔顿、冯特和克雷佩林在研究中均曾使用过类似的词语联想法。测试时，要求被试听到刺激词之后，尽快做出由刺激词所做出的反应。一个不同的方法是在听到刺激词后报告所联想到的词汇，通过与常规群体比较诊断精神障碍。

（2）、建构型投射测验-主题统觉测试

TAT建立在莫瑞需要-压力理论上，该理论认为，人类复杂的心理行为都可以用特定的欲望和压力相结合的简单形式来解释。个体人格的形成及表现具有明确的动力性，完整的人格往往是内在欲求和压力相平衡的结果。若不平衡，则会发生人格偏离或心理异常。TAT假设个人对图画情境编造故事和其生活经验具有紧密的关系，且受到无意识动机的影响。故事内容中有一部分内容受到当时知觉的影响，但其想象部分却包含个人有意识或无意识的反应，即受测者在编故事时，会不自觉地把隐藏在内心的欲望和冲突穿插在故事情节中，借故事中人物的行为投射出来。

TAT包含30张黑白图卡，30张图片组成部分重叠的4套卡片，分别适用于男童、女童、14岁以上男性和女性，施测时每组20张，其中一张为空白卡片。被试要根据每张图片编一个故事，包括是什么到导致图片所示的事件，描述此时正在发生什么和图片中人物的所思所感，并最后给出结局。对空白卡片，要求被试想象出一幅在卡片上的图并进行描述，讲一个关于它的故事。

（3）、完成型投射测验

A、语句完成测验

语句完成测验居于词汇联想和主题统觉技术之间，通常有两种形式：限制性选择，在一个未完成句子后面列有数个短句，要求被试从中选择一个认为最合适的短句完成句子；自由完成式，要求被试将未完成的句子补充成完整句子，而对被试不加任何限制。

测验在7点量表上评分，被试反应分为C反应（消极反应）、P反应（积极反应）和N反应（中性反应）。

B、逆境对话测验

测验由一些图片组成，通常画中有两个人物，其中一人说几句足以引起对方生气或陷入挫折情境的话，被试要为受挫者在空白处写下受挫者如何反应。评分时，根据被试答案的“攻击类型”和“攻击方向”评分，攻击类型包括：障碍-控制，反应重点在强调障碍或困难；自我-防御，反应重点在为自身辩解或逃避责任；需要-坚持，反应重点在建设性的解决引起挫折的问题。攻击方向包括：外向攻击（朝向他人或环境）、内向攻击（朝向受挫者本人）、免于攻击（试图掩饰或逃避挫折情境）。测验计分时每种反应的百分比均与常模进行比较。

（4）、表露型投射测验

A、绘画测验

麦柯弗画人测验假设受测者在同性人像上投射自己能接收的冲动，在异性头像上投射自己不能接收的冲动，此外，人像特征也投射出受测者的特点。测验中，分别画两个不同性别的人，主试会记录受测者的反应，也会提出相关的问题。

卡氏画树测试让被试随意画一棵树，将画好的树与20种标准进行比较，以解释受测者的人格特征。

B、沙盘游戏

沙盘游戏既可以用作人格测量，也可以用于心理治疗，它是由荣格的学生多拉?卡尔夫结合荣格积极想象技术和艾里克?纽曼的儿童发展阶段理论创立的一种心理分析专业技术。其理论假设是：在沙盘游戏的过程中，原型、象征和内在精神世界很容易表现出来，在一个自由、安全的氛围中表现这些客观存在可以促成整体性意象的形成，进而为展现自性创造机会。

测验中被试可以自由使用沙盘中的材料建造头脑中想象出的任何图景，主试则会与被试展开相关交流。

测验的诊断性指标可分为3个方面：攻击性、空虚性和歪曲性，其中歪曲性又可分为封闭性、无次序性、机械性。根据以上指标，问题儿童的空虚性和封闭性得分很高，且沙盘中通常不出现人物或者人的象征物；弱智儿童在攻击性、空虚性和歪曲性三方面得分均较高，其次是无次序性得分很高。

3、情境式人格测验

情景测验是指将被试置于特定情境中，由主试观察其在此情境下的反应，从而判断其人格。可分为活动情境测验和假设问题情境。

A、品格教育测验

CEI是哈特松和梅尔设计的最著名的情境测验，它采取学龄儿童日常生活或学习中熟悉的自然情景，用来测试诸如诚实、自我控制、利他主义等品格或行为特点。

B、情景压力测验

它是在一组不相识的人群面前，提出一项在有限器材条件下需要参加者通力合作，并在规定时间内完成的任务，用来鉴别领导力、想象力和小组合作等特征。

内田-克雷佩林测验要求被试做一位数连续加法，通过对作业曲线的分析，对被试的性格、气质、智力等作出评估。

C、道德两难故事法

它是由柯尔伯格提出，以其提出的道德发展阶段理论为依据，通过道德两难故事判断被试的道德发展水平。

4、其他人格测量方法

（1）、评定量表

人格评定量表是通过观察，给人的行为或人格特性确定一个等级的标准化程序，是由与被评人比较熟悉的他人对被评人的行为或人格特点做出评价。如莱氏品质评定量表、猜人测验。

（2）、认知风格测评

隐蔽图形测验（EFT）是威金特等人编制的测量个体场独立性和场依存性认知方式的测验。测试中要求被试从较为复杂的图形中用铅笔画出镶嵌或隐蔽在其中的简单图形。

赖丁等发展出认知风格分析系统（CSA）,它由计算机呈现，直接评估“整体-分析”、“言语-表象”两个维度，由3个分测验组成，分别要求被试判断正误、判断两两配对的几何图形是否相同、判断简单图形是否包含在复杂图形中。

（3）、社会计量法

社会计量法由美国心理学家莫里诺提出，在社会心理学中常用于确定团体中人与人之间的关系和团体结构。

社会关系图解法中，主试向被试提出几个问题，涉及生活的积极或消极方面，要求被试在团体中选择同伴，然后主试将团体成员的社会关系呈现在一张图中（通常是靶形图），也可以通过统计分析，得到有关个人地位及团体性质的各种指数，如：

个人受选地位指数=受选总数/（团体人数-1）

团体吸引率=总选择数/（总选择数+总排斥数）

社会距离量表由社会学家博格达斯编制，量表中题目按照社会距离由近到远排序，由被试进行评分。可得如下指标：

团体社会距离分数=特定成员得分之和/总人数

个人社会距离分数=个人对团体内每一成员评分之和/总人数

（4）、传记式问卷

传记式问卷是个人传记资料测量的主要方式，它是将一个人过去的传记用系统的问卷记录下来，问卷涵盖个人的过去背景与生活经验，包括教育经历、兴趣、家庭、休闲、健康情况、早期工作经验、态度、价值观等内容。

（三）、态度测验

态度是个体对人或事物所持有的一种较为持久而一致的心理倾向，包括认识、情感和行动倾向三种成分。态度是一种内在的心理倾向，指向一定的对象，具有价值判断的成分和感情色彩，具有一定的稳定性和持续性。

1、等距量表法

由美国心理学家瑟斯顿在1925年创立，基本思路是，围绕特定态度主题，选取能代表该方面的态度语或项目若干，之后由专家对其进行等级排序，并将专家排列的结果进行项目分析，保留有效的项目以及根据专家的反应确定的项目等级。最后，从中选择出一定数量一致性最高、且量表值大约能做等距分布、涵盖所有等级列别的题目，编成正式的态度量表。

在测量被试对量表反应时，要求被试对量表中的项目做赞成或不赞成的回答，之后将受测者表示赞同的项目依分数高低排列，求其中位数，以居中项目的量表值作为被试态度的估计值。

2、利克特量表法

此量表假定每个项目或态度语都具有同等的量值，项目之间没有差别量值。被试要对每个项目的态度强弱按五级或六级反应。最后，以受测者在所有项目中评定等级的总和来估计被试的态度。

3、哥特曼量表法

此方法试图建立一个单向性量表，即项目之间的关系和排列方式遵循从强到弱或从弱到强的关系。在制作时，首先挑选可以测量特定态度的具体陈述句或项目，构成预备量表。将预备量表施测于具有代表性的样组，将受测者按回答赞成的多少由高到低排列，将项目依赞成多少也由高到低排列。经过排列，所有答案构成一个三角形态，凡是落在三角形态以外的均视为误差，即认为其容易造成误解。去掉无法判断是赞成或反对的项目，同时调整项目范围以控制误差数，最后计算复制系数，作为单向性好坏的指标。

复制系数=1-误差系数/回答总数，如果大于等于 0.9，则称该量表单维度，每个人的态度得分就是他回答赞成的项目总数。　

4、语义分化量表法

此方法依据的前提是，态度由人们对所给概念（刺激）的含义（语义）组成，此含义可以通过对关联词的反应来加以决定。语义分化量表确定三个维度：评价维度、力度维度、活动维度。每个维度都有几项有两级的形容词，三个维度不变，维度中的项目可变，其中最重要的是评价维度。测查时，先给被试提出一个关键词（态度对象），要求被试按照自己的想法在两极形容词间的7个数字中圈选，各系列分值的总和就代表他对对象态度的总分，即总态度。

模拟语义分析测量项目表

5、Q分类技术

Q分类技术是斯蒂芬森提出的一种研究自我概念的特殊技术，测试中，给被试很多张描述人格特质的卡片，要求被试按与自身特质的吻合程度将卡片分为1-9级。为保证评级分布的一致性，采用迫选的常态分布，要求每个等级中都有规定数量的卡片，由于采用迫选技术，其只能得到自比分数。

6、内隐联想测试

IAT是由格林沃尔德提出的一种内隐社会认知的研究方法，其采用计算机化的辨别分类任务，以反应时为指标，通过对概念词和属性词之间的自动化联系的评估来对个体的内隐态度进行间接测量。

7、内隐条件推理测验

CRTs是一种和内隐概念相关的人格测量方法，研究发现，推理中的内隐偏好是一种非常重要而且居于主要地位的内隐社会认知。推理中的内隐偏好通常采用合理化的机制，通过无意识偏袒，从而提高动机或者特质行为的合理性。合理化机制可能包括敌意归因偏好、贬低目标偏好、报复偏好、社会折扣偏好等，因此，可以通过问题设计，给出多个具有一定逻辑相关性的答案和一些干扰性的显然无关答案，答案本身在社会赞许性等方面等价或无显著差异，让被试选择其中一个。由此，通过系统的计分方式，可以考察被试的内隐偏好，从这种偏好可以更为真实的反映被试的人格特征。

（四）、兴趣测验

兴趣的差异表现在兴趣的指向性、广度和稳定性方面的差异，对兴趣的划分应注意表达兴趣、表现兴趣和测量兴趣的差异。

1、斯特朗-坎贝尔职业兴趣测验

SVIB是最早的真正意义的职业兴趣测验，采取经验法编制，目前SCII包括经验性量表、同质性量表和依据霍兰德的职业理论建立起来的量表。其中经验性量表是SCII最为主要的特色，在测验构成中为207具体职业量表，其中“项目-百分比差值在16%以上”；同质性量表是由普通人群组成被试组进行测试，通过采用聚类的统计方法，将具有很高相关的题目归结到一起，组成具有一定共同特质的同质性量表，在测验构成中为23个基本职业兴趣量表；霍兰德的职业选择理论认为，人们总是选择那些能够使自己的人格特点与工作环境要求达到最大限度匹配的职业，依据此理论建立6个一般职业主题量表。

兴趣测量之所以能够有效，是因为不同的人会对同一题目做出不同的反应，而且，对特定职业感到满意的群体会对特定的题目做出特定的反应模式。项目-反应分布的方式包括：

非常广泛的项目-反应分布，在一些职业群体中，几乎每个人都会做出“喜欢”的反应，而在另外的一些职业群体中，几乎没有人会做出“喜欢”的反应，SCII中绝大部分题目属于此类。

中等程度的项目-反应分布，除与其内容有关的职业外，大部分职业群体对它做出“喜欢”反应的百分比都很低。

特殊模式的项目-反应分布，对此类题目的项目-反应分布范围相对比较狭窄，但是它能够提供有关某些职业群体在兴趣上的细微差别的信息。

SCII的上述项目-反应分布，从整体上说明一下几个特点：对每个题目的接受度在不同职业群体之间存在很大差别；每个题目的内容都反映出接收或拒绝它的职业群体的特点；某些职业群体在兴趣上存在真实，但又非常细微、轻易不被觉察或不被人们所预料的差别；大部分题目具有跨时间的稳定性；男、女样本即使从事同一职业，也常常会对许多题目做出不同的反应；每个题目的项目-反应分布模式都不相同，但目前不清楚哪种模式最佳。

SCII在题目选择上不过分追求统计上的显著性，不同于多数测验以统计检验结果是否表明两个不同的样本在量表上的平均分是否存在显著性差异作为量表是否对两个样本予以成功区分的标志，SCII认为此类工作没有意义，因为人们对任何心理测验都不是随机反应，因此任何差异都是实际存在。在挑选题目时，SCII提出以下建议：计算每个题目的“项目-百分比差值”（计算实验组和参照组对项目“喜欢”和“不喜欢”的百分比，取其差值较大者）；10%或者更小的差异应予以忽略；通常12%的差别不具有任何意义，16%的差别具有中等程度的重要性，高于此的差别都必须予以重视；在建构量表过程中，题目数目的多少与题目-百分比差异的大小具有同等的重要性。

除3个量表外，SCII还包括特殊量表和测验管理指标，其中特殊量表包括学术满意度量表和内-外向量表。测验管理指标具体包括：

整体反应性指标，应试者做出反应的题目的数目，在SCII 325个题目中，被试未做出反应的数目不应超过15个；

异常反应指标，被试做出异常反应的题目的数目，如果参照样本对一道题目做出特定反应的比例低于6%，则此反应视为异常反应。在SCII中，女性异常反应指标应低于6个，男性应低于12个；

反应类型指标，被试做出“喜欢”、“不喜欢”、“无所谓”的反应占全部反应的百分比。SCII中，反应类型的变化范围为10%-70%。

2、库德职业兴趣调查表

KOIS包含504种不同的活动，每3种活动组成一组，为迫选式测验，要求被试选出最喜欢和最不喜欢的活动，根据被试的选择将其归入10类中的一类：户外活动、机械、计算、科学、说服、宣传艺术、文学、音乐、社会服务和文书。它包括检查量表、实验量表、职业兴趣评估、职业量表、大学生专业量表5个部分。

3、霍兰德职业兴趣测验

（1）、霍兰德的职业兴趣理论

霍兰德的职业兴趣理论基本上是一种职业人格理论，其建立在7个基本假设之上：

社会中的多数人可以被归结到6种不同类型之中：传统型、经营型、现实型、研究型、社会型、艺术型；多数职业环境也可为被归为同样的6种类型，而且每种职业环境都由一定特殊类型的人所主导，因此工作环境的要求和工作伙伴的人格特点就构成了该种职业的风格；

人们倾向于寻找和选择有利于他们的技术、能力发挥，能充分表达他们的态度，实现他们的价值，并使自己能扮演满意角色的环境，人不仅选择环境，环境的变化发展也影响着人们的选择，此过程需要一个相当长的时间才能完成；

一个人的作为是他本人个性和环境特征交互作用的结果，个体人格模式和环境模式的不同匹配可以预测个体的一系列行为发生的概率和好坏程度，具体包括职业选择、工作改变、工作绩效和个人能力；

个体类型和环境类型的一致性、和谐程度可由一个六边形模型来解释和评估。个体类型和环境类型之间的距离越短，两者之间的关系就越紧密；

个体内部或环境内部的相容性程度也可以用一个六边形模型来决定，在六边形模型中相邻类型高相容，或是说有一致性的兴趣和职业职责；六边形上相对类型则有高非相容性，或是说包含一些无关的个体特征和职业功能；

个体或环境的区分度可由职业编码、所绘结果剖面图以及两者共同来解释。

霍兰德提出职业兴趣的人格类型理论，他认为，个体对职业的选择受到动机、知识、爱好和自知力等因素的支配，最主要是一个人之所以选择某个职业领域，基本上是受到其兴趣和人格的影响。随后，霍兰德将其职业人格类型理论用于职业名称词典（DOT），借助DOT的职业分析的有关内容，将其中7500种职业赋予霍兰德人格类型代码，编纂《霍兰德职业代码词典》，为各类人员按照自己的职业兴趣类型搜寻合适的职业也提供了广泛的应用前景。

（2）、职业偏好量表和自我导向探查表的编制

职业偏好量表（VPI）由160个职业条目构成，职业兴趣分为6个方面：现实型、研究型、常规型、企业型、社会型、艺术型，与6种人格类型相对应，有6种环境模式。根据受测者对160个职业条目反应得分高低在职业分类表中查找职业，其最终职业兴趣既可以是大的职业兴趣领域，也可以是具体职业。

自我导向探查表（SDS）是自己管理、计分和解释结果的职业咨询工具，量表分4个部分，第一部分列出自己理想的职业；第二部分测查活动，分别测量活动、潜能、爱好的职业以及自我能力评定4个方面，每个方面都是按霍兰德的理论编制的测量6种类型的项目，每个方面均为38题；第三部分按6种类型的4个方面测得结果的得分高低，按由大到小取三种类型构成三字母职业代码；第四部分为职业寻找表，包括1335个职业，每种职业都标有职业码和所要求的教育水平。

4、杰克森职业兴趣调查表

JVIS包括工作角色量表、工作风格量表和附加量表，包含289个以自比形式安排的与职业相关的活动，基于项目之间的关系被归入34个量表中，A组、B组各17个。测验时，从两组量表中的每个量表中各抽取一个项目，配对后要求被试指明他们的偏好。它可以被认为由两个单独量表集构成的一个测验工具，而事实上形成两个独立的自比测验。

JVIS通常用于帮助大学生进行课程选择和职业规划。

5、职业锚测试

职业锚又称职业系留点，是人们选择和发展自己的职业时所围绕的中心，是指当一个人不得不做出选择的时候，他无论如何都不会放弃的职业中的至关重要的东西或价值观。它是自我意向的一个习得部分，是由个人进入早期工作情境后习得的实际工作经验所决定，与在经验中自省的动机、价值观、才干相符合，达到自我满足和补偿的一种稳定的职业定位。职业锚强调个人能力、动机和价值观三方面的相互作用与整合，是个人同工作环境互动作用的产物，在实际工作中不断调整。

职业锚理论由施恩提出，最初包括5中类型：自主型职业锚、创业型职业锚、管理能力职业锚、技术/职能型职业锚、安全稳定型职业锚，后来又增加3种：挑战型职业锚、生活型职业锚、服务型职业锚。

（五）、临床测验

1、心理健康综合测量

A、米隆临床多轴调查表

MCMI基于米隆关于人格功能作用的精神病理学的生物学观点，人格类型矩阵包括强化源和应对行为范型。MCMI III包含175个简短的自我描述的句子，要求被试做出“是”或“否”的回答。分数剖面图包括24个临床量表，各量表题目有重叠。24个临床量表分为4个主要类型：临床人格类型、严重的人格病理学、临床症状和严重症状。MCMI引入基本比率的标准分数，只是用来进行诊断筛选和临床评定，不用于正常人群和其他目的的一般人格评定。

B、SCL-90心理状况自测表

量表包含90个项目，采取5级评分制，从感觉、情绪、思维、意识、行为、生活习惯、人际关系、睡眠饮食等方面对被试心理健康状况进行内容广泛的评估。主要集中于9个因子：躯体化、强迫症状、人际关系敏感、抑郁、焦虑、敌对、恐怖、偏执、精神病性。在分数解释中，单项分大于等于2视为阳性项目，单项分为1分视为阴性项目，同时有9个因子分。根据中国常模，总分超过160分，或阳性项目数超过43项，或任意一个因子分超过2分，可考虑筛查阳性症状，做进一步检查。

2、抑郁及相关问题评定

A、贝克抑郁量表

贝克将抑郁分为3个维度：消极态度或自杀，即悲观和无助等消极情感；躯体症状，表现为易疲劳、睡眠不好等；操作困难，即感到工作比以前困难。BDI量表通常由21项抑郁症患者常见的症状和态度构成，是目前应用最为广泛的测量抑郁水平的工具。BDI以总分区分抑郁症状的有无和严重程度：0-4分，无抑郁症状；5-7分，轻度；8-15分，中度；16分及以上，严重。

B、流行病学调查用抑郁自评量表

CES-D只用于普通人群或可能有抑郁症状的特定群体的流行病学调查，以筛选出有抑郁症的对象。它共有20个条目，集中于抑郁心情、罪恶感、无价值感、无助与无望感、精神运动性迟滞、食欲丧失、睡眠障碍等6个方面。CES-D采用0-3分的四级制，总分«15分为无抑郁症状，16-19分为可能有抑郁症状，»20分为肯定有抑郁症状。

C、抑郁自评量表

SDS为自评量表，由扎格编制，施测对象是有抑郁症状的成年人，由20个条目组成，采用1-4分的四级制，其中10道题目反向评分，包含总分和抑郁严重度指数（=粗总分/80）两个指标。它反映抑郁的4组特异性症状：精神性-情感症状、躯体性障碍、精神运动性障碍和抑郁的心理障碍。在中国，粗总分（标准总分乘以1.25）>41分考虑有抑郁症状。

3、焦虑及相关问题评定

A、焦虑自评量表

SAS同样由扎格编制，从量表构造到评定方法均与SDS相似，它为自评量表，施测对象是有焦虑症状的成年人，总粗分超过40分说明存在焦虑状态。

B、汉密尔顿焦虑量表

HAMA主要用于评定神经症和其他病人的严重焦虑程度，是一种医用焦虑量表。测验包含14个项目，除第14项外其余均由评定人员根据病人口述进行评定，因而特别强调病人的主观感受。总分超过29分，可能为严重焦虑；超过21分，肯定有明显焦虑；超过14分，肯定有焦虑；超过7分，可能有焦虑；低于7分则无症状。除评价各项症状外，还可以做因子分析，分为躯体性和精神性两大因子结构。

C、状态-特质焦虑量表

STAI是一种区别评定短暂焦虑情绪状态和人格特质性焦虑倾向的工具，状态焦虑指人们“现在”或最近一个特定时间段内的感受或将要遇到特别情景时的感受，特征焦虑评定人们通常情况下的情绪体验。

D、测验焦虑量表

根据状态-特质理论编制，分为W因素和E因素。测验焦虑特质高的人倾向于将测验情景看作是对自我的威胁，因而在测试过程中常出现紧张、忧虑、神经过敏和情绪冲动，从而分散注意力，干扰对智力认知任务的完成。E因素是由评价的紧张所引起的自主神经系统的反应，W因素则指对失败结果的认知。

4、人际功能评定

A、多伦多述情障碍量表

TAS分为3个因子：情感辨别困难、情感描述困难、外向性思维，是目前公认的测量述情障碍的最好工具。

B、国际人格障碍问卷

IPDE包括8中人格障碍：强迫型、回避型、依赖型、情绪不稳定型、表演型、社交紊乱型、偏执型、分裂样型，分为58项，共70题，涉及工作、自我、人际关系、情感、现实性检验和冲动控制6个方面。若被试有3-4项阳性，其中至少一项为2分；若不符合任何一型人格障碍诊断标准，但阳性分»10分，可诊断为可能具有人格障碍。

5、应激及相关问题评定

A、生活事件量表（LES）

B、防御方式问卷（DSQ）

C、自杀风险评定量表

（六）、发育量表

1、婴幼儿智能测验

A、格塞尔发展量表

GDS主要诊断动作能力、言语能力、应物能力和社会应答能力，测验以发展商数表示，发展商数=（测得的发育成熟年龄/实际年龄）*100，发展商数低于65表示严重落后，顺应发展能力商数若低于85，则表明机体存在损伤。

B、丹佛发展筛选测验

DDST考察应人能力、细动作-应物能力、言语能力和动作能力，采取限定式描述法，给出4个答案供家长选择一个。通过10-11题者为正常，有1题以上通不过或不会，需进行复查。

C、贝利婴儿发展量表

BSID包含智能量表、运动量表、婴儿行为记录量表，以智能发展指数和心理活动发展指数来计分，分别评定智能水平和运动水平，平均分为100，标准差为16，标准化程度好于其他幼儿智力测验，被认为是最好的婴儿测验。

D、麦卡锡幼儿智能测验

MSCA包括5个分量表：言语分量表、知觉-操作分量表、数量分量表、记忆分量表、运动分量表，其中前3个量表合成一般智能分量表。

2、婴幼儿气质测验

A、托马斯儿童气质问卷

问卷包含9个项目，是婴儿实际表现做“是”或者“否”的选择。

B、NYLS 3-7岁儿童气质问卷

托马斯和切斯提出儿童气质的9个维度：活动水平、节律性、趋避性、适应度、反应强度、情绪本质、坚持度、注意分散度、反应阀，同时根据其中的5个维度（节律性、趋避性、适应度、反应强度、情绪本质）将儿童分为难养型气质、启动缓慢型气质、易养型气质和中间型气质。

3、婴幼儿其他测验

A、布雷泽尔顿新生儿行为评定表

NBAS是目前适用年龄最小的婴儿使用的行为量表，27个项目分为6大类：习惯化（婴儿在同一刺激呈现多次后，反应减弱）、朝向反应（婴儿对有生命的刺激物和无生命的刺激物的朝向）、运动控制的成熟性、易变特性、自我安静下来的能力、社会行为。

B、儿童统觉测验

CAT适用于3-10岁的儿童，包含10张图片，内容是关于动物生活和行为的各种情境，图片主题涉及心理动力理论中的冲突、挫折、创伤和心理发展阶段的情况。

六、心理测验的应用

心理咨询、人事测评、教育评价、科学研究。

更多相关推荐：

心理课的心得体会: 在接触心理学这门学科的以前，它总给我一种太神秘的感觉，总以为它很深奥也很虚幻，但是通过这一个学期的学习，我被它的科学性，真实性所折服，可以说它是实实在在存在的东西，与此同时我还发现心理健康与身体健康同样重要，同…
心理学学习心得体会: 张延通过12天心理学的学习培训，我将会不断的提高心理学的理论知识,同时我也会把三位老师交给我们的方法很好的运用到实践中去,不断的学习成长,争取做到在尊重他人的同时，我好,你好,世界好。有句话说的非常好好：搬开别…
心理培训心得体会: 我很荣幸能有机会参加这次学生干部心理培训活动，培训以开展讲座的形式进行，从心理健康专题的讲说中，我懂得了学生干部如何应对心理压力，自信风采，为自己喝彩。也更深刻的明确了学生干部的工作职责，作为学生干部所要具备的…
上心理课的心得体会: 心理健康课其实就是一门关于心理健康的课程，它不仅是针对大学生，而是针对所有在不人。在面向素质教育的时代，拥有健康的心理应是现代社会每个人所具备的条件和基础，是每个人能够健康成长的重要保障。随着年龄的不断增长。处…
心理学心得体会: 心理学心得体会姓名：zjl学号：班级:土测09-2一学期的心理学课结束了，说实话真的舍不得。这是我第一次接触心理学，在我觉得还没有碰到她的皮毛时就结束了。在没接触心理学之前，我一直觉得自己是个知心姐姐，能够开导…
心理培训的心得体会: 心理培训的心得体会我参加了沙坪坝区中小学心理健康教师培训班此次心理健康培训的时间虽然仅7天但在我的心理却激起了层层涟漪我相信这次培训给与我的东西决不止心理学的理论知识它会有一种延续性影响我的生活影响我的工作影响...
心理培训心得: 放飞心灵，从你我做起------20xx级班级心理委员培训心得学院：班级：姓名：感谢学校给我们提供这次机会，让我们比较系统的接受了一些有关心理方面知识的培训，使我们这些心理委员掌握了一些发现同学心理问题以及干预…

学习心理学的心得与体会: 学习心理学的心得与体会心理学一个既熟悉又感到陌生的词联合国卫生组织指出21世纪困扰人类的不是环境问题不是资源问题也不是恐怖主义而是来自于人类心理的问题诸如情结的烦闷学业与工作的压力孩子厌学感情困惑等等这些因素都...
犯罪心理学心得体会: 犯罪心理学心得体会通过学习犯罪心理学我对这门科学有了更深的理解犯罪心理是人类固有的潜在心理犯罪是一种特别危险的侵害法益的不法行为我国刑法第十三条规定一切危害国家主权领土完整和安全分裂国家颠覆人民民主专政的政权和...
普通心理学心得: 普通心理学心得普通心理学这门课程对于我来说是第一次较为系统的接触和学习心理学坦率的说虽然在平时接触过心理学的丁点知识但是对于系统心理学的了解很少而且片面的认为心理学对于自己没有太大的意义虽然它是一热门的学科也很...
心理健康教育学习心得: 近日参加了电大心理健康教育概论学习通过这段时间的学习我获得了许多新知识使我对工作有了新的思考受益匪浅感想颇多我想就此问题谈谈自己从这次学习中获得的体会一通过学习使我认识到了心理健康教育的重要意义心理健康教育是一...
心理健康教育心得体会: 心理健康教育心得体会一通过学习使我认识到了心理健康教育的重要意义心理健康教育是一种时代的要求良好的心理素质是人的全面素质中的一个重要组成部分是未来人素质中的一项十分重要的内容心理健康教育的具体目标是使学生不断正...

热门关注