心理测量基本知识

时间：2024.4.13

心理测量学辅导

第一节概述

心理测量基本理论

第一节概述

第二节测验的常模

第三节测验的信度

第四节测验的效度

第五节项目分析

第六节测验编制的一般程序

第七节心理测验的使用

第一单元测量与测量量表

第二单元心理测验的基本概念

第三单元心理测验的分类

第四单元纠正错误的测验观

第五单元心理测验在心理咨询中的应用

第六单元心理测验的发展史

第一单元测量与测量量表

一、什么是测量

测量就是依据一定的法则用数字对事物加以确定。该定义包括三个元素： 1.事物：指的是我们要测量的事物的属性或特征。 2.数字：代表某一事物或事物某一属性的量。

3.法则：代表的是测量所依据的规则和方法。

二、测量要素

两个要素：参照点、单位。

（一）参照点

绝对参照点相对参照点

理想的参照点是绝对参照点，心理测量中很难找到绝对零点

（二）单位

好的单位必须具备两个条件：

一是有确定的意义，二是有相同的价值

三、测量量表

量表是在一个定有单位和参照点的连续体上把事物的属性表现出来。

斯蒂文斯（S.Stevens）根据量表的精确程度将测量由低级到高级划分为四种水平：

（一）命名量表——最低水平

（二）顺序量表——次低水平

（三）等距量表——较高水平

（四）等比量表——最高水平

（一）命名量表——最低水平

代号类别

命名量表中，数字只用来标记和分类，不能做数量化分析，不能做运算。（二）顺序量表——次低水平顺序量表中，既无相等单位，又无绝对零点，数字仅表示等级，并不表示某种属性的真正量或绝对值。

（三）等距量表——较高水平

有大小关系，相等的单位，没有绝对零点，数值可以加减，不能乗除，可以进行常数转换。

（四）等比量表——最高水平

有相等单位还有绝对零点。可加减乘除运算。

心理测量是顺序量表上进行的。

第二单元心理测量的基本概念

一、心理测量的定义

所谓心理测量，就是依据心理学理论，使用一定的操作程序，通过观察人的少数有代表性的行为，对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析的一种科学手段。

心理测量的基本要素：

1.测量的对象是人的行为

2.选取的是行为样本

3.测量要标准化

4.测量要有常模

二、心理测量的性质

（一）间接性

（二）相对性

（三）客观性

第三单元心理测验的分类

一、按测验功能分类

智力测验特殊能力测验人格测验（问卷法、投射法）

问卷法举例：

下面有四个例题，请试作回答，把答案填在答案纸左上方“例题”处的后面方格中。例题：

1.我喜欢看球赛：

A.是的

B.偶然的

C.不是的

2.我所喜欢的人大都是：

A.拘谨缄默的

B.介于A、C之间的

C.善于交际的

投射法举例：罗夏墨迹实验

二、按测验的材料分类文字测验操作测验文字测验举例：测验问题和标准回答（城市）

1.钟表有什么作用？

计时；告诉时间。

2.球是什么形状？

圆形。（如答椭圆形，要问是什么球，如果答是橄榄球可记分）。

3.一年有多少月？

12（如答阴历闰年有13个月可记分，但一定要说明阴历闰年）。

4.国庆节是哪一天？

十月一号（如答十月初一，要问什么历，

如说指的是阴历，不计分）。

操作测验举例：如韦氏智力测验，给一些图形的碎片，要求在一定时间内拼成一件东西

三、按测验材料的严谨程度分类

客观测验投射测验

客观测验举例：

《应对方式问卷》

填表方法：此表每个条目有两个答案“是”、“否”。请您根据自己的情况在每一条目后选择一个答案

1.能理智地应付困境是否

2.善于从失败中吸取经验是否

3.制定一些克服困难的计划并按计划去做是否

4.常希望自己已经解决了面临的困难是否

投射测验举例： TAT测验，给一副图，让你讲故事，凭自己的想象加以补充，讲故事中测试性格特征，可投射出受测者的思想、情感、经验，容易受到主观因素的影响。

四、按测验的方式分类

个别测验团体测验

五、按测验的要求分类

最高行为测验（成就测验、智力测验）

典型行为测验（人格测验）

第四单元纠正错误的测验观

一、错误的测验观

（一）测验万能论

（二）测验无用论

（三）心理测验即智力测验

二、正确的测验观

（一）心理测验是重要的心理学研究方法之一，是决策的辅助工具（如升学、就业、招聘、咨询）

（二）心理测验作为研究方法和测量工具尚不完善

第五单元心理测验在心理咨询中的应用

较多地使用以下三类测验：

一、智力测验

二、人格测验

三、心理评定量表

一、智力测验：吴天敏修订（中国比内量表），龚耀先（韦氏成人智力量表、韦氏儿童智力量表和韦氏幼儿智力量表，林传鼎（韦氏儿童智力量表）、张厚粲（瑞文标准型测验）、李丹（联合型瑞文测验）

联合型瑞文测验：看上面一张图，图下角缺一块，从下列的8块图片中选一块最合适的补上去

中国比内测验

1.比圆形

2.说出物名

3.比长短线

4.拼长方形

5.辨别图形

6.数纽扣13个

7.问手指数

8.上午和下午

9.简单迷津

10. 解说图画

11.找寻失物

12.倒数20至1

13.心算（一）

14.说反义词

15.推断情景

16.指出缺点

17.心算（二）

19. 找寻图样

20. 对比

21. 造语句

22. 正确答案

23. 对答问句

24.描画图样

25.剪纸

26.指出谬误

27.数学技巧

28.方形分析（一） 18. 找寻数目

29.心算（二）

30.迷津

31.时间计算

32.填安

33.盒子计算

34.对比关系 35.方形分析（二）

36.记故事

37.说出共同点

38.语句重组（一）

39.倒背数目

40.说反义词（二）

41.拼字

42.评判语句

43.数立方体

44.几何形分析

45.说明含义

46.填数

47.语句重组（二）

48.校正错误

49.解释成语

50.区别词义

51.明确对比关系

韦氏成人智力测验（WAIS-RC）

韦克斯勒19xx年编制，19xx年、19xx年两次修订。现用为龚耀先教授19xx年修订的中文版。

适用于16周岁以上成人，分城市用和农村用二式。包括言语测验和操作测验二部分。

一、言语测验

知识

领悟

算术

相似性

数字广度

词汇

二、操作测验

数字符号

填图

木块图

图片排列

图形拼凑

二、人格测验：艾森克人格问卷（EPQ）、卡特尔16种人格因素问卷（16-PF），明尼苏达多项人格调查表（MMPI），对求助者人格特征的了解，MMPI还可了解对方是否属于

精神异常范围。

艾森克个性问卷（儿童）EPQ（Child）

指导语：在这张卷上印有88个问题，每题后面印有“是”和“不是”，请你按自己的实际情况依次回答。不要写字，只要求在每一题后面的“是”或“不是”上圈一个圈。这些问题要求你按自己的实际情况回答，不要去猜测怎样才是正确的回答，因为这里不存在正确或错误的问题，也没有捉弄人的问题。将问题的意思看懂了就快点回答，不要花很多时间去想。问卷无时间限制，但不要拖得太长，也不要未看懂问题便回答。

1.你喜欢周围有许多使你高兴的事情吗？是不是

2.你爱生气吗？是不是

3.你喜欢伤害你喜欢的人吗？是不是

4.你贪图过别人的便宜吗？是不是

5.与别人交谈时，你几乎总是很快地回答别人的问题吗？是不是

6.你很容易感到厌烦吗？是不是

7.有时你喜欢开一些的确使人伤心的玩笑吗？是不是

8.你总是立即按别人的吩咐去做吗？是不是

9.你宁愿单独一个人而不愿和其他小朋友一道玩吗？是不是

10.有很多念头占据你的头脑，使你不能入睡吗？是不是

卡氏十六种个性因素测验题

本测验每一测题都有三个供选择的答案（A、B、C），答卷纸上相应地附有三个方格，请把你所选择的答案以“×”为符号，填到相应的方格中，即：你如果选择“A”答案就在第一格内划“×”；选择“B”答案就在第二格内划一“×”；选择“C”答案就在第三个方格内划一“×”。

1、我很明了本测验的说明：

A、是的

B、不一定

C、不是的

2、我对本测验的每一个问题，都能做到诚实地回答：

A、是的

B、不一定

C、不同意

3、如果我有机会的话，我愿意：

A、到一个繁华的城市去旅行

B、介于A、C之间

C、游览清静的山区

4、我有能力应付各种困难：

A、是的

B、不一定

C、不是的

明尼苏达个性测验

本测验由许多与你有关的问题组成。当你阅读每一题目时，请考虑是否符合你自己的行为、感情、态度及意见。如果情况符合，请在答案纸上该题目号码右边“是”一字下的方格内画“√”，如果情况不符合，请在答案纸上该题目号码右边“否”字下的方格内画“√”如果确定不能判定“是”或“否”，则不必作任何记号

? 请尽快填写你看完题目后的第一个印象，不要在每一道题目上费太多时间思考，个性

各有不同，答案无所谓对与不对，好与不好，完全不必有任何顾虑。

? ? ? ? 务请看清题号然后在答案纸上相应的题目号码右侧作答以免发生错误。我喜欢看机械方面的杂志是否我的胃口很好。是否我早上起来的时候，多半觉得睡眠充足，头脑清醒。是否

? 我想我会喜欢图书馆管理员的工作。是否

? 我很容易被声音吵醒。是否

? 我喜欢看报纸上的犯罪新闻。是否

? 我的手脚经常是很暖和的。是否

? 我的日常生活中，充满着使我感兴趣的事情。是否

三、心理评定量表：精神病评定量表、躁狂状态评定量表、抑郁量表、焦虑量表、恐怖量表等，是对某方面心理障碍存在与否及程度的评估。

汉密尔顿抑郁量表（HAMD）（Hamailton Depression Scale）

项目评分

1抑郁情绪 0＝无症状；

1＝只有在问到时才叙述；

2＝在谈话中自发地表达；

3＝不用语言也可以从表情、姿势、声音中流露出这种情；

4＝患者的自发言语和非言语表达几乎完全表现为这种情绪

2有罪感 0＝无症状；

1＝责备自己，感到自己已连累他人；

2＝认为自己犯了罪，或反复思考以往的过失或错误； 3＝认为目前的疾病是对自己的错误的惩罚或有罪恶妄想； 4＝罪恶妄想伴有指责或威胁性幻觉 3自杀 0＝无症状；

1＝觉得活得没有意义；

2＝希望自己已经死去或常想到与死有关的事；

3＝消极观念（自杀念头）；

4＝有严重自杀行为

抑郁自评量表

本量表有二十道题，请仔细阅读每一条，把意思弄明白，然后根据您最近一星期的实际情况进行回答。说明：如果不选择，默认为选择“没有或很少时间有”。

题目没有或很少有少部分有相当多有绝大部分或

时间时间时间全部时间都有

1我觉得闷闷不乐，情绪低沉。

2我觉得一天之中早晨最好。

3我一阵阵哭出来或觉得想哭。

4我晚上睡眠不好。

5我吃得跟平常一样多。

6我与异性密切接触时和以往一样感到愉快。

7我发觉我的体重在下降。

8我有便秘的苦恼。

9我心跳比平时快。

10我无缘无故地感到疲乏。

焦虑自评量表 SAS

填表注意事项：下面有20条文字，请仔细阅读每一条，把意思弄明白，然后根据您最近一星期的实际感觉，在4种情况中选择一种。

1.我觉得比平常容易紧张或着急

没有或很少时间少部分时间相当多时绝大部分或全部时间

2.我无缘无故地感到害怕

没有或很少时间少部分时间相当多时绝大部分或全部时间

3.我容易心里烦乱或觉得惊恐

没有或很少时间少部分时间相当多时绝大部分或全部时间

4.我觉得我可能将要发疯

没有或很少时间少部分时间相当多时绝大部分或全部时间

5.我觉得一切都很好也不会发生什么不幸

没有或很少时间少部分时间相当多时绝大部分或全部时间第六单元心理测验的发展史

一、科学心理测验的产生与发展

三个重要人物：

高尔登（F.Galton）

卡特尔（J.M.Cattell）

比内（A.Binet）

高尔顿：主要有三个贡献

1.提出人的不同气质特点和智能是按身体特点的不同而遗传的。 2.设计了测量差异的方法，可视为心理测验的开端。 3.第一个提出了相关的概念皮尔逊（高尔顿的学生）创立了积差相关法。

卡特尔：三个贡献

1.1890年，在《心理》杂志上发表《心理测验与测量》一文，这是心理测验第一次出现于心理学文献中。

2.“心理测验”一词是由卡特尔提出。

3.极力主张测验手续和考试方法应有统一规定，并要有常模以便比较。

比内：一个贡献

创立了世界上第一个正式的心理测验。

20世纪心理测验的主要发展：

1.操作测验的发展

2.团体智力测验的发展

团体测验始于第一次世界大战，陆军甲种和乙种

3.能力倾向测验的发展

4.人格测验的发展

人格测验的先驱是克雷裴琳

二、现代心理测验在我国的发展

源于19xx年前后。

20世纪二、三十年代两次修订比内-西蒙量表。

19xx年后，协作修订国外智力和人格测验工具。

近年来致力于编制适合我国文化背景的测验工具。（本土化）

第二篇：心理测量大纲知识要点

《心理测量》大纲知识要点

[考试总体要求]

1.正确理解心理测量的基本概念,掌握心理测量的基本方法。

2.掌握各种测量理论和各种测量指标的计算方法；能够正确使用各种测验,并对其结果进行解释。

三、心理测量的基本理论

(一)心理测量的理论基础

1.心理测量的基本概念（03首师大，名）

(1)基本概念：所谓心理测量，就是依据心理学理论，使用一定的操作程序，通过观察人的少数有代表性的行为，对于贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段。（测量：按照一定法则使用量具给事物指派数字的过程。）

(2)心理测量三要素：行为样组、标准化和客观性。（01华东师大，简答题）

①行为样组是指以被测量的行为作为代表来推测与其关联的心理特征。一个测验的好坏,首先决定于测题编制的好坏,即必须要求这些测题能够引发和测量出具有高度代表性的行为样组。

②标准化是指测验的一致性,也即：测验的编制、实施、记分以及测验分数解释的程序的一致性。

③心理测验的客观性,是指测验不受主观支配,其测量方法是可以重复的,被试外部的行为是客观的，测验的实施、记分和解释都是客观的。客观性是衡量科学性的一个根本标志,对于心理测验尤为重要,这是决定一个心理测验能否存在的必要条件。行为样组的代表性和测验程序的标准化,都是为了保证这种客观性。

(3)心理测量是动词意义，心理测验是名词意义。

心理测量的参照点是相对参照点；单位不等距。一般来说,心理测量是在顺序量表上进行的。但通过统计方法,可以把测量数据转换为等距数据。（心理测量属于哪一种水平上的测量，为什么？【02华东师大，简答题】）

（4）对心理测量的评价

贡献：首先，为心理科学理论的发展，特别是个体差异心理提供了具体方法和手段，构筑了差异心理理论的重要基石。其次，心理测量为社会实践服务做出了巨大的贡献。

局限：首先，心理测量具有间接性，精确程度远远劣于物理测量。其次，心理测量所依据的理论尚不完善。

2.心理测量的特征、分类

(1)心理测量的特征

①心理测量的间接性

研究者无法直接测量人的心理,只能测量人的外显行为。根据心理学特质（04首师大，名）理论,人们对行为测量的结果进行推论,从而间接了解人的心理属性。心理特质是一组内部相关或有内在联系的行为倾向，是个人对刺激作反应的一种内在倾向，是个体特有的、稳定的、可辨别的特征。

②心理测量的相对性

所谓测量就是看每个人处在这个序列的什么位置上,位置具有相对性。心理测量的比较标准的确定没有永恒的标准,从测量结果进行推论所采用的标准不是一成不变的。

③心理测量的客观性

测量的客观性实际就是测量的标准化问题。按照严格的科学程序去编制和使用的测验称之为标准化测验。（测验为什么要标准化？怎样保证测验的标准化？【03北师大，简答题】）

为什么要实行标准化：a.可以减少无关因素对测验目的的影响,使测量准确、客观；b.有统一标准,便于对不同人的测验成绩进行比较和交流；c.同一份测验可用于许多人并可反复使用,较为经济。

补充：心理测验的可行性（桑代克1918语——凡是客观存在的事物都有数量；麦柯尔1939语——凡是有数量的事物都可以测量）。

(2)心理测量的分类

①根据测量的对象分类

a.认知测验：又可称为能力测验,这类测验主要包括智力测验、能力倾向测验(又称性向测验)、教育测验(又称成就测验)及创造力测验等。

b.人格测验：它测量的是个性中除能力以外的部分,亦可看作是非能力测验。主要测量性格、情绪、需要、动机、兴趣、态度、焦虑、气质及自我概念等方面的个性心理特征及其相关行为。

②根据测验的人数分类

a.个别测验：通常是一个主试与一个被试面对面进行。比如比奈－西蒙智力测验、韦克斯勒智力测验等。

优点：主试对被试的言语、情绪状态和行为反应有仔细的观察和控制的机会,并且有充分的机会与被试合作,激发被试测试的积极性,所以其结果比较正确可靠,适用于一些特殊对象,如幼儿和文盲。缺点：时间长,施测手续复杂,对主试要求高,主试需要经过严格训练,因而一般人不易掌握。所以个别测验仅在有特殊目的(如诊断)时才使用。

b.团体测验：在同一时间内由一位主试对多数人施测。比如瑞文智力测验、大多数人格测验等。

优点：可以节省人力、物力和时间,主试也不必经过严格的专门训练。团体测验的记分和评分较个别测验更为严格和客观。一般每题都有标准答案。另外,因为标准化样组规模相当大,故团体测验更易建立常模。缺点：无法对被试详细观察,不易控制被试的行为,容易产生误差,难以发现被试的特殊反应,主试和被试之间无法建立和谐关系等。

注意——团体测验可个别施测,但个别测验不能以团体方式实施。

③根据测验材料分类

a.言语或文字测验：这类测验的题目是以语言或文字呈现的,受试者也要用文字或语言作答。

优点：它可以测量人类高层次的心理功能,其编制和实施也较容易,因而应用范围较广。团体测验多数采用文字测验形式。缺点：语言或文字测验不能应用于语言有困难的人,而且对语言文化背景不同的被试加以比较时,甚至在同一文化背景下,被试文化程度和教育背景的不同,也会对测验结果产生相当大的影响,因而多少会损害其客观性。

b.非语言测验或操作性测验：此类测验题目不用文字来呈现,而是以图画(图形)、符号或实物(如方块、积木、仪器和工具等)为测验材料。

优点：被试的作答无需使用语言或文字,常以操作表达或回应。具有文化公平性,因而可方便地用于学前儿童和不识字的成人,也可进行不同文化背景的差异比较研究。缺点：费时太多,不易团体实施等。

还有测验既包括言语测验又包括操作测验,如韦克斯勒智力量表。

④依据测验的功能分类

a.筛选性测验；只是对所欲测量心理特质作一般性的考查。这类测验简便易行、省时省力,但是测验内容不够全面,因而不够精确。

b.诊断性测验：测验的内容多而全面,一般为个别测验。它的目的是进一步诊断被试某些方面的特殊优点和缺点。

⑤按测验的要求分类

a.最高作为测验：要求被试尽可能做出最好的回答，一般有对错之分。

b.典型作为测验：要求被试按通常的习惯方式做出反应，一般无对错之分。

⑥按测验的性质分类

a.结构性测验：在测验中,所呈现的刺激和受测者的任务是明确的。

b.投射性测验：在测验中,刺激没有明确意义,问题模糊,对被试的反应也没有明确规定。罗夏、TAT等。

⑦按测验的应用领域分类

a.教育测验：是测验应用最广的领域,用得最多的是学绩测验。注意速度测验和难度测验的区别。（速度测验和难度测验的定义和区别，【04北师大，简答题】）

b.职业测验：主要用于人员选拔和安置,可以是能力和学绩测验,也可以用人格测验。

c.临床测验：主要用于医务部门。许多能力和人格测验可用来检查智力障碍或精神疾病,为临床诊断和心理咨询工作服务。

⑧依据测验结果的解释模式分类

常模参照测验：与常模比较，以评价被试在团体中的相对位置为目的；

标准参照测验：与一绝对标准相比较，以评价被试有无达到该标准为目的。（二者的区别，03北师大，简答题）。

3.经典测量理论和真分数理论模型（03首师大，简答题）

经典测验理论又称真分数理论（有书上称“随机误差理论”）。经典测验由基本假设、信度和效度等概念组成。其中影响最大的是斯皮尔曼的真分数模型。

(1)真分数模型

①真分数的定义即是测量中不存在测量误差时的真值或客观值,操作定义就是无数次测量的平均值,通常用或T表示。另外,用或表示实得分数, 或表示误差分数。

②真分数模型认为,任何测验所测得的分数都等于真实分数和误差分数之和。真分数理论的基本方程式如下：

实得分数是真分数与误差分数的函数,即实得分数由和共同决定。进行心理测量时,一般被视为稳定不变的,因此个体实测分数的变化是由引起的。

③除了基本方程式,真分数理论还有三个基本假设作为整个理论的支柱。

其一,误差分数的平均数是零。

其二,误差分数与真分数相互独立,即相关为零。

其三,两次测量的误差分数之间的相关为零。

（2）信度；（3）效度——见下文

(4)经典测验理论的方法体系可分为项目分析和标准化两大部分。项目分析主要包括计算题目的难度、区分度以及项目特征曲线ICC（坐标为总分或效标分数和通过率）（04华中师大）。测验的标准化是指对不同的被试在测试题目、施测条件和程序、计分和分数解释等各方面都采用一个固定的标准。（测验的标准化对提高测验质量有何作用？它的局限是什么？测验最主要的质量指标是什么？06北师大，简答题）

(二)测量的信度与效度（04浙大，名）

1.测量的信度

(1)信度的定义

信度的描述定义指测验结果的一致性或稳定性,其测量定义为一组测量分数的真变异数与总变异数(实得变异数)的比率,含义是在实得分数的变异中有多大比例是由真分数的变异决定的。r_xx=S_T²/S_x²

(2)信度系数的估计（种类）

①重测信度：

a.求法是对同一批被试运用某个测验实施首测,相隔一段时间后对它进行再测,然后计算首测与再测所得分数的相关（一般是积差相关）,即得重测信度。这种信度能表示两次测验结果有无变动,反映测验分数的稳定程度,故又称稳定性系数。

b.优点：能提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为表现的依据。

c.缺点：易受练习和记忆的影响,前后两次施测间隔的长短必须适度。如果相隔时间太短,则记忆犹新,练习的影响较大；如果相隔时间太长,则身心的发展与学习经验的累积等都足以改变测验分数的意义,而使相关降低。另外,第一次尝试所发现的错误也可能导致第二次反应的变化而增加误差变异。

d.误差来源：时间的不同所带来的随机影响,如气候、偶然的噪音或其他干扰,以及引起被试本身身心状态变化的因素如疾病、疲劳、情绪类型、焦虑等。重测信度代表测验成绩能够应用于不同时间的程度,信度越高,受测验环境中日常的随机因素的影响越小。

由于测验的稳定性系数受时间和其他各种因素的影响,故任何一个测验都可有不止一个重测信度系数。所以在测验手册中报告此种信度时应说明时间间隔以及在此间隔中被试的有关经历,如受过何种教育训练、心理治疗以及有何学习经历等。

②复本信度:

a.求法是先运用同一测验的一型或A型施测,随后在最短的时间内运用二型或B型进行再测,然后再求它们得分的相关系数。

b.误差来源：测验两种形式是否等值：测题取样是否匹配,格式是否相同,内容、题数、难度、平均数、标准差是否一致。再就是被试方面情绪波动、动机变化等,以及测验情境的变化,偶发因素的干扰。这些都会引起测量误差。在报告复本信度时,也应说明两次施测的间隔,以及在此间隔内被试的有关经历。

③内部一致性信度

估计内部一致性系数的方法通常有两类：一类是分半法,另外一类方法需要对项目反应的方差或协方差进行分析。

a.分半法是将一个测验分裂为两个假定相等而独立的部分,然后计算这两部分的记分的相关系数(一般是以项目的奇数为一组,偶数为另一组),继而再用斯皮尔曼－布朗公式来估计整个测验的信度（斯－布公式要求两半的变异数相等）。公式如下：

，其中是分半信度系数,测验在原版时的信度的估计值。

缺点：把测验划分成两半的方法实际上有多种,而每一种划分方法产生的估计都有差别,因此用分半法得到的信度估计值不具备惟一性。

b.克朗巴赫系数（03首师大，名）

适用于非0,1记分的一种内在一致性系数,计算公式为：

式中,n为人数，是测验每个项目的方差。S_i²

c.除了以上两种方法,还有库德－理查逊公式（只适合于0、1记分的题目）；荷伊特信度；因素分析等方法。有些测量学家认为因素分析是决定测验同质性的最好方法。

因素分析方法最初是由心理学家斯皮尔曼在研究智力理论时提出来的,后来发展成为一种复杂的统计技术,用于确定一组变量间的相互关系最少需要几个因素来解释。在测验上,如果一个因素就足以解释所有题目分数的变异时,这个测验就是同质的,假如需要一个以上的因素时,则测验的组成是异质的。

d.内在一致性信度的优点：只需施测一次,就可以估计信度系数,省时节力。另外用内在一致性系数一般要比重测信度、复本信度所算出的信度系数高。

e.不足之处：求分半信度时,分半的方法不同,估计出的信度系数就不同。而且,测验须要求具有同质性。所以项目异质的人格测验,通常就不能用内在一致性系数来估计信度。

④评分者信度（02西北师大，名）

随机抽取相当份数的试卷,由两位评分者按记分规则分别给分。然后根据每份试卷的两个分数计算其相关系数,即得评分者信度。一般要求在成对的、受过训练的评分者之间平均一致性达到0.90以上,才认为评分是客观的。

综上所述,信度高低是用相关系数表示的。不同的测验内容,对相关系数的要求有所不同。一般说来,标准智力测验应达到0.85以上,个性测验和兴趣测验一般应达0.70～0.80水平。学业成就测验要求信度在0.90以上,才能被称为是一个良好的测验。

(3)信度的影响因素与改进（03、04首师大，简答题）

信度与误差变异之间有密切的关系。误差变异越大,信度愈低。凡被试、主试、测验内容和施测情境等各个方面能引起随机误差而导致分数不一致的因素,都会降低测验的信度。

被试方面——身心健康状况、动机、注意力、持久性、求胜心、作答态度等。

主试方面——不按规定实施测验,制造紧张气氛,给予特别协助,评分主观等。

测验内容方面——试题取样不当,内部一致性低,题数过少,题意模糊等。

施测情境方面——测验现场条件,如通风、温度、光线、噪音、桌面好坏、空间阔窄等。

除此之外,还有以下几个因素会影响信度系数的大小：

①被试样本

影响信度系数的一个重要因素是用来确定信度的被试团体的特性。

②团体的异质性（公式）

如同所有相关系数一样,信度系数受分数的分布范围影响,而分数范围与被试团体的异质程度有关。一个团体越是异质,其分数范围越大。而一个经过筛选、相对同质的团体分数则较为均匀。r_nn=1-S_o²(1-r_oo)/S_n²

③团体的平均水平

信度系数不仅受被试样本的个体差异程度的影响,而且受被试团体的平均水平的影响。这是因为,对于不同水平的团体,题目具有不同的难度。每个题目在难度上的微小差异累积起来便会影响信度。由于信度系数与被试样本的异质程度和平均水平有关,因此在编制测验时,应把常模团体按年龄、性别、文化程度分为更同质的亚团体,并分别报告每个亚团体的信度系数,这样测验才能适用于各种团体。

④题目的数量（公式）

题目的数量(亦即测验的长度)也是影响信度系数的一个因素。一般说来,在一个测验中增加同质的题目,可以使信度提高。因为增加测验的长度可以加大分数范围。r_kk=Kr_xx /[1+(k-1)r_xx]

这里要注意一点,只有当新题目是与原题目选自同一总体,即与原题目具有同质性时，增长测验才能改进信度。

⑤测验难度

测验的难度与信度间没有简单的关系。然而,若测验对某团体太难或太容易,则分数范围将缩小,从而使信度降低。这表明,要使信度达到最高,能产生最广分数分布的难度水平方为合适。

⑥间隔时间

以再测法或复本法求信度,两次测验相隔时间越短,其信度系数越大；间隔时间越久,其他变因介入的可能性越大,受外界的影响也越多,信度系数便越低。

2.测量的效度

(1)效度的定义（04重庆大学，名）

效度的测量定义：与测量目标有关的真变异数与总变异数的比率,含义是在一组测验分数中,有多大的比例是由测验所要测量的目标引起的。

总分变差分为三个部分：，

：由所测量的心理特性引起的主要变差,或与所测量的心理特性有关的共同因素所引起的变差；

：由与所测量的特性无关的其他个别特性所造成的变差(系统误差引起的变差)；

：误差变差,是测量误差的变差。

描述定义：效度是指一个测验或量具能够测量出其所要测量目标的程度。

(2)效度的估计

测验的效度分为三大类：内容效度、构想效度、效标效度。

①内容效度（02西北师大，名）（表面效度【04首师大，名】）

内容效度指的是测验题目对有关内容或行为范围取样的适当性。这种测验的效度主要与测验内容有关,所以叫内容效度,指测验题目在要测量的行为领域的代表性。内容效度的评估方法主要应用于对学绩测验的评估。

一个测验要有内容效度必须具备两个条件：要有定义得完好的内容范围；测验题目应是所界定的内容范围的代表性取样。测验题目并不需要包罗该范围的所有材料,而只需包含测验编制者认为是重要的材料。

确定内容效度的方法主要有专家判断、统计分析、经验法等。

a.专家判断

为了确定一个测验是否具有内容效度,最常用的方法是请有关专家对测验题目与原定内容范围的符合性做出判断。

b.统计分析

内容效度可由一组被试在独立取自同样内容范围的两个测验复本上得分之相关来作数量的估计。若相关低,说明二者至少有一个缺乏内容效度；若相关高,一般可推论测验有内容效度。

c.经验法

检查不同年级的学生在测验上的得分和在每个题目上的反应情况。一般说来,测验总分和题目通过率随年级而提高,便是测验具有内容效度的证据。

构想效度是指一个测验对某种心理学理论所涉及的抽象概念或心理特质测得如何。

效标效度又称实证效度,指的是测验对研究者所感兴趣的外在行为能够做出多好的预测。这种外在行为是衡量测验是否有效的标准,简称效标。

②构想效度

构想效度就是测验对某一理论概念或特质测量的程度。研究和考察构想效度要回答三个问题：一个测验测量什么心理构想,对这构想测得有多好,测验分数中有多少比例的变异数是来自测验所要测的构想。

确定构想效度的方法主要分为测验内方法、测验间方法。

a.测验内方法主要是通过研究测验内部构造来界定所测量的构想的范围。如确定测验的内容效度,分析被试对题目作反应的过程,考察测验的同质性等方式。

b.测验间是通过研究几个测验间的相互关系,找出他们的共同特点,进而推断出所测的共同特质是什么,便可确定这些测验是否有构想效度。如确定相容效度、区分效度、因素分析（因素分析法在效度验证中的作用，【04首师大，简答题】）效度等方式。

③效标效度（为了使效标关联效度的更准确反映测验质量，应该关注哪些技术环节？06北师大，简答题）

效标效度又称实证效度,指一个测验对处于特定情景中的个体的行为进行预测时的有效性,也就是对于研究者所感兴趣的行为能够预测得怎么样。其中,被预测的行为是检验测验效度的标准,简称效标。

确定效标效度的方法主要有相关法、区分法、命中率和功利率等。

a.相关法

最常用来建立实证效度的方法是求测验分数与效标测量间的相关,所得到的数量指标称作效度系数。在测验手册中,一般用它来报告测验对每种效标的效度。计算效度系数最常用的是积差相关法。

b.区分法

第二个决定效度的方法是看预测源的分数是否可区分由效标测量所定义的团体。

c.命中率（公式）

当测验用来作取舍的根据时,其有效性的指标就是正确决定的比例（总命中率）。(正命中率和总命中率)

d.功利率

为了确定测验的功效,人们还常常对使用测验所花掉的费用与得到的利益进行比较,看是否利大于弊。这种效度指标,叫功利率。

(3)效度的影响因素与改进

影响测验效度的因素很多,在编制测验或选择标准化测验时,都应该考虑到这些因素,以免影响测验结果的有效性。

①测验本身的因素

a.测题中所用词汇和句型不能过于困难。测题中的词汇和句型应适于被试的文化水平。

b.试题的意思应该清楚。题意含糊,容易产生歧义,以致被试产生误解也会降低测验的效度。

c.所编制的测题应该造合所要测量的学习结果。

d.测题中不能提供额外线索。若测题为被试提供了额外线索,就无法确认测题是否真正测量到了所欲测量的学习结果。

e.测题的编制要合理。一般地,测题以由易到难的顺序排列。

f.选择题的正确答案不能有明显的组型。如果测验正确答案的位置有明显的规律,学生有可能发现规律答对一些原本较难的题目,从而影响测验结果的效度。

g.测题数目。增加测题的数目(即增加测验长度)通常可以提高测验的信度和效度。

h.测题的难度要适当。标准参照测验中的测题平均难度应在0.05左右,并有适当的难度分布,测题太难或太易都无法区分学生的优劣,从而降低测验的效度。标准参照测验并不强调测验分数间的差异,也就不需要区分学生的优劣,这时的测题难度就应该与教学目标的要求相一致。

②测验实施和计分方面

测验情境,如场地的布置、材料的准备等都会影响到测验的效度,此外,在实施测验的过程中,是否遵照测验使用手册的各项规定进行标准化的施测,指导语是否已将答题方式说明清楚,是否按要求进行时间限制等,也影响到测验的效度。如果没有按照标准化的程序进行施测和客观的评分,就必然会使测验效度降低。

③被试的主观方面

被试的兴趣、动机、情绪、态度和身体健康状况以及是否充分合作与尽力而为等,都会影响到测验结果的可靠性和正确性,即效度和信度。

3.信度和效度的关系（03首师大，简答题）

(1)信度和效度的关系：信度是效度的必要条件,但不是充分条件。

具体是：信度低,效度不可能高。因为如果测量的数据不准确,也并不能有效地说明所研究的对象；信度高,效度未必高。例如,如果我们准确地测量出某人的经济收入,也未必能够说明他的消费水平；效度低,信度很可能高。例如,即使一项研究未能说明社会流动的原因,但它很有可能很精确很可靠地调查各个时期各种类型的人的流动数量；效度高,信度也必然高。

信度和效度的差别在于所涉及的误差不同。信度考虑的是随机误差的影响,效度的误差则还包括由于测量了对测验目的来说无关的变量所引起的系统误差。

(2)效度受到信度的制约

(三)心理测量的误差（误差的来源及其控制）（详述测量误差的来源，【04首师大，论述】）

1.测量误差的定义

(1)所谓误差是指在测量中与目的无关的因素所产生的不准确的或不一致的结果。测量误差分为随机误差和系统误差。

(2)在测验中,有与测量目的无关的偶然因素引起的变化无规律的误差,使得多次测量结果不一致,这种误差的大小和方向是随机的,叫做随机误差或偶然误差。

(3)有与测量目的无关的因素引起的恒定的有规律的误差,它稳定地存在于每一次测量中,这种误差叫做系统误差。系统误差只影响测量的准确性,而随机误差既能影响准确性,也能影响一致性。

能带来误差的因素有很多,实际上任何与测验目的无关的变因都可能引起误差。测验的标准化就是为了控制这些误差因素,使测验分数更可信、更有效。

2.测量的随机误差来源及控制

(1)测量的随机误差来源于施测过程引起的误差,在测验的实施过程中可能引起误差的因素很多,如测试环境、时间、主试者、意外干扰、评分记分等。

①测试环境的干扰。施测现场的温度、光线、桌面高低好坏等对被试都有影响。例如,在测试过程中,光线充足,有利于被试正常地作答；光线暗淡,则会影响作答的效果。

②测试时间的影响。时间安排也是影响测试准确性的一个重要因素,如果时间安排不当或时限不统一,必然会引起测验结果的改变。

③主试因素。主试的年龄、性别、外表、言谈举止、表情动作、对测验过程的熟悉程度等都能影响测验的结果。如果不按照规定施测,如给予暗示、制造紧张气氛等都会带来很大的误差。

④意外干扰。在测试环境复杂,特别是当被试人数较多时,可能发生意外情况,例如：停电、有人生病、作弊等等,无论哪种情况出现,都会影响测验结果的准确性。

⑤评分记分。评分不客观和记分出现错误也是较常见的误差。一般来说,客观题的评分较为准确客观,而主观题的评分标准较难掌握,再加上阅卷者的风格、情绪以及其他心理因素的干扰,因而很难保证分数的一致性。

(2)控制

①主试在测验前要把测验材料准备好,以免短缺而临时寻找。事先的充分准备可减少实施过程的测量误差,负责施测的主试也要有一本测题册和一份答案记分纸,并请被试准备好铅笔或圆珠笔。

②测验被试的确定和测验场地和时间的约定也是一个不容忽略的问题。一定要与被试、被试的家长,或者被试所在学校(校长和班主任)在被试对象、时间和地点等方面事先做好约定,不要临时应付,造成被试情绪上的波动,影响测试的正常进行。主试应努力联系条件符合要求的测验场地。一般来说,测验场地应保证良好的照明和空气调节,并避免噪声和其他外界干扰,桌椅大小高低要适合,桌面要平整。

③评分记分要客观。

3.测量的系统误差来源及控制

(1)测验自身引起的误差

测验自身的误差主要来源于测验的编制过程,其中项目取样影响最大。测验所要测量的内容是什么,测验的项目能否代表这些内容,是至关重要的。当测验的项目较少而取样缺乏代表性时,被试的反应很难代表真实水平。对于有些类型的项目,例如是非题、选择题,被试可能凭猜测作答,从而降低分数的可靠性。此外,题目用词模棱两可,或对要求叙述不清等,也都会带来误差。

(2)被试引起的误差

在测量工作中,最复杂的和最难控制的是由被试本身引起的各种误差。

①应试动机。如果被试在两次测试时的动机不一样,会使被试的回答态度、注意力、持久性以及反应速度发生变化,就容易引起测量误差。

②测验焦虑。研究表明,能力与测验焦虑呈负相关,抱负水平与焦虑成正相关,缺乏自信、情绪不稳定的人焦虑较低等。

③测试经验。被试对测验的程序、内容材料的熟悉程度不同以及回答技巧的差异都会影响测量的一致性。所以正式测验之前,应有示范或例子、练习。

④学习、发展与教育。重复测验中如果有个别人在首次测验后受到特殊训练(学习),重复测验中某些人在两次测验间受到特殊训练,或教育学习量不同,均会造成测量误差。

⑤反应倾向。独立于测验内容的反应倾向,也会使得本来能力相同的被试获得不同的成绩。对于速度测验,由于测验时间有限,而题量又较大,求快与求准两种不同倾向会对测验成绩产生影响；对于是非题,某些人有偏好选“是”或选“非”的倾向。这些都会给测验成绩带来误差,为此在编制时一定要注意控制这些倾向的影响。

⑥生理因素。当被试在测试前失眠,或在生病、疲劳的状态下进行测试,也容易引起则量误差。

能带来误差的因素还有很多实际上任何与测验无关的变因都可能引起误差。测验的标准化就是为了控制这些误差因素,使测验分数更可信、更有效。

(3)控制

①测题数量要适中,要有代表性,能代表所要测量的内容。表达要简洁清晰,不要模棱两可。

②测试中,通常应告诉被试如何对测题作反应。主试是通过指导语指导并帮助被试理。

解测验的施行要求、方法和步骤,并让受测者尽量放松心情,消除焦虑。

4.测量误差的估计（公式）（标准误，【04华中】，名）

(1)系统误差仅与无限多次测量结果的平均值有关,而与在重复性条件下得到的不同测量结果无关。因此,在重复性条件下得到的不同测量结果应该具有相同的系统误差。

由于系统误差和真值有关,而真值是无法确切知道的,只能用约定真值代替,因而可能得到的只是系统误差的估计值,并具有一定的不确定度。系统误差可以通过对测量结果进行修正而消除。由于误差等于负的修正值,因此系统误差的不确定度就是修正值的不确定度。

(2)随机误差等于误差减去系统误差。

因为测量只能进行有限次数,故可能确定的只是随机误差的估计值。若测量结果为无限多次测量结果的平均值,显然此时的随机误差为零,也就是说测量结果中已经不含有随机误差分量,只存在系统误差。但实际上不可能进行无限多次测量,因而在测量结果中随机误差和系统误差分量都存在。在重复性条件下得到的不同测量结果具有不同的随机误差,但有相同的系统误差。

(四)心理测验的项目分析（02西北师大，名）

1.题目的难度

(1)概念：难度就是项目(或题目)的难易程度。能力测验中常以该项目的通过(或答对)率表示,即以答对或通过该题的人数的百分比来表示：

式中, 代表试题难度；为全体被试人数；为答对或通过该题的人数。

在非能力测验中,类似的指标是“通俗性”,即取自相同总体的样本中,能在答案范围内回答该题的人数。

(2)难度的计算方法

①二分法记分的项目

若试题为二分法项目(即答对给1分,答错记0分)时,难度可以直接采用公式[]计算。

当被试人数较多时,则可以根据测验总成绩将被试分成三组：分数最高的27%的被试为高分组(),分数最低的27%的被试为低分组(),中间46%的被试为中间组。分别计算高分组和低分组的通过率,再求试题的难度：

其中代表难度,和分别代表高分组和低分组的通过率。

②非二分法计分的项目

当测验项目为问答题或其他不能用二分法计分的形式时,常常对部分正确的反应也给一定分数。对于这类项目,一般用下面的公式计算难度：

式中,为全体受测者在该题上的平均分,为该题的满分。

(3)难度水平的确定

①在测验编制过程中,分析项目难度主要是为了筛选项目。项目的难度水平多高合适,取决于测验的目的、项目的形式以及测验的性质。0.5上下浮动0.2。

在教育工作中,有些测验的目的是为了考查学生对某些方面的知识、技能是否掌握,此时可以不考虑难度。当测验用于选人时,应该比较多地采用那些难度值接近录取率的项目。

②作为一个整体的测验的难度,直接依赖于组成测验的项目的难度。对整个测验的难度的综合性检验,可由分数的分布提供。当分数分布是正偏态,分数密集在低端,表明测验的难度偏高。当分数分布是负偏态,分数密集在高端,表明测验的难度偏低。

2.题目的区分度（03华中师大，名）

(1)概念：区分度是指项目对所测量的心理特性的区分程度或鉴别能力,也就是项目的效度。常以高分组与低分组在该项目得分的平均数的差异表示,或以该项目得分与测验总分的相关表示。

(2)确定区分度的方法

确定区分度常用的是相关法,即以项目分数与效标分数(或测验总分)的相关作为项目区分度的指标,相关越高,区分能力越好。

①二列相关。二列相关适用于两个可以连续测量的变量,但其中有一个由于某种原因被分成两个类别。

②点二列相关。点二列相关适用于一个变量为连续变量,另一个变量为二分变量的资料。当一个变量是双峰分配时。尽管它并不是真正的二分变量,这种统计方法也适用。

③四分相关。四分相关适用于两个常态的连续变量均被人为二分的资料。如果一个题目分数被二分成通过不通过,效标成绩也被分成通过与不通过,这时就会得到四个类别,从而可组成一个四格表。计算四分相关最常用的是皮尔逊的余弦公式。

④相关。相关的统计方法适用于两个变量都是点分配的资料,即两个变量都是二分名义变量。

⑤项目和总分相关重叠的校正。在做项目分析时,需要经常计算项目和总分的相关,这是一种局部和总体的相关,在一个测验中,只有当每一项目的变异数相同或项目非常多,以致每个项目所贡献的变异数比例都很微小时,才能把项目和总分的相关作为项目区分度的指标。如果不具备这些条件,最好计算每一项目和所有其他项目合成分数之间的相关。

(3)鉴别指数的计算（项目鉴别指数的意义是什么，02华东师大，简答题）

鉴别指数（04华中师大，名）的计算就是求区分度指标。当效标测量是一个连续变量(例如学业分数)时,可从分布的两端选出高分组()和低分组(),然后将高分组和低分组通过每个项目的人数用百分比来表示,这两个百分数之间的差异就提供了题目区分度的指标。计算公式表示为：

其中为鉴别指数,为高分组(27%)通过人数百分比, 为低分组(27%)通过人数百分比。区分度的值亦具有相对性,与计算方法、样本大小、分组标准和样本的同质性有关。所以很难确定一个绝对的水平作为筛选项目的标准。对于教育成就测验来说,一般要求项目与总分的相关达到0.20以上,高分组与低分组通过率之差达到0.15～0.20以上。

(4)区分度与难度的关系

难度和区分度都是相对的,是针对一定团体而言的(绝对的难度和区分度是不存在的)。一般说来，较难的项目对高水平被试区分度高,较易的项目对水平低的被试区分度高,中等难度的项目对中等水平的被试区分度高。这与中等难度的项目区分度最高的说法并不矛盾。由于人的多数心理特性呈常态分布,所以项目难度的分布也以常态为好,即特别难与特别容易的题目较少,越接近中等难度的题目越多,而所有项目的平均难度为0.50。

3.题目的综合分析和筛选

(1)鉴别力。取舍题目时,首先要看鉴别力。按照测题的鉴别指数与优劣之评鉴标准,0.30以上的项目是比较好的。

(2)难度。值一般在0.35至0.65之间为好,但就整个测验而言,难度为0.5的测题应居多,也需一些难度较大或较小的测题。

(3)选项。项目的选项分析是指对选择题后面所提供的几个答案的分析。选项分析的异常情况主要有：正确答案无人选择,或少于其他选项人数；错误答案选的人太多；正确选项上高分组选择人数少于低分组；错误选项上高分组选择人数又多于低分组；某个选项无人选择；未答的人数较多。

(五)心理测验的编制技术

1.心理测验编制的基本程序编制的步骤主要有

(1)拟订测验编制计划。包括确定测验的目的和目标内容、制定编题的双向细目表（内容以及所占的百分比）。（在编制学业成就测验时，确定双项细目表有何价值？ 06北师大，简答题）

(2)编选测验题目。根据编题的双向细目表,编写测题,测题数应比最后所需的数目多一倍至几倍,以备筛选和编制复本。

(3)试测和分析。选择与测验对象相近的团体进行试测,试测的实施与情境应力求与以后正式测验的情况相类似,项目分析应从质和量两方面进行,并对不适当的题目予以修改或删除。

(4)编排。编排题目有两种方式：一种是并列直进式,即将整个测验题按题目材料的性质归为若干份测验,同一份测验的题目依难度由易到难排列；另一种是混和螺旋式,即先将各类题目依难度分成若干不同的层次,再将不同性质的题目作交叉排列,难度递增。

(5)建立常模。从将来要使用测验的全体对象中抽取标准化的样本进行施测,计算出平均得分,即为该测验的常模。

(6)鉴定测验一是鉴定测验的信度以了解其可靠性或一致性；二是鉴定测验的效度,考验其有效性和正确性。

（7）编制测验手册

2.测验目标与命题双向细目表

(1)测量目标

①概念：指所编制测验是用来测量什么心理变量或行为特征的。测验目标必须具有操作定义,即目标要非常具体,如测量语文理解能力的目标可定为测量阅读时了解文义的能力。

②分析测量目标主要包括两个方面：一是确定能表征所欲测量的心理结构的行为；二是确定每一类行为的项目比例。

(2)命题双向细目表

①概念：命题双向细目表是测验编制过程中的重要依据,即编题计划。它指出测验所包含的内容和要测定的各种技能,以及对每一个内容、技能的相对重要程度。

②用途：在编题阶段,命题双向细目表指出应该写多少和写哪些种类的题目,题目编好后可将题目的实际分布情况与测验计划对照,以确定测验题目是否恰当地代表了所要测量的领域,核对重要方面的内容是否有遗漏。在记分时可按表中百分比确定每类题目的分数。

3.题目编制技术

要编制一套好的测验题目,需要掌握命题的原则和一般要领。

(1)命题的一般原则

①试题要符合测验的目的。

②内容取样要有代表性。

③题目格式要简洁,不要使被试发生误解。

④文句要简明扼要,要避免使用艰深的字词。

⑤应有不致引起争论的确定答案(创造力测验、人格测验除外)。

⑥每个试题必须彼此独立,不要使一个题目的回答影响另一个题目的回答。

⑦题目中不可含有暗示本题或其他题正确答案的线索。

⑧题目内容不要超出受测团体的知识和能力范围。

⑨所提问题应避免涉及社会禁忌与个人隐私。

⑩施测与评分省时。

(2)测题编制

题目形式根据应答的方式,可以分成两大类,即自由应答型和固定应答型。

①自由应答型题目是让受测者用自己的语言或行动来对某一问题做出回答,包括填充题、简答题、论文题、联想题等。

②固定应答型题目又称客观性题目,是让受测者从测验编制者事先定好的答案中辨认出正确答案,包括多选题、是非题、匹配题等。这种题目因为评分客观,所以在标准化测验中用得较多。（选择题中什么样的选项是可以被接受的？02华东师大论述）

各种类型的题目均有自己的特点和编制原则,但在编制一套测验题目时应该遵循这些基本原则。

? 1.选择题（题干简明、选项扼要、答案唯一、选项等长、题干选项用词不一致、选项同一形式）

? 2.是非题（言之有据、每题一个概念、避免否定和双重否定、表达意见说明来源、“是”“非”基本相等）

? 3.简答题（用问句、空格不宜过多、只有一个简短答案）

? 4.操作题（操作化、项目的真实性、指导语简明、制定评分标准）

(六)心理测验的施测

1.测验的设计

测验的设计是指对测验的结构和内容、进行测验可达到的目的、测验结果可提供的信息、测验的适用范围、测验的心理测量学指标(考察测验的信度、效度以及常模或对照标准的有效性)等进行设计。

进行心理测验前,主试应该充分了解测验的设计,根据考查目标,受测者特点,测验设计,选择合适的测验。测验的使用一般应按照测验手册严格执行。

2.施测的程序和步骤

心理测验的使用一般是由合格的心理测验专业工作者按下列顺序进行的,即依次为选择测验、施测、评分、测验结果的解释和报告及实际运用。

(1)测验的选择

测验的使用开始于测验的选择。审慎挑选测验是避免测验误用的首要环节。选择与测验活动目的相符的测验,了解测试对象的受测条件,分析所选测验的特点。

(2)测验的实施（主试应该注意什么？01华东师大，简答题）

测验的实施是保证测验有效性的重要环节。其中的关键是如何使测验标准化和尽量控制测量误差。

①主试在测试前要熟悉测验的结构和内容及其使用方法,主试在测验前要把测验材料准备好,在测试前一定要认真核对每名被试的出生日期。

②标准化指导语（02西北师大，名）

测验标准化的第一步是指导语标准化,即在测验实施过程中应该使用统一的指导语。对被试的指导语一般包括：如何选择反应形式(画钩、口答、书写等)；如何记录这些反应(答卷纸、录音等)；时间限制；如果不能确定正确反应时该如何去做以及计分的方法；例题；有时告知被试测验目的。

给主试的指导语通常单独印在另一张纸上。主要包括对测验细节的进一步解释及其他注意事项。

③施测顺序

有效的测验结果有赖于主试遵从标准程序进行测试。各种测验都有一些具体的程序规定,在指导手册中都有详细说明。

④标准时限

时限的确定,在很多情况下受施测条件(如课堂时间)以及被试特点(如老人、儿童、病人)的限制,但最重要的考虑因素是测量目标的要求。一般要通过预测来确定测验的时限。

⑤测验的环境条件

测验的标准化不仅指指导语、时限、测验材料和其他测验本身的因素,也指施测的周围环境。良好的物理环境包括安静而宽敞的地点,适当的光线和通风条件。在测验期间还要防止干扰。

⑥计算机辅助的测验实施

计算机实施测验,其指导语可以通过视觉呈现或录音说明,测验的反应可以自动记录下来。有时当测验程序不太清楚时,计算机可以给被试更明确的指导。

⑦主试和被试间的良好的协调关系

主试应该明白他的工作效果在很大程度上依赖于他与被试之间保持良好协调关系的能力。主试和被试的密切合作将有助于被试乐于表现各种能力和尽可能多的特点,提供更多的信息,从而达到测试的目的。

(3)测验的评分

评分实际上应包括在施测程序中,它是整个施测程序中的最后步骤,也是为被试测试结果的解释和报告做准备的。

(4)测验结果的报告

对测验结果的解释和报告采取慎重态度。还必须参照其他各项资料,应兼顾个体间差异与个体内差异的分析。对于测验结果的分析,可从广度与深度的两个方面进行。

(七)测验常模（03华中师大和05首师大，名）

1.常模与常模团体

(1)概念

①常模即指标准化样本的测验作业情况。

②常模团体是由具有某种共同特征的人所组成的一组群体,或是该群体的一个样本。它用一组标准的、规范的分数表示出来,以提供比较的基础。常模团体的一般平均分数就是常模。1.构成明确：小团体常模2.常模团体必须是所测群体的代表性样本；3.样本的大小要合适：全国性常模20##-3000为宜。4.标准化样组是一定时空的产物：地域性、时效性。（确定常模团体时，应注意哪些问题？【03北师大，简答题】）

(2)建立常模的方法

在将来要使用测验的全体对象中,选择有代表性的一部分人(称标准化样本),对此样本施测并将所得的分数加以统计整理,得出一个具有代表性的分数分布。标准化样本的平均数,即为该测验的常模。

(3)类别

常模可因标准化时选取样本的不同而有不同的类别。常见的有年龄常模、年级常模、性别常模、地域常模、民族常模、职业常模等。

2.分数转换与合成

要使测验分数具有意义,并且使不同的原始分数（为什么说测验的原始分数不能用来解释测验的结果，02华东师大论述）可以比较,就要对它们进行适当的转化处理或者与参照标准加以对照。经过处理和对照参照标准得来的分数就是导出分数。

(1)分数转换

导出分数可用下面两种方法之一来描述：

①已经达到的发展水平：

②在某一特殊团体中的相对位置。依照前者而来的常模可称之为发展性常模,后者为组内常模,对应的量表为发展性量表和组内量表。

常用的发展量表有：智龄；年级当量(grade equivalence)；顺序量表(ordinal scale)；发展商数。

常用的组内量表有：百分量表(percentile)；标准量表(standard scale),如离差智商（05北师大，02西北师大，名）、T量表、标准分数等。

(2)分数合成（测验分数为什么要合成？说明合成测验分数的主要方法，【03北师大，简答题】）（选择两种分数合成的方法，评述优缺点？06北师大，简答题）（临床、推理、多重分段、多重回归）

在使用测验时,常常需要将几个分数或几个预测源组合起来以获得一个合成分数或做出总的预测。分数的组合可以在不同层次上进行。

①题目的组合

每个测验都包含许多独立的题目,把各个题目分数组合起来。不同的题目可以组成量表或分测验,而得到量表分或分测验分；所有题目也可以合成一个测验总分。

②分测验或量表的组合

有些测验是由几个分测验或量表组成的,每个分测验或量表都有自己的分数,这些分数可以组合到一起得到一个合成的分数。

③测验或预测源的组合

在做实际决定时,常常将几个测验或预测源同时使用。采用哪种组合方法取决于使用测验的目的。

3.常模的编制

(1)通过分析标准化样组的实际作业情况,可以建立常模。常模的可信度取决于样组的代表性和可靠性。前者又取决于样组的取样原则(坚持随机取样)和容量大小。

(2)标准化样组的条件

①标准化样组的成员必须给予确切的定义。标准化样组的成员必须都是具有某一研究多特征的个体。

②标准化样组必须是欲测量的全域的一个代表性样组。

③取样的过程必须有详细的描述。它是说明样组代表全域的程度。

④标准化样组的规模要有适当的大小。一般来说,取样误差与样本大小成反比。所见在其他条件相同的情况下,样本越大越好。但也要考虑具体条件(如人力、物力)的限制。在有代表性的前提下,样本应该大到足以提供稳定的常模值。究竟应该大到多少,可根据要求的可信程度与容许的误差范围进行统计推算。

⑤标准化样组是一定时空的产物。我们在一定的时间和空间中抽取的标准化样组,它只能反映当时当地的情况。随着时间的推移、地点的变更,标准化的样组就失去标准化的意义,这样,常模就不适合现时现地的状况,就得进行修订。

4.几种常用的常模

(1)发展性常模与发展量表

人的许多心理特质如智力、技能等,是随着时间以有系统的方式发展的,所以可将个人的成绩与各种发展水平的人的平均成绩比较而制成发展量表。在此量表中,个人的分数可指示出他的行为属于哪一个发展水平。

①智龄

一个儿童在年龄量表上所得的分数,就是最能代表他的智力水平的年龄,这种分数叫做智力年龄,简称智龄。年龄常模的基本要素为：一套能区分不同年龄组的题目；一个由各个年龄的被试组成的代表性常组(即常模团体)；一个表明答对哪些题或得多少分该归入哪个年龄的对照表(常模表)。

②年级当量

在教育成就测验上,经常采用年级当量来解释分数。所谓年级当量,是把学生的测验成绩与各年级学生的平均成绩比较,看他相当于几年级的水平。年级常模可以从计算各年级学生在某份测验上的平均原始分数而得。

③发展顺序量表

儿童心理学的研究表明,人的早期行为发展具有一种固定的顺序性,根据这个事实,人们编制了一些婴幼儿发展测验,用来检查小儿身体和智能的发育情况。发展量表的优点是：以年龄或年级当量作为单位来报告分数,易于被人理解；可与同辈

团体做直接比较；为个人内比较与纵向研究提供了基础。发展量表的缺点是：仅能用于年纪小的典型环境下成长的儿童；无法做代数运算；并且获得同样的年龄或年级当量分数,并不一定具有相同的智力。

(2)组内常模和量表（智商分数的计算方法有哪几种？为什么它们可以表示不同年龄和群体成员智力水平的高低？06北师大，简答题）

现在几乎所有的标准化测验都提供某种形式的组内常模。利用这种常模,个体的作业情况通过与和其最可比较的标准化团体的作业比较而得以评价,组内分数有一个统一、清楚地定义好的数量意义,能运用大多数统计分析。

①商数

a.比率智商

在1916年推孟修订的斯—比量表中采用了智商的概念。智龄表示心理发展的水平,它是一个绝对的量数而智商则表示心理发展的速率,它是一个相对的量数。智商()被定义为智龄()与实龄()之比。为避免小数,将商数乘以100：

以这种方式得到的智商叫比率智商。比率智商存在以下几个问题：

(1)智力不是直线发展,因而以智龄作为发展水平的单位是不等距的,但实龄却是一个等距单位,这就给求智商带来了困难。

(2)计算成人智商时应该用多大实龄作为除数尚无一定的标准,因为智力生长何时达到顶点还是一个有争议的问题。

(3)不同的年龄组,智商分数具有不同的标准差,因而相同的智商对于不同的年龄便具有不同的意义。

b.教育商数

在教育测验中有时还采用其他一些商数来表明教育发展或成就的速率。教育商数()为教育年龄()与实足年龄(CA)之比：

所谓教育年龄是指某岁儿童所取得的平均教育成就。

②百分等级（计算——一般是未分组资料）

一个分数的百分等级可定义为在常模团体中低于该分数的人数的百分比。百分等级指示个体在常模团体中的相对位置,百分等级越低,个体所处的地位越低。

百分位量表的优点是：容易计算,容易解释。对于各种被试和各种测验普遍适用。缺点是：缺少相等单位,属于顺序量表,不能做加、减、乘、除运算。

③标准分数（华南04）

标准分数是将原始分数与平均数的距离以标准差为单位表示出来的量表。因为它的基本单位是标准差,所以叫标准分数。标准分数可以通过线性转换或者通过非线性转换得到,由此可将标准分数分为两类：

a.线性转换的标准分数

根据标准分数的定义,可通过下式将原始分数直接转换成标准分数：

b.常态化的标准分数

当原始分数不是常态时,为了使导出的分数呈常态分布,可先把原始分数转化为百分等级,然后从正态曲线面积表中便可得到对应的标准分数。由这种方式所得到的分数就叫常态化的标准分数。在将分数常态化时有一个前提：只有所测特质的分数实际上应该是常态分布,只是由于测验本身的缺陷或取样误差而使分布稍有偏斜时,才能计算常态化标准分数。

分数：分数以50为平均数,以10为标准差。

标准九：标准九的全称为标准化九级分制,是一种比分数粗糙的量表。它以5为平均数,以2为标准差。

(八)标准参照测验

1.标准参照测验的定义与作用

(1)标准参照测验的定义

标准参照测验是指一个人在测验上的成绩不是和其他人比较,而是和某种特定的标准比较。一种标准是对测验所包含的材料熟练或掌握的程度,涉及的主要是测验内容,所以这个分数又叫内容参照分数。

标准参照测验是将被试的分数与某种标准进行比较来解释。这种测验常常用来检验学习效果,看对指定的内容范围掌握得如何或达到某一标准。

(2)标准参照测验的作用

①标准参照测验的主要优点在于它用个人所掌握的内容或技能的水平来描述行为,指出一个人知道什么和能做什么。在大多数情况下,这比知道一个人在团体中的相对位置更有价值。用测验诊断出学习困难之所在,从而规定出下一步的学习内容。

②能够提供教学效果的反馈,适合于计算机辅助教学以及利用程序教材自我掌握进行的学习。

③主要用于学绩测验以及能确定出可接受的最低标准的资格测验。

④标准参照测验和常模参照测验只是看待一个人行为的两种不同方式,两者并不互相排斥。有时,会把这两种测验结合使用,既想知道一个人掌握了多少,又想知道他在团体中的位置。

2.标准参照测验的题目分析

(1)标准参照测验的题目分析是根据编制测验时确定的目标来选择难度,如果标准参照测验用来评定弱智儿童的入学资格,则难度应较低,而如果测验是用来选拔大学生,则难度相应较高。

(2)根据鉴别力和难度水平选择出合适的测题后,应该对照原来的双向登记表看看所量的测题所代表的行为类别之间的比例是否失调,如果失调的话,应加以调整。

(3)此外,还应考虑测验的长度问题,一个测验究竟包括多少测题才比较合适,要根据测验的时限、对象的年龄、测验的性质而定。

3.标准参照测验的信度与效度（如何估计常模参照测验和标准参照测验的效度，【03苏大，简答题】）

标准参照测验中信度最常用的量数是等值性系数,即复本信度。如果没有复本,也可使用分半信度。

估计标准参照测验的效度常用内容效度,关注取样的适当性。有时也需要考虑构想效度,以确定测验是否受无关变量的影响。

4.标准参照测验的分数解释

标准参照测验是看被试对指定范围中的内容和技能掌握得如何。有必要根据绝对的熟练水平来测量被试的行为。比如,当测试者想证实被试在某一学科上是否达到了某一最低的能力界限或者评估教育计划的有效性时就需要这种信息,被试的原始分数就有意义。

(1)标准往往依据学生的能力和教学情况。例如,某种词汇测验的常模分为60分,有的教师可能认为以60分作为标准太低,有的教师可能认为他的学生能达到60分他就满意了。

(2)标准参照分数表明个人所掌握的内容或技能的水平,指示一个人知道什么和能做什么。

(3)标准参照分数能够提供教学效果的反馈,适合于计算机辅助教学以及利用程序教和自我掌握进度的学习。

(4)标准参照测验主要用于学绩测验以及能确定出可接受的最低标准的资格测验。

(5)标准参照分数和常模参照分数只是看待一个人行为的两种不同方式,两者并不互相排斥。

(九)心理测验理论的新发展

1.经典测验理论的局限（04首师大，简答题）

经典测验理论的局限性表现在以下几方面

(1)抽样变动大

项目统计量(项目难度和项目鉴别力)依赖于测验所实施的被试样组。比如答对率,如果样本中含能力高的被试越多,则P值越高；相反若样本中含较多低于平均能力的被试,则P值较低。鉴别力也一样。

(2)能力难比较

被试测验分数依赖于所施测项目的难度。不同测验测量同一种心理特质时,会得到不同的测验分数。项目难度高,被试测验分数低。这样,被试在不同测验上所得分数难以比较。

(3)复本难实施

经典测验理论()是在平行测验(即复本)假设下估计测验信度和测量标准误,以及达到预期信度所需的测验长度的。事实上,平行测验是不可能实现的,所以由此而进行的各种估计就不会非常精确。另外,信度系数的计算与被试样组有关,同一测验施测于不同被试组时,它的信度是变化的。

测量专家们认为,经典测验理论中最基本的四个概念是项目难度、项目区分度、信度和正确应答测验分数,前三者都依赖于被试样组的能力水平分布,即正确应答测验分数；后者又依赖于项目难度。概念间相互依赖。

(4)缺乏预测力

不能提供不同能力水平的被试如何对项目作出反应的信息,而实际工作中却往往要.对被试答对各个项目的概率进行估计。

(5)等测量标准误差

假设对所有被试测量误差的方差都相等,这是难以满足的。让较低能力的被试参加E较难测验,则测量误差大。同样,有些被试在完成某个任务时比另一些被试更具一致性。

另外,在实际应用中,还无法提供各项目及测验在其分数量表上具有最大鉴别力的首位置(比如高考录取分数线)；由于无法确切掌握不同团体被试真实能力之间的差异, 无法对项目偏差进行研究,也无法将分数等值。

2.项目反应理论（04首师大，名）

(1)项目反应理论概述

项目反应理论和心理学中关于潜在特质的一般理论有关,假设被试对于测验的反应是受某种心理特质的支配,那么我们首先就要对这种特质进行界定,然后估计出该被试这种特质的分数,并根据该分数的高低来预测和解释被试对于项目或测验的反应。因为这种特质无法直接测量,所以称作潜在特质。

确定被试的心理特质值和他们对于项目的反应之间的关系,这种关系的数学形式就是“项目反应模型”。这是一概率型模型,因为被试对于测验项目的反应除了受到某种特定“特质”的支配外,还受到许多随机因素的影响。从某种意义上讲,的核心就是数学模型的建立和对模型中各个参数的估计。

(2)项目反应模型

项目反应模型主要分为两大类：静态模型和动态模型。

①静态模型描述被试某个时刻的素质、能力水平(不随时间变化)。目前比较成熟的是静态模型。

②动态模型则用来描述被试的内在素质、能力水平随时间变化的情况

(3)项目反应理论的特点

①题目参数的跨群体不变性

在项目反应理论中,测验的题目参数具有跨群体不变性。项目反应理论的这个优良特质为建设大型的题库、编制各种测验提供了方便。

②潜在特质量表的可选择性

题目参数的跨群体不变性只有通过潜在特质量表确定时才表现出来。一旦潜在特质的度量系统发生变化,则题目参数也会随着变化。因此,施测于不同被试群体的试题,要使其题目参数不变,就要使两群体潜在特质的量表保持一致。由于项目反应理论中潜在特质的量表可以任意选择,因此上述的要求能够得到满足。项目反应系统的这一优良性质为进行测验等值提供了理论基础。

③参数设计的科学性

参数设计的科学性主要表现在：题目难度参数与被试潜在特质定义在同一度量系统上。这一性质为选择被试与被试水平匹配的试题施测创造了条件；区分度参数与难度参数相互独立。由特征曲线可以看出,区分度参数由曲线拐点处切线的斜率决定,与拐点的位置没有关系,即与难度没有关系。

④信息函数概念的引进与信息函数的可加性

根据项目反应理论对信息函数的定义可以看出,项目反应理论的测验误差不仅与参测题目性质有关,还与参测被试的水平有关,即对不同的被试施测相同试题其测验误差并不相同。测验信息函数概念的引进从根本上改变了测验误差分析的思想方法和技术,也为测验编制提供了一种新型的、切实可行的选题策略。

(4)项目反应理论的应用

①项目反应理论对题库建设的特殊贡献

题库质量高低的一个重要标志是库中题目技术参数的完备性与准确性。项目反应理论题库的计量技术参数除这几个外,还可增加题目信息函数。把题目信息函数作为技术存入题库是项目反应理论独有的,这提高了题库参数的完备性,提高了题库管理的可控性。另外,参数的准确性也是题库质量的重要条件。

②常模参照性测验的编制

测验编制的一个重要目标是要使测验的误差达到最小。在项目反应理论中,可以预先规定潜在特质量表上所有值的最大允许误差,然后利用公式求出所有水平值上的最小允许信息量,形成一个信息函数,项目反应理论称作目标信息函数。这样,测验中用较少的试题就可以达到不超过允许误差的要求,提高了测验的效率。

③目标参照性测验的编制

目标参照性测验的编制有两条原则：一是要准确划定合格的分数线,二是要尽量降低对被试合格与否的误判率。项目反应理论在备有题库的条件下组拼目标参照性测验可以比较理想地实现这两个原则。

④计算机化自适应测验编制

计算机化自适应测验是当今测验技术的最高水平,也是项目反应理论最有特色的应用。在项目反应理论的指导下,结合计算机的应用,可以实现计算机化自适应测验。

3.概化理论（04首师大，名）

(1)概化理论形成于20世纪60年代。基本观点如下：

①概化理论认为,测量情景关系由测量目标和测量侧面构成。测量目标就是研究者通过测量以及测验分数所试图描述、刻画、揭示的研究和那个心理特质。测量侧面可以看成是误差的来源,即除了测量目标之外的影响和制约最后测验分数的所有条件和因素。测量侧面有水平的不同,侧面的水平是指一个测量侧面所包含的个别状态。

②可观察全域指所有可能的不同的实施测验情景的全体,其中一系列相同的测验情景称之为一个侧面。同一被试可以在多个不同的测验情景下进行测量,这种情景的结合叫做随机化平行,随机化平行的前提是大规模题库的存在。所有可能的随机化平行组合,构成了可推论全域。

③为了进一步分析误差方差,概化理论还提出了相对误差方差和绝对误差方差的概念。

相对误差方差是指测量设计中的侧面和测量目标之间的交互作用；绝对误差方差是指所有侧面的主效应侧面和测量目标之间的交互效应的方差分量。

(2)概化理论和经典测量理论的异同

经典测量理论()和概化理论()都是随机抽样理论,但与相比,提出了一个崭新的角度,是对的扩展。

①致力于估计真分数在观察分数中所占的比例,这种方法不管估计的值多大,都是一种情况下的值,如果测量情景发生变化,从而使真分数所占的比例也必定发生变化。

②则是比较注重测量的情景,因为任何测验都是在特定测量情景下进行的,所以测量的根本目的不是为了获得在特定条件下得到的固定结果,而是要以此来判断更广泛条件下可能得到的测量结果。

③具体方法上来讲,二者的区别在于：将观察分数方差分解成真分数方差和总的误差方差；则把观察分数方差,分解成由测量目的引起的全域分数方差和多个代表来自测验施测情景的误差方差。

(3)概化理论的内容

研究要求研究者表述测量的目标是什么,以及在什么情景下进行测量,也就是确定测量目标和可观察全域。这些对测量的建构就是研究设计。在研究设计中,研究者需要指出测量的目标、可观察全域、以及它们之间的关系,然后再收集数据,估计对应于这些情景方差成分的大小。

研究中方差的估计值为有效的测量方法提供了一定的信息,而这就是研究的目的。测量方法的决定与概化全域的确定有关,也就是说,要决定在可观察全域中,哪一个侧面要抽取多少个情境,这便构成了研究。可见,研究是针对可观测全域,研究设计则对应着测量方法和可推论的概化全域空间。

概化理论虽然有许多独特的优点,但这一理论并不是完美无缺的。首先是的理论基础方差分量估计,这些方差分量估计对我们常见的小样本来说,通常是不太稳定的,但这并不是理论独有的,同样的问题存在于所有的抽样理论中。另外,在基本思想上,理论注重所测心理特质的单维性,因此在实际操作中要求保持试题样组的同质性；在计量方法上,理论在运用AV0NA方法分析误差来源时,由于数据结构复杂性,方差分量估计有时会出现负值。

(4)概化理论的实际应用

但随着的理论内涵更加丰富,其应用的情景也更为复杂。在各种误差研究中,不仅是对评分误差,而且对于各类组合测验的信度研究和标准参照测验界定分数的误差研究,概化理论都得以大显身手。此外,还被用来确定表现评估中的任务个数以及提供聚敛效度的证据等。事实上,模型对于实际应用中所涉及系数和系数的所有类型的测量设计都是适用的。可见,概化理论作为一种可设计、评估和改善测验过程的、可靠的、综合性的方法正描绘着现代测量理论的新图景。

4.测验等值（请分析“测验等值”的重要意义以及“等值”的条件，【03苏大，简答题】）

(1)概念：在教育与心理测量中,把测量同一种心理特质的不同测验分数,通过一定的数学模型转换成同一单位系统中的过程就称为测验的等值,可见测验等值是心理与教育测量中一个重要的研究领域。

(2)分类

根据等值对象的不同,测验等值包含以下两方面的内容：

①把不同次测验所得到的分数进行等值,这种等值称为测验分数等值,例如在自学考试中,我们想知道去年的高数考成绩ω分究竟等同于今年的高数成绩多少分。

②对测验题目的参数如难度、区分度进行等值,这种等值就称为项目参数等值。

(3)等值条件

等值是有条件的,不是任意两个测验都可以进行等值。

①要求等值的两个测验必须是测量同一心理物质的。很难想象可以把数学测验的分数等值转换成语文测验的分数,但数学测验分数却可能转换成另一次内容难度近似的数学测验分数。

②只有当测量同一特质的两次测验的信度即可靠性相同或相近时才能进行等值。信度值相差太大的两次测验不能进行等值。

③测验等值转换关系应具有公平性。公平性的意思是：若两个或多个测验可以进行等值,则无论以其中任何一个作为基准来进行转换都是可行的,这样考生接受其中任何一个测验,其分数经等值变换后都不会低估或高估其实际水平。

④测验等值转换关系应具有惟一性,因为测验等值是两个或多个测验之间客观存在的实际关系,虽其等值的转换关系源于样本,但等值转换方程的求得应独立于被试样本的特点和实测时的具体情境,因而适用于需要进行等值转换的所有场合。

⑤当应用项目反应理论来进行等值时,由于目前广泛使用的模型都是单维模型,因而要求等值测验的潜在特质也必须是一维的。

四、心理测验的应用（这部分介绍的有些简单）（简述两个你所了解的测验名称及其用途，【04北师大，简答题】）

(一)成就测验（教育测验与智力测验的不同，【02华东师大，简答题】）（怎样利用心理测量的理论和技术提高选拔性考试的水平？06北师大，论述题）

1.成就测验的定义（03华中师大，名）

(1)成就测验又称教育测验、学绩测验,是测量一个人(或团体)经教育训练或学习后对知识和技能的掌握程度。因为所测得的主要是学业成绩,所以称为成就测验。它又可分为学科测验和综合测验,前者测量学生某学科的知识、技能,后者测量学生各学科的知识、技能。

(2)成就测验是专门为教育情境而设计,测的是实际能力,即一个人知道什么(知识)和能干什么(技能)。一般都是团体测验,广义而言,它包括学校内的学科测验、训练场所评量训练结果的测验、大学联考、高考等。

(3)成就测验和所有其他类型测验(智力、人格等测验)的不同之处在于它是一种相对直接的测量,而智力或其他心理特质只能通过间接方法测量即通过对被试的某种表现或成绩来进行推测。

2.成就测验的编制

(1)标准化成就测验的编制程序

测验的实际编制工作,是由学科专家共同完成的,其步骤与一般心理测验的编制程序相同。

①根据测验目的,由许多人共同拟定测验计划。具体的编题计划通常采用内容和行为目标双向细目表。

②接下来是编题,由学科专家和测验专家进行评论、修改、再评论,如此反复,直至得到一套满意的题目为止。编写的题目应比需要的多出几倍(通常为三四倍)。

③然后通过试测进行项目分析。项目分析可以用经典测量理论方法,也可用项目反应理论方法。成就测验一般多用复本信度和分半信度作信度指标,以年级为样本的测验应该给出各年级的单独的信度。成就测验的效度指标主要是内容效度。用于预测的成就测验,实证效度很重要。除常分数外,有时还需要提供内容参照分数。

④最后是编写测验说明书手册,并制作各种辅助材料,必要时还要为学生编写测验指南并提供一些模拟试题。

(2)教育目标的分类与测量

近几十年来,心理学家和教育学家对教育目标问题作了许多研究。一般认为,教育的目标可以分为认知性的、情感性的和心理运动三大领域。

(3)客观题和论文题的争议

标准化测验诞生后不久,就出现了客观题和论文题的争议,这种争议一直持续到今天。虽然有些学者认为,可以通过测量技术使客观题测到论文题所测的能力,但对于各种语言考试,如中文、英文等,论文题一直是考试内容不可缺少的一部分,很难用客观题来代替。

3.成就测验的标准化

(1)标准化成就测验是由专门的测验机构编制的。

测验的实际编制工作,是由学科专家共同完成的,其步骤与一般心理测验的编制程序相同。

(2)对大规模使用的标准化成就测验,最好建立题库建立题库应注意：

①测验的要求、内容、题型、格式都必须定型；

②放在题库里的题目必须在与将来被试情况相一致的样本里试测过,而且难度和区分度等指标符合要求,同时要根据双向细目表做好分类、归档,以备随时检索、调用；

③题库要有一套好的管理和检索系统,题目可用题卡或电脑储存,并将题目的变化、使用情况、试测结果都记录在案。

(二)智力测验（晶体智力【03首师大，名】）（PASS模型【03首师大，名】）（简述智力测验的局限性，【05首师大，简答题】）（考夫曼智力量表与传统智力量表在哪些方面是不同的？【02华东师大，简答题】）

1.智力测验的定义（对心理学界各种智力定义你如何看待？，01华东师大论述）

智力测验指经过专门训练的研究人员采用标准化的测验量表对人的智力水平进行测验,用来评估一个个体相对于人群中其他人而言认知能力的高低。智力测验能很好地预测学术成就,也能预测职业上的成功。如比奈——西蒙智力量表、斯坦福——比奈智力量表、韦克斯勒智力量表、瑞文推理测验（04首师大，名）。

2.个体智力测验

个体智力测验是多采用开放式问题,对个体进行施测,并由施测者评分以测量个体智力水平的测验。个体智力测验多用于诊断及弥补工作。个体测验标准化样本一般只用几千名精心挑选的被试。例如,斯坦福——比奈智力量表。

3.团体智力测验

团体测验采用多项选择,客观的计算机评分,对团体施测以测量智力水平的测验。团体测验标准化样本极大。例如,文化公平智力测验(CFIT)是一个非言语流体智力测量,它的目标是测量流体智力,避免文化因素的干扰。

(三)能力测验

能力测验是发现被试的潜在才能,深入了解其长处和发展倾向的测验。它一般又可分为一般能力倾向测验和特殊能力倾向测验。前者测量一个人的多方面的特殊潜能,后者偏重测量个人的特殊潜在能力,如音乐能力倾向测验、机械能力倾向测验等。

1.能力倾向测验

能力倾向测验(又称性向测验【03华中师大，名】),是为测量特殊能力或能力群而专门设计的工具,它可以用来预测一个人在某些学科或职业上成功的可能性。能力测验测量的是一般性、广泛的潜力,它可以产生在未受教育或训练之前。能力倾向测验主要目的为预测个人在未来教育训练上可能有的表现。

2.特殊能力测验

特殊能力测验是偏重测量个人的特殊潜在能力的测验,如音乐能力倾向测验、机械能力倾向测验等。

3.创造力测验

创造力测验是用标准化的量表,按规定程序来测量个体创造力水平的测验。早期研究中,多以发散思维为指标编制创造力测验,因为创造力是发散思维的功能,是它决定了一个人创造力的高低,甚至把创造力干脆等同于发散思维能力。但随着研究的不断进行,实际上创造力有着更为复杂的心理结构,是一种包含多种智慧品质的综合能力。

(四)人格测验（人格测验的Q分类法【04北师大，名】）（A型性格与B型性格【03华中师大，名】）（人格测验中存在的问题，【05首师大，简答题】）

1.人格测验的定义

人格测验是以人格为测量对象的测验。它测量的是个性中除能力以外的部分,亦可看作是非能力测验。主要测量性格、情绪、需要、动机、兴趣、态度、焦虑、气质及自我概念等方面的个性心理特征及其相关行为。

由于依据的人格理论不同,所采用的方法也不同,主要有自陈法、投射法、评定法、情境法等。

2.自陈测验

(1)自陈测验是采用客观测验的形式,使用自陈量表来测量人格,如明尼苏达多相人格测验(MMPI中双高峰的意义和作用，【02华东师大，简答题】)卡特尔16PF测验，艾森克人格测验等。（论述卡特尔对人格特质因素的理解，【03首师大，上师大】）

(2)自陈量表是一种自我报告式问卷,包括一系列陈述句或问题,每个句子或问题描述一种行为特征,即对拟测量的人格特征编制许多测题(问句),要求受测者作出是否符合自己情况的回答,从其答案来衡鉴这项特征。自陈量表多采用客观测验的形式,受测者只需对测题作是非式或选择式判断。

(3)自陈量表的特点

①测量工具一般为调查表。

②题目数量多。

③在同一个测验中往往包含几个量表,可同时测量几个特质。

④测验通常采用纸笔形式,因而可以团体施测。

(4)编制自陈量表的具体方法主要有三种,即合理建构法(逻辑法)、因素分析法、实践示准法(经验法)。相应地,可分成三种自陈量表,即内容效度人格问卷、因素分析人格问卷和经验效标人格问卷。

3.投射测验（投射测验的理论假设，【01华东师大，简答题】）

投射测验指测验中所用的刺激多为意义不明确的各种图形、墨迹或数字,让受测者在不是限制的情境下,自由地作出反应,由对反应结果的分析来推断其人格。投射的意义是指一个人把自己的思想、态度、愿望、情绪等个人特征投射到外界事物上,通过对外界事物的反应,表达出自己内心的感受。这种方法的机理是精神分析心理学理论中的外射机制。这类测验主要以罗夏墨迹测验、主题统觉测验(简称TAT)、文字联想测验、画人或画树测验为代表。

4.情境测验

情境测验法属于行为观察法的一种,是将被试置于特定情境下,由主试观察被试行为反应,从而判定人格的方法。该方法常用于教育及军事等领域或特殊人才的选拔。

(1)品格教育测验(简称CEI)采用的情境是学龄儿童生活或学习中所熟悉的实际生活情境,用来测量诸如诚实、自我控制及利他主义等品格或行为的特点。

(2)情境压力测验主要应用于军事或领导人才的选拔上。通常采用设计好的情境,使被试产生情绪上的压力,然后观察被试如何应付情境,从而了解其人格特征。

(3)情境测验的评价

①情境测验比自陈法和投射法更自然、更接近真实生活。而且,多数情况下,受测者不知道测量的真实目的,因而在实际反应中不大可能作假。这是情境测验的优点。

②情境法的弱点是：施测困难,费时费钱,一次只能测一人或少量被试；需要受过训练的主试来观察和评定行为,并要综合地处理测验中所得的各种资料,因而易受各种误差影响,不够可靠和有效；受试者的行为,常因所在情境的不同而反应互异。

(五)其他常用的心理测验

1.心理健康测验

心理健康测验是采用标准化的心理健康问卷,按规定程序测量人的心理健康水平。例如,SCL-90精神卫生自评表,是自评量表,由90个题目组成，分为9个基本因子。测验时要求被试根据最近一星期以内影响自己的实际感觉,按症状的严重程度分0～4级进行五级评分。最后分别按9个因子计算并与所在特定团体的常模进行比较,即可了解一个人的心理健康特点。

2.态度测验

态度测验是采用标准化的问卷,按规定程序,测量人的态度、看法等。例如,学习态度测验、工作态度测验等。

3.兴趣测验（分化情绪量表，【03华东师大，名】）

兴趣测验是采用标准化的量表,按规定程序,测量人的选择性态度或积极的情绪反应等。例如,霍兰德(Holland)于1953年编制的职业偏好量表(Vocational Preference Inventory, VPI)。兴趣是重要的心理特征之一,是个体力求认识某种事物或从事某种活动的心理倾向。兴趣是多种多样的。不同的人兴趣不同,同一个人也有多种不同的兴趣。通过兴趣测验可以了解个体的兴趣、所倾向于从事的活动类型和方式等。

更多相关推荐：

心理与教育测量知识点汇总: e心理与教育测量知识点汇总第一章心理与教育测量概论一名词解释1测量依据一定的法则使用量具对事物的特征进行定量描述的过程2测量的参照点测量工作中必须有一个量的起点这个起点就叫做测量的参照点3量表能够使事物的特征数...
20xx心理学考研心理测量知识要点：智力测验(下): 凯程考研辅导班中国最强的考研辅导机构考研就找凯程考研学生满意家长放心社会认可20xx心理学考研心理测量知识要点智力测验下10个体智力测验1斯坦福比内智力量表119xx年量表首先采用了智商这一概念219xx年量表...
心理测量学知识: 心理测量学知识心理测量作为心理学的研究方法之一始于欧洲20世纪初传入中国第一节概述第一单元测量与测量量表一什么是测量测量就是依据一定的法则用数字对事物加以确定该定义包括三个主要元素1事物2数字3法则所谓事物指的...
心理测量学理论知识要点口诀: 测量测量三要素事物数字与法则数字特性有四个区分等级等距可加性要想成为一测量必有参照和单位参照点有两个绝对如身高相对如温度何谓好单位确定意义相同价值两者都具备可惜心理测量都不符心理量表水平异从低到高各不同先是命名...
心理咨询师二级复习5-心理测量学知识: 二级心理复习5心理测量学知识第一节概述第一单元测量与测量表一什么是测量对测量的描述正确的是测量就是依据一定的法则用数字对事物加以确定测量的元素包括法则数字事物测量所用数字具有自然数的特点即具有区分性等级性等距性...
心理咨询师辅导习题集：心理测量学知识习题: 国家职业资格培训教程心理咨询师辅导习题集第五章心理测量学知识习题注在计算机上做题之前请先将答案隐去隐藏答案方法附在本章习题最后第五章心理测量学知识习题1下列对测量的描述正确的是A测量就是心理测量B就是依据一定的...
心理咨询师考试,心理测量学知识+心理测验技能: 心理测量学知识心理测验技能1参照点就是确定事物的量时计算的选项A起点B中点C终点D重点正确答案A答案解析20并不意味着没有温度这种说法选项A错B不确定C对D不存在正确答案C答案解析3一般来说心理测量是在变量上进...

第五章__心理测量学知识习题_心理咨询师: 第五章心理测量学知识习题一单项选择题1关于测量正确的是B测量就是依据一定的法则用数字对事物加以确定2参照点就是确定事物的量时计算的A起点3用1代表男用2代表女等等这样的量表通常叫A命名量表4我们通常将学生的考试...
第五章心理测量学知识习题心理咨询师: 第五章心理测量学知识习题一单项选择题1关于测量正确的是B测量就是依据一定的法则用数字对事物加以确定2参照点就是确定事物的量时计算的A起点3用1代表男用2代表女等等这样的量表通常叫A命名量表4我们通常将学生的考试...

最全最新心理学知识点总结: 心理学第一章现代的研究与发展1心理学的感念心理学是研究人的行为与心理活动规律的科学2心理学现象的实质人的心理是人脑对客观现实的主观能动态度3人体行为与个体心理的关系行为指机体的任何外显的可观察的反映动作或活动心...
社会心理学重点总结: 社会心理学第一节概述1心理学社会学文化人类学对社会心理学的创立和发展发挥过重要的作用2麦孤独英的社会心理学导论出版标志着社会心理学作为一门独立学3最早提出了社会心理学这一术语20世纪3040年代用实证方法研究社...
山东省教师招聘教育心理学与教育学最重要考点总结: 教育心理学总结1常用人名19xx年廖世承我国第一本教育心理学教科书19xx年陆志韦翻译桑代克的教育心理学概论心理学发展时期初创时期20世纪20年代之前裴斯泰洛齐第一次提出教育教学的心里话赫尔巴特首次提出教育理论...

心理测量知识点总结（15篇）

热门关注

20xx山香版心理学知识点汇总(打印版)

国家心理咨询师二三级考试各类量表知识汇总大全