还剩17页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
第2章教育测量的质量指标第1节信度第二节效度第三节难度第四节区分度
一、信度的概念信度指的是测量结果的稳定性或可靠的程度也就是测量结果是否真实、客观地反映了考生的实际水平具体而言,可以从以下三方面来理解测量的信度
(一)信度指实测值与真值相差的程度测量的目的之一,就是希望通过测量得到的实测值能够接近事物的真实值由于各种原因,实测值一般不会完全等于真实值,两者之差称为测量误差测量误差越小,测量的信度就越高用一个等式表示如下x=T+E式中,x表示实测值,T表示真值,E表示误差但测量的真实值是未知的,因此,误差也就无法求出来当然,可以把很多次测量的实测值的平均值作为真实值的近似值,但这在实践上不具有可操作性所以,根据这种理解,无法求出信度的大小
(二)信度指统计量与参数之间的接近程度统计量和参数是统计学中的两个基本概念统计量是指样本上的各种数字特征(如样本的平均数、标准差等),参数是总体上的各种数字特征(如总体的平均数、标准差等)统计量越接近参数,这个统计量的可靠性就越高,因此,信度就越高要知道统计量对参数的接近程度,可以对参数进行区间估计这种方法对估计真分数也很有用的但这种理解也无法计算出信度
(三)信度指两次重复测量或等值测量之间的关联程度如果对同一对象进行两次重复测量或者等值测量以后,计算两次测量的相关系数,相关系数越高,说明测量的信度就越高;反之,就越低对于信度的这种理解,有利于信度的计算但重复测量会受到被测对象的经验、知识增长等因素的影响,等值测量又较难编制,因此,采用这种方法计算信度时,也是有误差的信度是任何一个测量的必要条件,对于教育测量来说,它具有更为重要的意义因为教育测量的对象主要是精神现象,所测量的特性不易把握,为了能真实地反映测量对象的某种特点,需要更加注意测量的信度,从而正确地判断测量结果的价值只有信度高的测量才能成为教育工__有用的工具,否则,测量的结果是无意义的、无效的
二、信度的理论公式根据上述对实数的分解,可将实得分数的方差分解为=+,其中,表示真分数的方差,表示随机误差方差信度的计算公式为r==1-从以上公式可以看出,随机误差的方差越小,测量的信度就越高信度的取值范围为[0,1],如果测量误差的方差为0,那么,测量的信度等于1,如果测量误差的方差等于观察分数的方差,则测量的信度为0
三、信度的类型采用上述的理论公式是计算不了信度的,因为真分数根本不知道,这样也就计算不出误差分数因此,上述理论公式只能帮助我们更进一步地理解信度的含义那么,在实际测量中,如何计算或估计信度的大小呢?下面介绍几种常用方法
(一)稳定性系数1稳定性系数又称重测信度它是指用同一测验__,在先后两个不同时间内对同一组被测__,两次测验实得分数的相关系数稳定性系数是估量信度最简单的方法,只需用同一份__对同一被测__测验两次即可2估计稳定系数的基本程序是适当时距测验A(A)测验AAA表示两次测验__相同,A和A表示同一测验经过适当时间间隔施行两次时距可以是几天或者几个月3使用重测法要注意几点〔1〕重测法只适用于速度测验而不适用于难度测验;〔2〕所测的信度大小,常常受两次测验时间间隔长短影响;〔3〕第二次测验没有吸引力,不易引起学生的兴趣;〔4〕要实施两次测验,耗费人力、物力和时间较多
(二)等值性系数1当同一测验的一种型式不能或不适合实施两次时,就需要采用该测验的另__行型测验或者复份复份在测验的内容、题数、格式、难度、平均分、标准差等方面应与原测验一样,否则,估计的等值系数就会出现较大误差2决定等值系数的方法是先实施第一次测验,然后在最短的时间内实施第二份等值的测验,再求它们得分的相关系数这个相关系数即为信度的等值性系数3其基本程序为最短时距测验A测验BA表示用__A进行的第一次测验,B表示用__B进行的第一次测验,__A和B等值这种确定信度系数的方法称为复份法4采用复份法估计信度系数要注意〔1〕两次测验__要等值,即在内容、题型、题数、难度、区分度等方面要基本相同;〔2〕两次测验要尽可能在较短的时矩内进行;〔3〕确定两次测验是否等值,还要考察两次测验结果的平均数与标准差〔4〕在实际操作中,要编制两份等值的测验非常困难
(三)内部一致性系数前两种估计信度系数的方法都要测验两次该种估计信度系数的方法只需测验一次方法是把一次测验人为地分成两个部分,比较两个部分的一致性程度,从而估计信度系数根据分成两部分的不同,内部一致性系数的估计方法有两种1分半信度这种方法是将一次测验分成两个假定相等而__的两部分来记分,通常是以题目的奇数为一组,偶数为一组,计算两组的相关系数,最后用斯皮尔曼—布朗公式校正,求得整个测验的信度系数斯皮尔曼—布朗公式为式中,r为两组测验分数的相关系数,r表示整个测验的信度系数2库德尔—理查德森公式法用这种方法只需测验一次,然后以各个问题的正确反应数为基础,或根据各人总分的平均数和标准差,计算信度系数,常用的库德尔—理查德森公式有r和r〔1〕r的用法这个公式以每题能正确回答的人数占总人数的百分数为基础(每题只有通过或未通过两种分数)r=式中,r为整个测验结果的信度系数K为测验题目数,p为各题正确反应人数占总人数的百分数,q为各题错误反应人数占总人数的百分数,s为各应试者各题得分之和的方差〔2〕r的用法这个公式以各反应者总分的平均数和方差为基础计算,无需各题难度的信息公式如下r=1-式中,是各人总分的平均分,是各人总分的方差,K是题目数〔3〕计算内部一致性系数,需要注意下列问题〈1〉若用分半法时,以按奇数题和偶数题分为两半为宜若把整个测验分为前后两半,一方面前半部试题和后半部试题未必等值,另一方面被试者在完成后半部试题时可能因疲劳、厌倦等原因而影响回答质量,以致前后反应不一致,影响信度〈2〉若速率是测验的重要因素,则不宜用分半法因为速度测验中试题的难度低,被试者得分的多少,在很大程度上是因为答题的多少,分半法易使得分相同,从而会夸大分半法的信度估计〈3〉如果答案多种多样,得分也多种多样时,则不能用上列公式计算一致性系数
(四)论文式测验的信度系数论文式测验的评分,没有严格的评分标准,以致同样的一个题目,不同的应试者的回答和得分都不一样,所以无法用前面的公式,而要用克龙__所创的系数公式=式中,为信度系数,K为题目数,为每题各应试者得分的方差,为每题各应试得分的方差之和;s为所有被应试者所得总分的方差
(五)评分者信度一般论文式考试,只能提供列出答案要点的参考答案而无固定的标准答案,因而不同的评分者对同一份__给分不同,甚至有很大的悬殊在作文测验、投射测验、品德测验、创造力测验等的评分中,都存在这个问题评分者所评的分数越一致,评分的信度越高要计算评分者评分的一致性系数,需区分评分者的人次数若为2人评N份__,可用斯皮尔曼等级相关的公式计算;若三人以上的评分者评N份__时,则需计算肯德尔和谐系数
四、提高信度的方法
(一)信度系数以多大为宜信度系数究竟以多大为好,没有明确的标准要看测验的目的和类型对于学科测验,信度系数要求达到
0.9以上,智力测验要求达到
0.8以上,品德测验能达到
0.6以上就算不错了
(二)测量误差的来源1测验本身所引起的误差〔1〕测验本身的有些因素会直接产生误差例如,有些测验题目的格式,如判断题,猜测的可能性很大,这就引起测验的不稳定性〔2〕如果测题的难度过大,以致每个被试者大量猜测,则所有被试者的总分接近于随机分布,所以测题越难,其信度越低另一方面,测题越易,分数离差越小,而信度也就越低〔3〕规定时限可以鼓励人们加速作出反应,但常常会引起不稳定的测验分数〔4〕测题的用词模棱两可也会引起不稳定的分数〔5〕测验本身长度也会影响信度,一般说来,测题越多,测验越可靠〔6〕测验所包含的测题样本也会引起测量误差测题取样所引起的误差在测验的单一形式中也可能出现如果测验是要测量单一特性,那么,这个测验上的每一个测题都应该测量它,而不该测量其他的东西但是实际上,有些测题能测量多种心理特性,因此,在一个测验中所包含的特定测题的抽选就变成了一个误差的可能来源2测验的实施所引起的误差〔1〕由于测验的经验日益丰富,测验的实施更加标准化,实施条件的变化所引起的误差可能性就大为减少然而,由于对实施指导语的错误理解,对答案纸的错划,时间记录的错误以及一些不能预见的干扰等,都会产生误差〔2〕对一组被试实施测验不是同一个主试,而是由多个主试实施,以及主试本身在安排测验上有较多的余地,这些也会引起误差〔3〕记分也会产生误差,如论文式的测验和其他自由反应的测题各格式,记分就很难做到完全客观,从而产生误差3被试所引起的误差这是最难控制的误差甚至当我们具有测验的等同形式,在标准化的实施和记分程序下,测验的情境以最理想的方式加以安排,由于被试本身的不一致性也会使测验的分数不一致具体表现为动机的作用;学习、发展和教育的影响;对于测验的经验;测验的焦虑;生理因素等
(三)提高测验信度的方法1适当增加测验题目的数量测验题目的数量越多,题目的代表性就越大这种方法既可提高信度,也可提高效度因此,一次测验的题目不能太少但题目太多也无法操作所以,只能适当增加测验题目的数量2测验的难度要适中因为测验的难度中,能使测验难度达到最大,也能使测验的区分度达到最大,所以,必须使测验的难度适中3测验的内容应尽量同质如果测验的内容过于庞杂,必然要求考生具有不同的能力、知识或技能,致使测验的信度降低例如,外语、数学测验的信度常高于语文、历史测验的信度因此,为了提高测验的信度,测验内容应尽量同质4测验的程序应统一测验的过程直接关系到信度的高低,可以说,信度主要是在测验的实施过程中要重点保证的测验的程序统一包括__统
一、测验开始时的指导语、回答问题的方式、分发及回收__的办法、测验时间的掌握等,这是关系到测验信度的重要因素要严防舞弊现象的出现,特别是__舞弊现象,更不能泄露考题等恶劣行径5测验的时间要充分测验的时间限制也会影响信度的高低,如果安排的时间不购,考生不能从容回答所有问题,也就不能真实地反映应试者的实际水平因此,测验的时间要充分当然,这里不是说,要保证所有考生都能做完试题,要以大多数考生为标准制定考试的时间6评分要尽量做到客观化、减少评分误差对于主观性测验,很难制定明确的评分标准,由于各评分者的标准不统一,很多主观因素也能对评分产生消极影响所以,首先要有明确的评分标准;其次,最好多个专家同时评一份__,或者是单个评分者反复多次评一批__,对于几次结果误差较大的,要复评7应试者参加测验的动机水平、积极性、疲劳程度也会影响测验分数,从而影响测验信度第二节效度
一、效度的概念效度是指测量结果的准确性和有效性的程度,亦即测量是否达到了预期的目的我们可以从以下几个方面来理解效度
(一)测量的效度始终是对一定的测量目的而言的一般而言,任何测量都有某种特定的目的和功能,判断效度的高低,就是判断测验达到目的的程度如果能正确真实地测量出所想测量的东西,那么,对这一目的的效度是高的;反之,则是低的例如,一个智力测验,结果实际测量的不是智力的高低而是知识的多寡那么,此测验的效度就低了即使某种公认效度较高的测量,也不能要求它在不同目的的测验中保持相同的效度
(二)测量的效度也是对测量的结果而言一种测量工具只有经过实际测量,才能根据出来的结果判断它的效度所以,也可以把效度理解为测量的结果正确反映所欲测量的特性或功能的程度不言而喻,对于任何一种测量来说,只有当它的测量结果真实、正确地反映所欲测量的功能和特性时,才能认为这种测量是有效的或效度较高的
(三)一种测量的效度只是高或低的问题因为,一种测量在编制时,总是针对一定的目的而编写的例如,要编制学生的数学能力,我们不会用语文题目来作为测题,总会用一些数学题因此,学生数学能力或多或少会反映出来一些,不会毫无反应,换言之,测验结果总有一定的效度,只是效度高低不同罢了
(四)在教育测量中,效度问题比在其他领域的测量更为重要因为首先,教育测量的对象大多是精神现象只能通过对其具有可测性的外部表现的测量,以间接认识其心理活动、心理特征或知识水平等;其次,学生的心理活动、心理特征与其外部表现之间,一般具有相关关系而无函数关系,外部行为并不能准确无误地反映某种心理状态此外,教育测量的对象不是物而是具有主观能动性的人人能有意识地调节自己的外部行为,掩盖自己的内心活动,这就增加了认识其精神现象的难度所以,每当进行教育、心理之类的间接测量的时候,必须考虑是否测量到了索要测量的东西,在多大程度上测量到了这些东西也就是说,必须考虑测量的效度问题
二、效度的理论公式实得分数的方差可进一步分解为=+=++其中,为潜在真分数方差,为系统误差方差潜在真分数方差系统误差方差随机误差方差效度的计算公式为=由效度的计算公式可以看出,如果随机误差分数的方差和系统误差分数的方差之和越小,则效度越高从以上实得分数方差的分解,可以看出,信度与效度之间的关系第一种是高信度、高效度;第二种是高信度、低效度;第三种是低信度、低效度高信度、高效度高信度、低效度低信度、低效度因此,在信度与效度之间,首先要重点保证是高效度,因为,高效度必然高信度;反之,则不然特别是对于教育测量而言,效度问题显得更为重要
三、效度的估计
(一)内容效度1什么是内容效度内容效度是指测验目的代表所欲测量的内容和引起预期反应所达到的程度也就是测量内容的代表性程度在编制测验时,内容效度是一个相当复杂和不易解决的问题以成绩测验来说,固然要求测验题目能代表所学习过的全部内容,但仅仅在形式上做到这一点还不能保证足够的内容效度,因为学习成绩的高低要从学习内容的巩固程度、理解程度和应用能力几种行为反应去考察,如果测验题目大多是只需牢记教材就可以回答的问题,那么,对全面测验学生的成绩这一目的来说,内容效度仍然不高,也就是说,还没有完全测验到所想测量的特性和功能2估计内容效度的方法〔1〕逻辑分析的方法这是根据教育学和心理学的理论,根据教学大纲的要求,勾画出学生应掌握知识内容的范围和深度,提出应形成的技能名称等,然后以逻辑分析的方法估计测验在多大程度上代表了这些内容,在多大程度上能够测量出所要测量的特性和功能〔2〕用测验题目与教材内容比较的方法先制两个表〈1〉测验的双向细目表,列出所要测量的各单元教材内容在考题中应占的百分比和所要求的各种行为反应在全部反应中的百分比〈2〉测验试题分类表,根据各单元教材内容列出试题,并注明该题所要求的行为反应及其应占的百分比对照这两个表,根据各个部分相符合的程度,判断内容效度的高低
(二)效标关联效度
(1)效标是用来衡量测验效度的尺度〔1〕效标就是足以显示测验所欲测量的特性的变量或足以显示测验所要预测的特性的变量,作为检定效度的参照尺度〔2〕具体而言,效标是辨别真伪的尺度,当事物满足该原则时,才能存在效标是不能违反的当然,标准可以提高,也可以降低效标不仅随测验的种类的不同而不同,而且可能随时间而改变现在是好的成功的效标,将来就不一定是
(2)选择效标是一件困难而重要的工作〔1〕教育测验所依循的效标,可采用各学科成绩和教师的评定结果;〔2〕智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事务;〔3〕能力倾向测验的效标,可采用特殊课程或特殊训练的成绩;〔4〕职业兴趣测验的效标,可采用从业人员实际服务成绩或记录;〔5〕人格测验的效标,很难找到,只能按编制者的主观的标准来评判,或以被试以后的行为或临床资料作为效标
(3)效标关联效度又可称为经验效度或统计效度,是以测验分数和效标之间的相关系数来表示测验的效度的高低的
(4)效标关联效度又可分为同时效度和预测效度〔1〕同时效度是指测验与当前的效标之间的关联程度;〔2〕预测效度是指测验与将来的效标之间的关联程度;〔3〕例如,用全国高考的成绩作为效标来检验高中毕业会考的成绩,计算两者之间的相关系数就是会考的同时效度;用大学一年级的成绩作为效标来检验高考的成绩,计算两者之间的相关系数就是高考的预测效度
(5)效标关联效度的计算方法参阅有关的教育统计学教材
(三)结构效度
(1)所谓结构效度,是指一个测量能实际测量出理论上的构念或心理特性的程度它的目的在于用心理学的概念来说明分析测验分数的意义,也就是说从心理学的理论观点就测验的结果加以解释和探讨这里结构的含义是心理学理论所涉及的抽象而属假设性的概念、特性或变量,如智力、焦虑、机械能力倾向、成就、动机等
(2)结构效度的确定方法〔1〕从某一结构理论出发,导出各项关于心理功能或行为的基本假设〔2〕据此编制测验;〔3〕由果溯因,以相关、实验和因素等方法,检验测验结果是否符合心理学上的理论见解
(3)确立一个测量的结构效度需要两个步骤〔1〕必须指出,这个测量和所有理论上认为应与之有关的其他测量,有显著的相关〔2〕必须指出这个测量与所有理论上认为不应与之有关的其他测量,没有显著的相关
四、提高效度的方法
(一)各种效度系数的要求
(1)不同的测验对效度系数有不同的要求,例如,智力测验分数与教师对学生的等级评定之间的效度系数一般在
0.30~
0.50的范围内;相同科目的标准测验成绩与教师对学生名次排列之间的相关系数一般应达到
0.60~
0.70;两种不同的智力测验或标准测验之间的相关系数应达到
0.60~
0.80,才符合要求
(2)对效度系数大小的要求,也受原测验与获得效标的测验之间的相似性的制约若二者不相似,则效度系数偏低;若相似,则效度系数会高些所以,有的测验效度系数达到
0.35即已符合要求,有的却要达到
0.65~
0.77才能被认为是有效的测验
(二)影响效度的因素
(1)测验组成方面测题是构成测验的要素而测题的性能是影响测验效度的因素之一例如,测验的取材、长度,侧题的鉴别力、难度及其编排方式等都和效度有关如果测验材料经审慎地选择,测验的长度恰当,测题具有相当的鉴别力且难度分布适当,并对测验作出合理的安排,就能提高测验的效度
(2)测验实施方面一个测验的效度要得到保证,主试应当适当控制测验情景,遵照测验守则的各项规定实施例如场地的布置、材料的准备、回答方式的说明、时间的限制等如不遵照标准化的程序进行,则必然使效度降低
(3)被试主观状态方面被试的兴趣、动机、情绪、态度和身体健康状况以及是否充分合作与尽力而为等,都能影响测验结果的可靠性和自己正确性无论是能力测验还是人格测验,只有借助被试者真实的反应,才能正确地推断其心理特性和适应状况
(4)估计效度所依据的效标选择适当的效标是统计效度的先决条件从统计的观点来分析,一个效标关联效度受下列三个因素影响〔1〕测验的信度〔2〕效标变量测量的信度〔3〕测验变量和效标变量之间真正的相关程度
(5)样本方面〔1〕适用的对象一个测验应用于不同的对象,由于他们在性别上、年龄上、教育程度上以及经验背景上的差别,其测验功能不一致,效度也随之而异〔2〕规模的大小当样本容量增加时,测量的误差有相互抵消的趋势,因而所得的结果较稳定〔3〕异质性如果其他条件相同,样本分数全距愈大,则效度系数愈高
(三)提高效度的方法
(1)控制系统误差效度的高低主要受系统误差的影响例如,仪器没有校准、题目和指导语有暗示性、答案有明显的组型等因素都会影响测验的效度因此,必须控制这些因素
(2)精心编制量表〔1〕测验内容要确实能反应测验目的;〔2〕题目表述必须清楚、简明,所用字、词、句为学生理解,内容应能引起被试者的兴趣,排列由易到难,但前面的题目不应暗示后面的答案;〔3〕题目难度合适,有足够的区分度;〔4〕__印制清楚,无错误和遗漏,并力求精美
(3)妥善__测验严格按照测验手册进行,不作超出规定的解释,要掌握好测验时间评分时务必遵循评分标准,仔细登记,避免错误两次测验间隔时间也影响效度,所以,间隔长短,一定要按测验目的合理安排
(4)扩大样本的容量和代表性加大样本容量,可以增加样本对总体的代表性,而且使随机误差相互抵消,使测量更可靠同时,样本加大了,被试者差异也就加大了,潜在真分数的方差随着增加了,效度也就提高了
(5)合理处理效度与信度的关系〔1〕信度是效度的必要条件虽然信度高的测验效度不一定高,但效度高的测验,信度却一定比较高效度和信度的关系是效度的最大值等于信度的平方根但是,既要有高效度,同时又要有高信度,是不大可能的例如,同质性测验信度较高,但对于预测来说,效度高,但是信度却比较低所以,要提高预测效度的一个重要方法,是增加非同质性,即增加新因素〔2〕在处理信度与效度关系问题上,首先要保证高效度
(6)适当增加测验的长度增加测验的长度可以提高信度,而效度的最大值又与信度有关,所以,也可以提高效度增加测验长度对信度的影响大于对效度的影响适当增加测验题目的数量既可以提高信度,又可以提高效度第三节难度
一、难度的概念难度是指测验试题的难易程度例如,在教育测量中,客观题的难度一般用正确回答试题的人数与参加测验的总人数的比值来表示其公式为P=式中,P代表试题难度,R为答对试题的人数,N代表参加测验的总人数这里,难度实际上表示的是易度,与试题的实际困难程度正好相反这是传统的难度计算公式,应用已极为广泛一则是习惯;二则与后面的难度转换也是一致的因此,只要理解它的意义,并不会造成认识上的混乱难度是试题对学生知识和能力水平的适合程度的指标试题的难度不但对题目的区分度见本章第四节有影响,而且对__的信度和效度也有较大的影响很明显,难度是一个相对的概念,难度的高低与被试的水平直接相关一种测量对这一组被试是高难度的,可能对另一组被试是低难度的也就是说,难度是由参与测量的被试群体的整体水平决定的因此,我们不能笼统地说,这种测量的难度如何,而应该谈这种测量对某类被试的难度怎样
二、难度的计算一计算难度的基本公式1.客观题难度的计算P=式中,P表示难度指标,N表示参加考试的总人数,R表示答对某道客观题的人数很显然,这里的难度指标,表示的是试题的通过率通过率越高,题目越容易;反之,越难例如,100人参加测验,某题有60人答对,则此题的难度为P===0.60此题的通过率为60%,难度适中2.主观题难度的计算P=式中,P还是表示难度指标,表示所有考生在这道题上的平均得分,K表示这道论文题的满分例如,某道论述题满分12分,所有考生在这道题上的平均得分为
3.6分,则此题的难度为P===
0.3此题偏难二用极端分组法计算试题的难度当考生人数较多时,用基本公式计算难度需要对所有考生的得分情况进行统计,工作量很大,而且常常出错,这时可以用“极端分组法”求试题的难度不管是客观题还是主观题都可采用这种方法,而且还可以同时计算试题的区分度见本章第四节1.用极端分组法计算客观题的难度具体步骤如下1先按测验总分的高低,按由高到低的顺序,依次排列__2从得分最高的一份__开始依次向下选出全部__的7%,作为高分组3从得分最低的一份__开始依次向上选出全部__的27%,作为低分组4按下列公式计算难度,P=式中,P为难度,P为高分组的难度,P为低分组的难度高分组和低分组的难度计算按照求难度的基本公式进行计算2.用极端分组法计算论文题的难度论文试题一般不能简单地判定对、错或通过、不通过,难度计算比较复杂一些具体步骤如下1按测验得分排列__,确定高分组与低分组,各占总人数的25%方法与前面相同2分别为高分组、低分组编制每道试题的分析表3按下列公式计算难度,P=上式中,P表示难度指数,X表示高分组得分总和,X表示低分组得分总和,n表示总人数的25%,H为这道题的最高得分,L为这道题的最低得分例如,某道论文题,高分组得分总和为40分,低分组得分总和为15分,有40人参加考试,这题最高得分为8分,最低得分为2分,则此题的难度为P===
0.125此题偏难
三、难度对测验的影响1.测验难度影响测验分数的分布形态难度值过大或过小,都会造成测验分数的偏态分布难度值越接近0,测验的难度就越大,正确回答试题的人数就越少,测验分数就越是集中在低分段,其分数分布呈正偏态;相反,难度值越接近1,其难度就越小,正确回答试题的人数就越多,测验分数集中在高分段,分数分布呈现负偏态2.测验难度影响测验分数的离散程度测验难度直接影响测验分数的离散程度,因为难度过大或过小,测验分数的分布都呈偏态分布,亦即测验分数都分布在高分段或低分段,这样,测验分数的离散程度就变小了而这不一定符合考生的实际情况,因为考生的差异是客观存在的只有难度适中的测验,其分数的分布范围才有可能达到最大3.测验难度影响测验的鉴别能力这里实际上谈的是难度对区分度的影响适中的难度可使试题的区分度达到最大这在后面还要说明
四、测验的适宜难度从以上难度值的计算公式,我们可以得出难度值P的取值范围为0≤P≤1,当P=0时,试题的实际困难程度最大所有的考生都得0分,当P=l时,试题的实际难度最小所有的考生都全对在常模参照性测验中要求试题难度适中,即大多数题目的难度在0.3~0.7之间,少数题目可在这一范围之两边且题数或题分大体相当,使整个__的平均难度为0.5左右0.45~0.55之间只有适中的题目难度,才能使试题产生区分不同程度考生的最大效果,也才能使考生得分呈正态分布而对全部考生都能做或都不会做的题目则应予删去对于其他类型的测验,目的不同对难度的要求也不同比如,选拔奥林匹克数学竞赛的学生,难度值就得偏小;而选择补习功课的学生,难度值就得偏大
五、控制题目难度的基本方法一般说来影响题目难度的主要因素有
①考查知识点的多少;
②考查能力的复杂程度或层次的高低;
③考生对题目的熟悉程度如本来较易的题目会因考生均未注意而造成很难,或本来较难的题目会因为考生普遍练习过而变得较容易;
④命题的技巧性如同一个问题,可以命得容易,也可以命得较难控制题目因素除了考虑上述因素,还可以通过其它方法来控制在平常的教学考试中,由于老师对学生的情况比较了解,因而主要凭经验来控制难度,使之与老师的教学难度相适应而在大规模的测试中,就要通过预测来掌握难度了首先由命题人员根据上述因素估计一个难度范围;然后通过测试看这个估计的准确程度,分析原因,进而提高评估能力经过预测取得难度的题目可以进入题库,以备后用第四节区分度
一、区分度的意义一区分度的概念区分度是指测验对考生实际水平的区分程度,用符号D表示具有良好区分度的测验,实际水平高的应该得高分,实际水平低的应该得低分所以,区分度又叫鉴别力它是评价试题质量,筛选试题的主要指标与依据区分又分为正区分D
0、零区分D=0和负区分D0,正区分又称积极区分,负区分又称消极区分所谓1正区分是指实际水平高的考生得了高分,实际水平低的考生得了低分;负区分正好相反;零区分是指实际水平高低与得分之间没有太大的关系,呈现出零相关.任何测验的目的之一,都是希望能够鉴别考生的实际水平这实际上也是测验的信度和效度在题目上的具体要求区分度的高低直接影响到测验的信度和效度二区分度与测验信度、难度的关系1.区分度与信度的关系表
3.2区分度与测验信度的关系区分度信度
0.
000.
420.
630.
840.
9150.
500.949此表是1962年R.L.艾伯发表的,这里是假定全部试题的难度均为0.50时所预测的信度系数里面的区分度指的是平均值可见,要想达到理想的测验信度,提高区分度是一个好方法2.区分度与难度的关系表
3.3区分度的最大值与难度的关系难度(P)
1.
000.
900.
700.
500.
300.
100.00区分度的最大值
0.
000.
200.
601.
000.
600.
200.00由上表可知,难度适中,可使区分度达到最大值
二、区分度的计算区分度的计算有多种方法,这里介绍几种一用极端分组法计算区分度1.客观题区分度的计算用这种方法计算区分度与计算难度的方法基本相同,只是最后一步按下列公式计算区分度D=P—P以上公式中D表示区分度,P表示高分组的难度,P表示低分组的难度例如,某题高分组有70%的人答对,低分组有30%的人答对,则此题的区分度为0.42.主观题区分度的计算主观题区分度的计算方法与客观题不同首先,在分组方面,高分组和低分组各取25%的总人数,然后按以下公式计算P=上式中,D表示区分度,X表示高分组得分总数,X表示低分组得分总数,n表示总人数的25%,H表示这道题的最高得分,L表示这道题的最低得分--用内部一致性系数计算区分度用极端分组法分析测验项目的区分度虽然计算简便、易于理解,但所得结果不精确,通常只在教师编制的课堂测验中使用在标准化的或大规模的测验中,多采用相关法分析试题的区分度计算区分度可以采用点二列相关、二列相关、相关系数等方法计算相关系数来表示区分度参见有关教育统计学的教材点二列相关适用于计算客观题的区分度;二列相关适用于计算多重选择题的区分度;相关系数适用于二个变量都是二分名义变量的区分度计算区分度时,要根据不同的测验目的选用适宜的方法只有这样,才能正确地判定测验的区分度
三、提高区分度的方法1.使题目的难度适中,使整个考试难度适中难度与区分度的关系在上表中已有说明,题目的难度适中可使区分度达到最大值因此,使难度适中是提高区分度的重要方法2.着重考察复杂的学习结果尽量考察复杂的学习结果,使高能学生能得高分或最高分,低能学生得低分甚至最低分,使分数尽量分布在整个分数量尺上这样,可以提高区分度
四、区分度的评价标准区分度自然是越高越好,但要做到这一点较难一般说来可参照下表标准对于有些要求不高的测验,有些试题的区分度低一些也是容许的区分度评价
0.40以上非常良好
0.30~
0.39良好,如能改进更好
0.20~
0.29尚可,用时需作改进
0.19以下劣,必须淘汰或改进以提高区分度方可使用表
3.4采用极端分组法计算的区分度的评价标准。