名词解释
简答
论述
选择
混合/不知道
没标的可以浏览浏览,8-10章考选择
教育评价是指在系统地、科学地和全面地搜集、整理、处理和分析教育信息的基础上,对教育的价值做出判断的过程,目的在于促进教育改革,提高教育质量。
价值从本质上属于一种关系范畴,即是通过主体和课体的相互关系而体现的,这种关系的联结涉及主体对客体的需要和客体的客观属性。
是指教育能够满足人和社会需要的程度。教育价值主要体现在两个方面:教育对人发展的价值和社会的价值。
评价从本质上说是一种认识活动。马克思主义认识论认为,认识的本质是能动的反映。评价首先是客观社会存在的反映。
两者有对象的区别(客体/客体的社会属性)、主体性的区别(都是人,揭示事物本质联系/还要联系自身需要)、反映形式的区别(都是反映,理性和抽象思维/价值判断,主观世界观)。
第一,教育评价是以事实判断为基础的价值判断
第二,教育评价是人类发现价值,揭示教育价值的一种基本的教育活动
评价=定量描述(定性描述)+价值判断
教育测量是依据一定的法则(标准)用数值来描述教育领域内事物的属性,是事实判断的过程。
第一,教育测量本质上是一个事实判断过程,而教育评价实质上是一种价值判断过程。教育测量是对事实作判断,在判断的法则(标准)确定后,如果排除测量误差的影响,则不同的人进行测量应能得到相同的结果,即教育测量具有较强的客观性;而教育评价是对教育活动的价值作出判断,由于评价主体的价值观念和标准有所不同,因此判断的结果可能是不相同的。
第二,教育测量是在事实判断基础上,进行赋值的过程,因此它注重量化,但教育评价既有定量的评价,也有定性的评价,就是说测量的结果是评价的主要依据之一,评价的价值判断标准是多方面的。
教育评价=测量(量的记述)+价值判断&非测量(质的记述)+价值判断
三、教育评价和教育评估
以教育的全领域或涉及宏观决策方面的教育现象、措施为对象的教育评价
以学校内部各方面工作为对象的教育评价
以学生的发展变化为对象的教育评价
是对教育方案可行性的评价,也就是对达到目标所需条件的评价。
是对教育方案实施情况进行的评价
是测量、解释和判断教育的成就,确证人们的需要被满足的程度。
是在被评价对象的集合总体中选取一个或若干个对象作为标准,然后将其余评价对象与该标准进行比较,或者是用某种方法把所有对象排成先后顺序的评价。
是在被评价对象集合之外,预先确定一个客观标准,将评价对象与该客观标准进行比较,判断其达到标准程度的评价。
是把被评价对象集合总体中的每个个体的过去和现在相比较,或者将一个个体的若干侧面相互比较。
(一)自我评价
(二)他人评价
在某项教育活动进行之前,为使其计划更有效地实施而进行的预测性、测定性评价,或对评价对象的现状和存在的问题做出鉴定。
是指在教育活动进行过程中评价活动本身的效果,用以调节活动过程,保证教育目标实现而进行的价值判断。
是指在某项教育活动告一段落时,对最终成果做出价值判断。也就是以预先设定的教育目标为基准,对评价对象达成目标的程度,即最终取得的成就或成绩进行评价,为各级决策人员提供参考依据。
采用数学的方法,收集和处理数据资料,对评价对象做出定量结论的价值判断。
不采用数学的方法,而是根据评价者对评价对象平时的表现、现实的状态或文献资料的观察和分析,直接对评价对象做出定性结论的价值判断。
是指对教育评价对象的某个侧面进行的价值判断。
是指对教育评价对象整体的系统的价值判断。
是指教育评价本身所具有的引导评价对象朝着理想目标前进的功效和能力。
是指教育评价认定、判断评价对象合格与否、优劣程度、水平高低等实际价值的功效和能力。
是指教育评价本身所具有的促进评价对象为实现理想目标不断改进和完善行动的功效和能力。
是指教育评价为教育决策服务的功效和能力。
20世纪30年代美国泰勒提出,是教育评价理论历史发展中第一个较为完整,而且也是最有影响的模式。
泰勒模式是一个单项封闭系统。先制定目标,再根据目标选择和组织学习经验,然后评价目标的实现程度。
工作流程相对简单,且结构紧凑,逻辑严密,层次分明,易为大多数人接受、掌握和运用。
回避了教育的价值问题;忽视了对过程的评价;对非预期结果的处理未涉及;未重视人的个性发展的特殊性。
1966年美国的斯塔弗尔比姆创立。
CIPP模式是根据背景评价(context)、投入评价(input)、过程评价(process)、成果评价(product)四种评价的第一个英文字母而命名。这四种评价都是为决策服务的。背景评价为计划决策服务、投入评价为组织决策服务、过程评价为实施决策服务、成果评价为再一次决策服务。
1. 将教育目标纳入到评价活动之内,使目标本身的合理性首先得到评价,从而使评价更全面、更科学、体系更完整;
2. 该模式重视形成性评价,时刻考虑到为决策提供所需的信息,使评价活动更具方向性和实用价值;
3. 该模式把评价看成是教育活动的一部分,使评价成为改进工作,提高教育质量的工具。
四种评价都是为决策者服务的,评价缺乏完全意义上的价值判断,同时也制约了评价人员作用的发挥,并且该模式要求各类信息源的配合、充裕的经费以及可靠的分析技术,因而使它的使用受到了很大的制约。
美国的斯克里芬提出的。
目标游离模式突破了目标的限制,认为评价的依据不是方案制定者的预定目标,而是活动参与者的实际成效。
如果评价组织中的各个评价者具有不同的价值标准,就会给评价的操作带来很大的困难。
美国的斯塔克于1973年提出的。
以问题作为评价的先导,重视评价人员与当事人之间的相互交流、沟通,以反映各类人员的需要和愿望,具有民主性。评价方法以定性分析为主。
强调在评价活动中使用非正式的观察、访谈和定性描述分析的自然主义方法,在有效做出价值判断方面优于泰勒模式。
在评价活动中耗费人力、物力和时间较大,很难推广实施。
从整体上看,教育评价是经历过一个从主观评价到测定、从测定到科学评价的发展过程。
科举就是分科取士,即设科考试,根据学科考试的成绩去录用官吏。
【起始】中国是考试的故乡,早在西周时代就采用以试选士。影响比较大的是公元606年,隋炀帝时代开始的封建科举制度。科举制度一直延续到1905年袁世凯奏请废除为止,共1300年的历史。
西方教育评价产生和发展大致经历了教育测验运动以及评价理论产生和发展两大时期,其中教育测验运动时期可划分为萌芽、开拓、兴盛三个阶段;评价理论产生和发展时期则包括泰勒阶段、稳定发展阶段、兴盛阶段和专业化阶段。
1702年,英国剑桥大学首先以笔试取代口试。不过那时的笔试和现在不尽相同,主要是一种论文的考试。1845年,美国麻省波士顿教育委员会在普通学校中采用笔试,开美国学校采用笔试之先河。
在长达二十多年的教育测验运动中,测验研究取得了巨大的成绩,出现了三种不同性质的测验:即学力测验、智力测验和人格测验。
美国教育界对教育测验提出了如下批评意见:只能做片断的测定,不能全部了解人格和知识的发展过程;测验只是注意于客观的信度,不足以说明效度;学业测验根本就是教科书中心主义;测验易培养个人主义和被动式的学习态度。
为了促进和保证课程改革的进行,美国进步主义教育协会进行了一项课程内容改革的实验研究,从1932年待1949年历经八年完成,史称“八年研究”。泰勒为领导的评价委员会负责评价其研究成果,并提出了“泰勒模式”,即评价的原则和方法。这对当时的教育评价工作起了重要的指导作用。
在对单纯地以目标为中心和依据的教育评价的批判下,斯塔弗尔比姆提出了“CIPP”模式、斯克里芬提出了“目标游离模式”、斯塔克提出了“应答模式”等等。
20世纪60年代后期和70年代早期,美国又掀起了一场对于相对评价的批判,把争论的焦点集中在了教育评价的本质是什么的问题上。这场辩论将教育评价推入了专业化阶段。教育评价发展产生了三个方面的综合结果:
其一,在评价领域中,存在着较多的、较好的和公认的评价信息交流,同时也存在着大量的争论;
其二,一方面提高了对评价者的培训和审查要求,另一方面这还只是在范围较小、孤立的社团中进行,使人感到焦虑;
其三,在评价专业组织之间增加联系和交流以及评价工作连续进行的同时,各种评价网络和评价研究中存在着矛盾运动。
1. 社会经济和科学技术的发展是评价发展的根本原因
19世纪工业革命发给西方带来了经济和科学技术的迅速发展,西方社会开始向现代工业社会转型,表现为城市化、工业化和民主化进程的加快,大机器生产成为主要生产方式。这就引起个人和社会对教育的极大需求,要求国家加强对教育事业的投入和管理。
2. 教育评价理论和实践发展过程中的矛盾运动是西方教育评价发展的内在因素
在使用笔试代替口试之后,学者们又投入了对如何提高笔试客观性的问题。在这种研究潮流的推动下,美国兴起了一场教育测验运动。……(四个阶段)
3. 政府对评价工作的重视并用法律手段保证它的顺利实施是评价发展的外部动力
是世界上最早的评价选拔人才的制度,它由三个方面组成:乡里选士、诸侯贡士和学校选士。选士考察评价的内容是德行和道艺。
它的建立标志着中国古代选士制度进入一个新的时代,考试在察举制中正式诞生了。所谓“察举”,即经考察之后予以举荐之意。
各地方政府设立中正官,负责向中央政府举荐人才。
科举制度就是用一套较完整的考试制度和考试方法来挑选人才。
整体上看,隋唐之前的评价选士活动,多依主观判断进行,举荐为主,考试为辅;隋唐以后的科举制,则是以考试的成绩作为录取的指标。
1918年,俞子夷编制了小学国文毛笔书法量表,这是我国最早的标准测验。
20世纪30年代以后,由于日本帝国主义的侵略,研究中断,我国教育评价理论的研究水平自此与世界拉开了距离。
我国真正意义上的教育评价始于20世纪70年代末、80年代初。
(1)恢复和兴起阶段(1977年—1983年)
在系统引起和学习国外教育评价理论和方法的基础上,一是评价实践活动在全国有组织地展开,而是全国最高教育行政领导机构有组织地召开全国教育评价学术研讨会,交流学习经验。
1984年,我国正式参加了国际教育成就评价协会(IEA);1985年6月,教育部在黑龙江省召开了第一次全面性的教育评价研讨会,它标志着我国教育评价研究和实践真正开始了。
(3)全面研究和试点工作阶段(1986年—1989年)
一是全国范围内全方位、多层次地开展了各种类型的评价实验和实践活动;二是在学术交流方面发展道与国外专家功能同研究和探讨评价问题;三是出现了许多教育评价的研究成果。
国家教委于1990年11月和1991年4月发布了关于教育评价和教育督导的两个暂行规定,使我国教育评价理论研究和实践活动进入了一个新的阶段,即逐步正规地开展教育评价工作,提高教育管理水平。一是初步建立教育评价制度,为在全国正规开展评价工作提供了制度保证;二是建立了全国性的评价研究组织;三是国内外学术交流、研讨活动增多;四是部分高校开始培养该方向的硕士生和博士生。
(1)起点高、发展快
(2)搞试点,重实践
(3)建制度,讲规范
(1)对国外教育评价理论和实践工作有了较为全面的了解
(2)基本建立了我国教育评价理论和方法体系
(3)形成了我国教育评价的实践模式
(4)初步形成了我国教育评价制度的基本框架
我国
自20世纪80年代中期以来,评价范围从学生学习扩大到了对教师工作、学校领导干部的管理工作、学科专业和学校办学水平等的评价。
(2)评价结果与物质奖惩挂钩逐步转向与物质奖惩不挂钩
这是由于我国教育经费随着经济和科学技术的进一步发展逐年增多,评价目的主要是为了估价成绩、改进工作。
(3)越来越重视发挥为教育决策服务的功能
(4)教育评价工作制度化将会得到进一步发展
在操作过程中,遵循“定性-定量-定性”的规程
(6)在教育评价工作重将越来越广泛使用电子计算机
许多基本原理的研究还停留在说明的层面上,不够深入
(2)教育评价可操作的方法
学生素质评价是整个教育和教育评价的出发点和归宿,也是教育质量规格研究的核心
是学校办学水平的自我评价体系以及学校干部、教师】员工、学生评价和奖惩制度的有机结合体。
系统的教育评价制度主要由三个子系统构成,即评价机构子系统、评价程序子系统和评价质量管理子系统。
教育评价过程是按照特定目标和标准,对教育行为和教育主、客体所进行的价值判断的过程。
教育评价是一项技术性很强的工作,能否科学地组织评价,对评价质量和结果的可靠性和有效性有着重要的影响。并且,成功的教育评价离不开评价者和被评价者的密切合作。因此,在评价组织工作中,除了做好评价过程中各阶段的常规工作外,还必须做好评价者和被评价者在各阶段的心理调控。
组织准备包括成立专门的评价领导小组,组建一定形式的评价工作小组。组织工作可由被评价对象所在部门的上一级机构承担。例如对学校教学工作的评价,可由上级教育行政部门负责建立评价领导小组和工作小组。有时为了进行自我评价,也可在被评价单位内部建立评价小组。
人员准备包括组织有关人员学习平价理论和有关文件,使其明确评价的目的、意义,树立起全面贯彻党的教育方针、全面提高教育质量的价值观,从而使评价人员以高度的责任感和实事求是的科学态度认真负责地做好评价工作。
所谓教育评价标准,就是指对一切教育活动质量或数量要求的规定。它一般包含评价的指标体系和评价基准。
2. 以评价活动的组织者、评价者和被评价者等的接受程度为重点
3. 以评价程序的科学性、规范性和可操作性为根本
1. 评价目的
2. 评价对象
具体包括指标体系和评价基准
主要包括评价信息的搜集和处理方法
具有时效性
6. 评价报告完成的时间
7. 评价报告接受的单位、部门或个人
8. 预算
人们在社会生活中,由于担负着一定的角色而形成的一种心理状态。评价者的要求与评价指标的一致性将影响评价的客观性。如专家偏重方案的理论依据,实际工作者倾向于方案的可行性
由一定的心理活动所形成的准备状态,影响或决定同类后继心理活动趋势的一种心理现象
是指对新颖、时髦事物的向往和崇拜的一种心理现象
(1)把好评价人员的选拔关
职业道德、评价技能
被评价者在自我评价中怀疑自己的评价与将来他人的评价是否相符而产生的一种心理状态。可能的消极影响有:过低/模糊/过高自我评价
消极影响有:自我评价草率,忙于准备表面工作
(1)在评价工作开展前,要认真做好宣传和沟通工作,讲清评价的目的、意义和积极作用,消除其思想顾虑;发扬民主;提高评价工作的透明度。
(2)引导被评价者正确评价自己
教育评价的实施阶段是实际进行评价活动的阶段。它是整个教育评价活动的中心环节,也是教育评价组织管理工作的重点。
实施阶段的主要任务是,运用各种教育评价方法和技术,手机各种评价信息,并在整理评价信息的基础上,做出价值判断。同时,对评价者和被评价者的心理进行调控,以保证评价工作的顺利进行。
在正式评价之前,先选择试点单位进行试评,以便取得经验,并进一步完善评价方案。
评价信息收集得越多、越全面、越充分,就越能使评价结果准确合理,越具有客观性、科学性。可采用查阅文献法、观察法、调查法、问卷法、访谈法等
整理评价信息主要是指对评价信息的全面性、准确性、适应性以及收集资料方法的可靠性反复加以核实,将收集到的全部评价信息进行检查、分类和报村,以便于使用
这是实施阶段的核心工作
处理评价信息就是运用定性和定量的方法处理评价信息,将评价对象在各项评价指标中呈现出来的特征运用数学或其他方法处理成为评价结果
4. 做出综合评价
(1)首因效应(2)近因效应(3)晕轮效应(4)参照效应(5)理想效应(6)趋中趋势(7)逻辑错误
(1)制定统一的操作方法
建立健全规章制度;及时了解评价者和被评价者的思想动态、情绪反应
(1)自卫心理(2)应付心理(3)逆反心理(4)迎合心理
(1)自卫心理是指被评价者在被他人评价过程中产生的一种为保卫自己免遭外界干扰,力图维持原有平衡状态的心理倾向【反抗、开脱、回避】
评价者平等待人、虚怀若谷的行为,与人为善的作风,严谨求实的科学态度有利于消除被评价者的思想顾虑
评价效应是指通过评价者的目的、动机、需要、价值观等构成评价心理机制及倾向性,与不同的评价方案结合,作用于被评价者时所引起的被评价者的自我意识、情绪状态、意识动机、需要和成就目标、与评价者人际关系的变化等
教育评价结果有两层含义:一是对教育评价对象的各种结论性的意见;二是对试试评价方案情况的总结性意见。结果的分析处理,就是对上述两方面结果的分析处理。
检查评价程序的每个步骤;运用统计检验方法,对评价结果进行检验
对被评价者的优劣状况进行系统评论,以帮助它们找出存在的问题以及问题的症结所在
正文包括:(1)概要(2)评价方案的背景信息(3)评价方案实施过程的描述(4)结果及结果分析(5)结论与建议
(四)反馈评价结果
(五)评价工作的总结
(六)建立评价档案
1. 类群关系;2. 亲疏关系;3. 从众行为;4. 威望效应;5. 本位心理;6. 社会刻板印象
1. 加强评价结果处理的管理和监督
2. 考核评价者,进一步提高评价人员的素质
1. 敏感心理行为
2. 自慰行为“酸葡萄”/“甜柠檬”
3. 推诿责任
4. 否定评价
1. 结果反馈方式要讲究艺术
2. 引导被评价者进行正确的归因
教育目的是一切教育现象(活动、机构等)的出发点和归宿,也是评价教育现象价值大小的基本依据。在我国,学校教育目的主要是培养德、智、体等全面发展的社会主义事业的建设者和接班人。教育价值的评价标准是评价方案的核心。而教育目的和目标是编制评价标准的主要依据。
编制评价标准除了要一句教育目标之外,还必须考虑其他方面的因素,如评价对象和条件、与教育评价活动有关人员的愿望、需要和意图以及现有的各种规章制度和科学理论等。在此,我们只对教育目标作深入研究。
教育目的代表理想的、长期的、抽象的、一般的、笼统的结果,强调方向性。而教育目标则表示实际的、即时的、具体的、特定的、明确的结果,钱啊关掉可操作性。
目的和目标两者互为补充、相辅相成的关系。目的代表着目标的总和及方向,目标则是目的的具体化和实例。
在教育评价中,人们往往更加重视目标,因为评价需要明确而具体的目标。
美国学者泰勒用三角形表现了三者的关系
具体地说,目标既是教育活动的指南、出发点,又是评价的主要依据;教育活动既为评价提供了内容样本,又丰富和充实了目标;评价既可以判断目标的正确性、可行性以及实现的程度,也能对教育活动提供反馈,进行有效的控制和改进。
教育目标是评价活动的主要依据。评价是按照特定的目标和标准,对教育行为和教育主、客体所进行的价值判断活动。因此,评价是受教育目的(目标)制约的,评价的根本目的和主要价值是提供信息,促进教育目的(目标)的实现。
教育目标的层次性构成了横向的目标结构,它可分为由一般到具体的三种层次:教育目的、培养目标、课程目标和学科目标。
是指国家对教育应培养怎样的人(受教育者的质量规格)的总体要求,对所有学校均具有普遍的指导意义。
教育必须为社会主义现代化建设服务,必须与生产劳动相结合,培养德、智、体等方面全面发展的社会主义事业的建设者和接班人。
1999.6《关于深化教育改革全面推进素质教育的决定》指出:“实施素质教育,就是全面贯彻党的教育方针,一提高国民素质为根本宗旨,以撇杨学生的创新精神和实践能力为重点,早就‘有理想、有道德、有文化、有纪律’的、德智体美等全面发展的社会主义事业建设者和接班人。”
培养目标是指根据教育目的而制定的各级各类学校的具体培养要求,它与教育目的的关系是普遍和特殊的关系,在同一的教育目的的指导下,突出了对不同层次、不同类型培养对象的特殊要求。
各级各类学校的培养目标要通过实施课程才能实现。一般认为,广义的课程是为实现学校培养目标而选择的教育内容的综合,包括学校所教各门学科和课外活动等。侠义的课程是之学校所教授的具体学科。因此,课程目标是课程要达到的目标,它规定了一定教育阶段的学生在发展品德、智力、体质等方面期望达到的程度。而学科教学目标是特定学科所要达到的目标,它规定了通过学科教学学生应当达到的发展程度。
目标的阶段性是指同一层次目标的阶段性要求,构成了纵向性的目标结构。主要适用于课程或学课教学目标。
阶段可以以学生的学习年限来划分。随着学生学习年限的增加,目标的阶段性要求也不断提高、扩展或者深化。如例如,上海英语教学分为小学3~5年级、6~9年级两个阶段。前者是学习英语的准备阶段,护着是学习英语的巩固和提高阶段。
阶段也可以按照教育和教学活动的进程来划分。如分教育阶段结束时的总结性目标和教育过程中的形成性目标等。当然,阶段性的划分只有相对的意义。
国外认知领域的目标相当于我国的智育目标,表明学生的智能水平——能够做什么。
布卢姆(1956年)等人提出认知目标分类学。
该认知目标分类学提出了学生智能的发展水平,分为知识和智慧技能两个部分和六个类别
①知识
②领会
③运用(应用)
④分析
⑤综合
⑥评价
①层次性:由低到高;②累积性:每一层此包含了较低层次;③超越性:不受学科和教材的限制。
国外情感领域的目标相当于我国的德育、美育方面的目标,表明学生的意愿——愿意做什么。
美国教育家克拉斯沃尔(1964年)等人提出。
该目标分类学提出了学生情感(兴趣、态度、价值、个性)的发展水平,分为五个类别:
(1)接受(注意)
(2)反应
(3)赋予价值:赞赏并以此指导行动
(4)组织
(5)由价值或价值复合体形成的性格化
广泛运用于课程编制领域,但因为评价较困难,运用尚处于探索阶段
动作技能领域也成为心理运动领域,大致相当于我国的体育、美育和劳动技术教育。
动作技能目标分类学是由美国两位女学者哈罗(1972年)和辛普森(1972年)提出的。
该分类学适用于学前教育、体育、美育、职业技术教育和特殊教育
①反射动作
②基础——基本动作
③直觉能力
④体能
⑤技巧动作
⑥有意沟通(非理性交流)
该分类学适用于职业技术教育、体育和美育
①知觉
②定势
③指导下的反映
④机制
⑤复杂的外显反应
⑥适应
⑦创作
我国学生发展目标的分类采用横向类别并列式,注重内容和结果,注重不同学科的特性,并综合认知、情感和动作技能三方面的要求。
美国学生发展目标分类采用纵向水平层次式,注重过程、发展阶段和不同的水平层次。分类强调心理性,具有跨学科的特性,有利于培养和评价。不同领域的目标分类分别予以阐述,具有一定的深度
一般含义是“计划中规定达到的目标”。在教育评价中,指标是指具体的、行动化的、可测量或可观察的评价内容,即根据可测或可观察的要求而确定的评价内容,用具体的项目反映抽象的内容。
能反映被评价对象的共同属性,具有归发行和可比性;分解细致,便于测量,也便于定量处理;误差较小,信度较高
设计和编制较为费时耗力;较难反映被评价对象的特点和社会多样化的需要;多次分解可能偏离本质属性,造成效度相对较低
美国学者克龙巴赫(1982)提出
主要任务是分解教育目标,提出详尽的初拟指标(集体讨论)
主要任务是对初拟的评价指标体系进行适当的归并和筛选
(1)指标应具有重要性
(2)指标应具有独立性
(3)指标应反映被评价对象特性的本质属性
3. 试验修订
权重是指根据各组成要素在整体中的地位重要性和作用大小,所分别赋予的不同数值。权重代表了评价指标的重要性程度
(1)各指标权重的取值范围为0到1之间;
(2)各指标权重之和为1
特尔非法是20世纪50年代美国兰德公司赫尔默开发的一种专家咨询方法。其特点以匿名的方式,向专家们分发咨询表,函询征求意见。经咨询组织者的统计整理后,将汇总情况反馈给专家,再次征求意见。经多次反复后,使专家意见逐步趋向收敛,最后达成基本统一
咨询表既可以用来筛选指标,也可以用来分配权重
采用向局外专家咨询的形式,从而减少了内部人员因有切身利害关系可能带来的偏差;“背对背”的通讯咨询方式,可以免除权威人士的为王影响和其他干扰;专家咨询的面更广、权威性也趋向于更高;有控制地多次反馈,对问题的探讨较为深入,使意见逐步趋向一致;咨询的结论便于定量处理。
请调查者从所提供的备择指标中找出最关键、最具特征的指标,再对指标进行筛选,最后确定指标的权重
与特尔斐法相似,区别在于调查的样本更大,调查的对象也不限于专家,调查过程相对简单,一次完成;权威性低于特尔斐法,蛋具有更广泛的群众基础和民主性
要求有关人员对同一层次的评价指标进行两两比较,区分出各项指标影响目标实现的相对重要程度,构成数值化的判断矩阵。经运算排序后,求得各指标的权重。该方法采用比较严格而复杂的数学处理方式,结果较为精准
1. 指标制定应力求简约,提高其可行性和科学性
2. 权重的确定应当力求科学,并需要得到实证性资料的支持
3. 指标和权重都应不断修订、不断完善
基准往往是区分被评价对象不同表现水平的临界点
是根据特定参照组的表现制定的判断基准
是根据特定的目标和准则制定的判断基准
是以个体的特定表现作为判断的基准,即进行自我比较,可分为横向(同期诸侧面)和纵向(今昔对比)两种
各有利弊,有针对性地组合
测验法是指用各种测量工具(教育、心理测验和其他量表)向被评价对象收集资料的方法。
常用来收集学生的认知发展、学业成就、学习能力、体能等方面的资料
测验是对行为样组进行客观、科学和标准化测量的系统程序。测验是评价学生认知发展的主要工具。
测验可用于测量学生的学业成就、智力、人格、品德等,不一定与教育制度存在密切的联系
智力测验、能力倾向测验、教育成就测验和人格测验等
书面测验、非书面测验(口试或操作测验)
标准化测验和教师自编测验
个别测验和团体测验
测验新都是指测验的可靠性、一致性和稳定性程度
用相同的测验工具对同一组被试者进行两次测验,两次测验结果的相关程度,反映了测验的稳定性
能提供测验结果是否随时间而变化的资料,可作为预测被试者将来行为的依据
被试者在两次测验的间距中会发生一定的变化,造成测验结果的不一致,人们很难依此证明工具的可靠性
用两种平行(等值)的测验工具对同一组被试者同时进行两次测验,两次测验结果的相关程度,反映了测验工具的等值性
可避免再测法受时间间隔影响的缺点,应用范围较广
建立完全平行的复本较困难。在实际的测验中,同时制定出两套等值的测验工具进行测量的现象也不常见
将测验工具中的全部项目分成相等的两半,计算被试者两半部分得分的相关系数。分半的具体方法可采用前、后分半或奇、偶分半。一般采用奇、偶分半。
不需要进行两次测验
但它的使用有一些限定条件,如假定两半测验是等值的(即具有相同的平均数和标准差)。此外分半法也不适用于速度测验。基于此,一些学者右提出了更好的估计分半信度的方法,这些估计方法不需计算两半测验分数的相关,也不需要进行校正。
旨在了解测验工具内项目的同质性,即工具内部所有项目之间的一致性。内在一致性信度是为了解决不同分半方法求得的信度系数不尽相同的现象,而提出的估计信度的更好方法。
它是使用最广泛的信度指标
对于试题为0、1记分的测验,一般用库德和理查逊提出的KR-20公式来估计内在一致性信度;对于试题不是0、1记分的测验,则可采用克龙巴赫提出的α系数来估计内在一致性信度
测验效度是指测验的有效性或准确性,即测验对其所要测试的特性准确测量的程度
测验效度的相对的。效度的相对性有两层含义:一是有效性是针对特定的测验目的、对象而言的,一种测验工具不可能适用于任何目的和对象。二是有效性不是有或无的对立,而是程度的不同。不可能完全无效或完全有效
测验内容或行为取样的代表性和适当程度,即实际测验内容和预定测验内容之间的一致性程度
测验结果与效标的一致性程度效标是指衡量测验有效性的外在参照标准。效标一般采用权威性的测验结论以及被试者的实际表现。
根据效标证据收集的时间,还可把效标关联效度进一步分为预测效度和同时效度。预测效度是以被试者以后的表现为效度,了解测验预测的有效程度。由于测验目的并不在于预测,因此,预测效度只适用于选拔的场合。同时效度是以已获得的其他经验性资料为效标,了解测验结论与这些效标之间的一致性
测验结果和理论构想或特质的一致程度
难度是指项目的难易程度。它可分为绝对难度和相对难度两种。绝对难度又称认知难度,是指项目本身固有的难度。相对难度又称统计难度,是学生实测后,经计算得到的难度指标。
统计难度最常用的计算方法是计算项目的通过率,计算公式为:P=某题的平均分/该题的满分值
0~1之间。难度为0表示无人答对。数值越高难度越低。
区分度是指项目对学生特性的区分程度。区分度高的题目能有效地区分水平不同的学生,区分度低的题目则不能有效地区分水平不同的学生。区分度通常通过计算而得出。
相关法,即计算学生各项目得分和测验总分的相关。根据分数(变量)的不同性质,可采用不同的公式计算区分度
由于区分度主要有计算相关而得出,而相关系数因相关的方向性不同,会出现正值(正相关)和负值(负相关)。因此,区分度的数值范围为-1~+1。反映正面区分度和负面的区分干扰度。
从理论上说,中等难度(P=0.5)的项目具有较好的区分度
1. 有助于筛选和修改题目
2. 测验分析的信息有助于命题者提高命题的技巧
3. 测验分析还能为改进教学提供反馈信息
测验条件的规范性和一致性是成功实施测验的关键,测试必须使众多学生在相同条件下影视,才能保证测试的公平性。
测验法具有效率高(单位时间可得到最多的信息)、资料便于作定量处理的优点可获得信息的种类也较为广泛。被试应试动机较强,测验的结果比较客观、可靠。
测验是根据被试对测验项目所作出的反应,推断出其知识、技能和人格等方面的发展状况,具有间接性。此外,在进行书面测验时,对测验工具的编制要求较高。在进行操作测验时,对主试的要求也较高。
问卷法是以精心设计的书面调查项目或问题,向被评价对象收集资料的方法
根据回答问卷的方式,问卷可分为封闭式(结构式)和开放式(非结构式)两种。封闭式问卷提供备择答案,供被调查对象进行选择或排序。开放式问卷则要求被调查对象写出自己的情况或看法。
主要用于对被评价对象的预期反应能较为准确把握的场合。
易于回答、省时、覆盖面广、效率高、答案便于统计处理和分析、结果具有可比性
答案可能限制被调查者回答的广度,或者并非真正代表被调查者的真实想法,无法了解被调查者的独特想法,影响调查的质量。编制合理的封闭式项目需要花费较多的时间和精力
选择式项目要求被调查对象从问卷所提供备择答案中选择符合自己想法的一项
量表式项目采用心理测量中的量表形式,以了解被调查者特定反应的程度。经常使用的量表有五点量表,即利克特量表(Likert Scale)。
要求被调查者按照一定的标准(如重要性或时间序列等),对问卷所提供的备择答案排出等级或序列。
特点是只提出问题,不列出可能的答案,适用于答案不易收敛,或需要深入了解的场合。
具有更大的弹性,允许被调查者自由发挥;搜集到的材料丰富、生动,可能得到一些非预期的、有价值的信息。
被调查对象答题时需要花费较多时间;有时会因误解题意而答非所问;资料的汇总、归纳需手工完成,较为费时;且调查结果不易集中,较难进行综合、统计处理和横向比较。
填空式项目要求被调查对象在有关栏目后填入实际情况或看法。由于所填写的内容只是几个词或一句话,程度有限,因此,又称为有限制的反应。如:
“在日常学习生活中,你最关心的问题是”
自由回答式项目让被调查对象畅所欲言,自由发表意见。因对答案的长度不做限定,故又称为无限制的反应。如:
“你觉得学校最急需解决的问题是什么?”
判断问卷编制成功与否有两条基本标准。首先,问卷能收集到调查者所希望了解的信息。其次,被调查者乐于回答。因此,在编制问卷时应当遵循以下一些基本原则。
问卷中所提的问题应与调查目的一致,突出调查的重点。除了少数背景性问题外,不应列入可有可无的问题。
问卷中所提的问题应当符合逻辑顺序和被调查者的思维程序。一般的安排是先易后难,先简后繁,先一般后具体。一些被调查者不愿回答的敏感性问题,可放在问卷的最后。
问题停当简明扼要,明确而无歧义。措辞力求通俗易懂,使被调查者愿意合作,乐于回答。避免使用带有导向型的问题。
一般不要超过30分钟。
问卷的编制应当有利于调查资料的编码、录入、汇总和处理。
一般应当进行小规模的预测,鉴别出会产生误解的、无用或不充分的项目。如某项教师问卷中有如下了解教龄长短的背景性项目……
最常用的抽样方法是等距抽样或分层抽样。
通讯作答、当面作答、有组织分配
要剔除不符合要求的废卷;回收率较低时应进行追踪调查。
取样的广泛性和代表性;调查时间灵活;效率高、费用低、简便省时;格式比较客观统一、标准化,资料易作量化分析;实施简便;对使用者不必特别培训;可匿名调查,减少顾虑;具有间接性。
限制发挥,不够灵活;无法控制填写时的情境,不能进行正确引导;搜集的资料容易流于表面,难以深入了解内心的想法;被试需要有一定的文化程度;回收率较低;难以了解数据缺失的原因;被调查者在回答时会收到趋中现象、随机反应、社会性要求定势等因素的干扰。
又称谈话法,它是通过与被调查对象进行交谈而获取有关信息的方法。访谈法具有双向交流的特点。它与问卷法同属基本的调查方法,但更适用于调查对象较少的场合。访谈法对访谈人员的能力要求较高。
是指指导性的访谈形式,属于正式的、标准化访谈。访谈者根据统一设计的访谈表进行询问,并记录。被访谈者根据问题回答,作出反应。
是指非指导性的访谈,属于非正式的、或非标准化访谈,或自由漫谈。通常只有粗略的访谈范围,甚至可进行自由提问和做出回答。无结构访谈往往采用事后记录的方法,不作现场记录可使被访谈者消除防卫心理,提供更多的真实想法。
问题的结构性较强,但回答的方式比较自由,甚至可以采用讨论方式。
问题的结构性不强,但回答的方式比较正规,即不作过多的自由发挥。
座谈的人数一般控制在6~12人为宜。
分别是指面谈和电话访谈。
(一)访谈设计
(二)访谈人员的选择与培训
(三)访谈实施和记录
便于双向交流信息;便于控制,既可随时澄清问题,纠正对问题理解的偏差,又可随时变换问题或方式,捕捉新的或深层次的信息;可以有效地防止问题遗漏不答的现象;适用面光,能有效地收集关于态度、价值观、意见等资料;能在交谈的同时进行观察;能建立主客双方的融洽关系,消除顾虑,反映真实的想法。
时间和精力花费较大,访谈样本小,需要较多训练有素的访谈人员,成本较高;访谈者的特性会影响被访谈者的反应;访谈者的言不符实,或对某些问题的偏见会导致所获的资料的偏误。此外,对访谈结果的处理和分析也比较复杂。
观察法是对被评价对象在自然状态下的特定行为表现进行观察、考察、分析,而获取第一手事实材料的方法。最适用于了解被评价对象的行为、动作技能、情感反应、人际关系、态度、兴趣、个性、活动情况等。观察法可采用轶事记录、行为描写、检核表、评定量表等方式记录观察结果。
按事先是否确定具体观察项目和记录要求,分成“有结构观察”和“无结构观察”。
根据观察者是否直接参与被评价者所从事的活动,可分为“参与性观察”(局内观察)和“非参与性观察”(局外观察)。参与性观察不暴露自己的真实身份,在参与活动中进行隐蔽性观察,对活动有更深刻的了解;非参与性观察较客观,但容易被表面现象所迷惑。
按观察的内容范围大小划分,可分为完全观察和取样观察。取样观察又可分为时间取样观察和活动、事件取样观察。
(一)观察设计
分为行为或事件的描述,按记录表记录两种方式。
应当及时整理和补正记录。
具有直接感受性;主要依靠观察者的感官和思维;可获得被评价对象不愿意或没能报告的行为表现,以及短时出现的情况;全面、准确、生动,具有真实性和客观性。
取样较小,观察对象项目多且分散时较难应用;有时会对被观察者产生干扰;会因主观因素的干扰而引起失真;实施成本高;资料记录和整理较难系统化,结论较难类推或判断因果关系;有时观察项目归类的推论性太强,从而影响调查的信度。
文献法是依靠收集和分析记载被评价对象情况的现成资料(文件、档案等)而获得所需信息的方法。教育评价中的文献法和一般教育研究中的文献法的不同在于:文献覆盖的范围较窄;大多数文献容易从被评价对象的文件、档案部门获得。因此,评价者的精力主要放在对文献的核实和甄别上。
书面文献;音像文献;实物文献(如学生作品)。
政府、机构、组织、团体的文件和档案;社会研究文献;个人材料。
一次文献(作者本人根据所见所闻而记录的材料);二次文献(对以此文献进行初步加工整理的文献,如文摘、索引等);三次文献(在二次文献基础上继续进行加工整理的文献,如总数、述评、专题报告等)。
(一)筛选和肺类
(二)复印或摘录
(三)文献的核实和汇总
不受时空的限制;没有反应性问题;方便和节省;可克服评价者亲自调查的局限性。
不是为评价而特意准备的,具有不完全性,不能满足评价者的特定需要,而且原始材料可能带有原记录者的个人偏见和虚假成分。
描述是说明被评价对象“是什么”的一种方法
(1)经过审核、整理和汇总的资料;
(2)研究对象;(是教育事实而不是理论观点)
(3)描述的技术和手段。
现象性描述(特征)和本质性描述(进一步概括)
定性描述(印象描述、概观描述和类型描述)和定量描述
解释是对影响被评价对象特征的各种原因做出说明的一种方法,回答“为什么是这样的”问题
(一)可检验性(用逻辑、实践检验)
(二)不完全性
(三)有效性
被评价对象特征的存在是某种普遍适用的通则的具体表现,不多见
部分解释
因果分析的逻辑方法以及意向分析方法(解释动机和态度)
包括相关分析、回归分析和因径(路径)分析
定性分析是用语言描述形式以及哲学思辨、逻辑分析揭示被评价对象特征的信息分析、处理方法。
关注
(二)定性分析的对象是质的描述性资料,主要包括访谈记录、观察记录和文献信息等
对象
程序
方法
(五)定性分析容易受主观因素的影响并且对背景具有敏感性
主观性
第一,对发展过程的原因探讨
第二,对被评价对象优缺点的详细描述
第三,对典型个案的深入研究
第四,被评价对象内隐的观念、意识分析
第五,对文献档案信息的汇总和归纳等
第一,确定定性分析的目标以及分析材料的范围
第二,对资料进行初步的检验分析
第三,选择适当的方法和确定分析的维度
第四,对资料进行归类分析,得出结论,并进一步探讨可能存在的因果关系
第五,对定性分析结果的客观性、效度和信度进行评价
定量分析是指用数值形式以及数学、统计方法反映被评价对象特征的信息分析、处理方法。
1. 定量分析注重被评价对象的可测特征,进行精确而间接的量化描述;
关注点
2. 定量分析的对象是具有数量关系的资料,如问卷调查和测验的信息等;
对象
3. 定量分析具有严格而规范的分析程序和很强的顺序性,高级的分析一般都要以低级的分析为基础;
程序
4. 定量分析采用数学和统计分析的方法,通过数学或逻辑运算,抽取并推导出对特定问题有价值的数据,并在此基础上得出结论;
方法
5. 定量分析受分析者主观影响相对较少,客观性强;
客观性
定量分析可借助计算机等现代化手段完成分析,效率较高。
技术手段
第一,对群体的状态进行综述;
第二,评比和选拔;
第三,从样本推断总体;
第四,对可测特征的精确而客观描述等。
第一,对数据资料进行统计分类,描述数据分布的形态和特征;
第二,通过统计检验、揭示和鉴别评价的结果;
第三,估计总体参数,从样本推断总体的情况;
第三,进行相关分析,了解各因素之间的联系;
第五,进行因素分析和路径分析,解释本质联系;
第六,对定量分析客观性、有效性和可靠性进行评价。
用数字来代表事物或把事物分类,说明事物特性的异同。
常用方法:计算次数、众数、百分比、卡方检验、列联相关等。
用数值表示事物所具有某一特征的多少,它在分类的基础上,又增加了序列的特性,可排列大小。
常用方法:计算中位数、百分位数、肯德尔和谐系数、等级相关等。
ps:在处理评价信息时,等级数据有时也被粗略地当做等距数据来对待。
除了具有分类、排序作用外,其数值单位也相等,并人为确定了零点(测量的起点)。
常用方法:计算平均数、标准差、积差相关、t检验、F检验等。
ps:在教育评价中,通过测验获得资料(如学生的成绩)以及教师和学校评价指标系统中的分项分数及总分大多属于等距数据。
不仅数值单位相等,而且具有绝对零点。物理测量值属于典型的比率数据
常用方法:除了上述等距数据所用的方法外,还可计算几何平均数、相对差异量等。
集中量是代表一组数据典型水平或集中趋势的量。反映了被评价者整体的状态水平,可用来进行组间比较,组内的个体也可参照集中量了解自己的未知。
1. 众数
按照大小顺序排序的数据中位置居中的数值
是各观测值的综合除以观测值个数所得的商,也称为平均数或均值
4. 三种集中量的比较
差异量是代表一组数据变异程度或离散程度的量,反映了被评价者群体的离中趋势,即分化的程度。差异量的数值越大,群体成员之间的分化程度就越高。
1. 全距
将一组数据按大小顺序排列后,分成次数相等的四部分,位于各分界点的数据称为四分位数。四分位差是第三四分位数与第一四分位数之差的一半。
方差是个数据和其平均数离差平方和的平均数。
4. 三种差异量的比较
是不带任何测量单位的相对差异量。差异系数用标准差和平均数的比例来表示,即以平均分为单位来衡量差异的程度。CV=S/平均数×100%
若CV值大于35%,可怀疑平均数是否失去意义;如小于5%,可怀疑平均数和标准差是否计算有误。此外,差异系数常用来分析和评价学科内和学科间学生学习的分化情况。一般来说,如果CV小于9%,表示基本无分化;如果CV大于20%,表示分化严重;如果CY处于9%到20%之间,则表示有分化迹象,应引起重视。
分类数据可直接列出频数分布表,而连续数据则先要分组进行归类后再列表
常用的频数分布表有:次数分布表、频率(相对频数)分布表、累积次数分布表、累积相对次数分布表等
(1)条形图
(2)圆形图
(3)折线图(频率多边图)
(1)峰的数量
(2)峰的高低
(3)峰的对称性
是平均数为零,标准差为1的标准分。Z分数是最典型的标准分,其他形式的标准分一般都由Z分数派生而成。Z=原始分-平均分/标准差
在正态分布下,Z分数的数值范围为±3之间,包含了99%的个体
T=1-Z+50。数值范围为20~80。
CZZB分数=500+100Z。数值范围为200~800。
首先,各分项分数是否具有同质性。如果集中分数完全互不相干,加总就缺乏科学性;
其次,如果各项分数基本同质,其价值或重要性是否相同。对重要性不同的分项分数进行贾总,应当先加权再求和;
第三,只提供总分是否妥当。一般来说,总分具有补偿性,各分项分数相加后,掩盖了各部分所存在的差异。
为了全面反映被评价对象的实际水平,较为妥当的方法是同时报告总分和子分数。
相关分析是对两组对应变量之间关系的密切程度的一种测定。
两个变量之间的确定性联系可称为函数关系。两个变量之间不精确、不稳定的变化关系称为相关关系。
可看出两个变量之间是否存在相关、相关的强弱、相关的方向以及是直线相关还是曲线相关等。
使用条件为:两个变量均是连续变量,且总体至少是单峰对称分布,样本容量最好在30个以上。
相关系数表示两个变量之间的直线关系。通常要考虑两个因素
取值范围是±1,常用小数表示。绝对值越大,相关性越高。(完全相关、零相关)
一般而言,大于0.8是强相关,0.4~0.79是中等相关,0.2~0.39是若相关,小于0.2是极弱相关。
正相关/负相关
在希望了解某一变量变化受到另一变量的制约的程度时,应计算确定系数,确定系数=r的平方×100%。r为相关系数。
(三)相关关系并不等于因果关系
1. 总体、个体和样本
样本的数字特征称为统计量,通常用英文字母表示。总体的数字特征称为参数,通常用希腊字母表示。
为了使样本具有代表性,必须要选择适当的抽样方法和样本容量
抽样方法分为简单随机抽样、机械(等距抽样)、分层抽样、整群抽样、多阶段抽样等。
样本容量指抽取样本的数量。一般来说,少于30称为小样本,多于称为大样本。
抽样分布是理论的概念分布,它是统计推断的理论依据。抽样误差是指样本指标和总体指标的差异数。影响抽样误差的主要因素有样本容量的大小,对象的变异程度,不同的抽样方法。抽样误差越小,表明样本统计量和总体参数值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠性越大。
是用样本统计量来推测总体参数,分为点估计和区间估计
是用一个样本通量作为总体参数的估计值。良好的点估计量应当具有无偏性、一致性、有效性、充分性。如平均数。
区间估计是指按一定的概率要求,用样本统计量估计总体参数的所在范围。置信区间是指在某一置信度(水平)时,总体参数所在的区域距离或长度。置信度又称显著性水平,是指估计的总体参数落在某一区间时,可能犯错误的概率,用α来表示。常用的置信区间有0.95置信区间、0.99置信区间。
是指利用样本信息,根据一定概率,对于某一总体参数的假设做出拒绝或保留的决断。它的基本原理是采用概率论中的“小概念事件实际上的不可能性”原理,进行反证。
即假设两组数据的参数(如平均数)无本质差异
即假设两组数据的参数(如平均数)有本质差异
学科测验分数的总体一般成正太或接近正态分布。评价者可根据样本大小选择适当的检验统计量,当两个样本为独立大样本时,采用Z检验;否则用t检验。
(1)评价者只关心两个平均数之间是否存在显著差异,而不关心差异的方向,可采用双侧检验法。
(2)评价者根据理论或经验可预测某一平均数应大于(或小于)零一平均数,则可采用单侧(尾)检验法,如样本平均数大于总体平均数时,可采用左侧检验;样本平均数小于总体平均数时,可采用右侧检验。
4. 确定一定的显著性水平,将该值和相应的临界值作比较,做出统计决断
不能截然分开
再评价是指按照一定的标准或原则对教育评价工作本身进行评价的活动。其目的是对评价工作的质量进行判断,规范与完善教育评价,充分发挥评价的积极功能。
教育评价的专业标准是由从事评价工作与评价有关的专业团体,在总结评价的理论研究成果和成功的实践经验的基础上所指定的评价专业的基本规范,用于指导评价工作的研究和发展,并 提高公众对评价的可信度。
(一)《教育方案、计划、材料评价的专业标准》的具体内容
【有顺序性】实效性标准、可行性标准、适当性标准(难以克服的利益冲突问题、对个人的权利造成侵犯?)、准确性标准
(二)专业标准的协调和安排的次序
(三)专业标准的作用
再评价:是按照一定的指导原则或标准,对评价工作自身的质量做出评判。
在实践中,对标准达成程度的判断大多采用定性的方法。例如,美国学者沃森(1974)曾以概括性问题的方式总结了良好评价所应当具备的11条特性。
第一,概念明确——评价应能明确阐述评价的中心问题、目的、作用和一般方法。
该
第二,突出被评价对象的特性——评价应全面、详尽地描述被评价对象的特性。
信
第三,确认并表达合法评价报告接受者的观点——所有合法的评价报告接受者应具有发言权并有机会审查评价结果。
任
第四,对评价中涉及的政治性问题具有敏感性——评价应能满意地处理好产生分歧的政治、人际和伦理问题。
明
第五,详细说明信息需求和来源——评价应当详细说明所需的信息及其来源。
析
第六,全面性——评价应收集所有重要变量和问题的信息,但无相互矛盾的数据。
全
第七,记述的充分性——评价的设计、程序和所产生的信息应当满足效度、信度和客观性的科学准则。
记
成
第九,明确的基准/准则——评价应明确列出并讨论判断被评价对象的准则和基准。
基
第十,判断或者建议——评价除了报告结果外,还应当提供判断和建议。
建
第十一,面向评价报告接受者的报告——评价应适时地向已确认的评价报告接受者提供形式适当的评价信息。
告
评价的效度是判断评价质量的最重要的技术指标。评价效度是指评价结果的有效性或准确性,即评价对其所要评判的特性准确评价的程度。换言之,评价效度要求评价结果应当符合评价目的。
能够充分覆盖所要评价的内容,能够准确地提供被评价对象特性的信息
通常采用专家判断的方式
优点:简便易行,可在评价实施前进行修订
缺点:容易受专家主观经验的影响,且缺乏可靠的数量指标
评价结果能够反映制定指标体系时的理论构想
是一种常用的多元统计分析方法,主要用途是从众多变量的交互相关中找出起决定作用的少数几个基本因素。(如在语言能力测验中,系统化知识、表达能力、接受、理解能力、处理信息能力哪些因素更重要,哪些因素之间是需要分开或合并的)
因素分析能验证或深化人们对指标体系或工具结构效度的认识。
评价结论的效度检验既可以采用定性的方法,也可以采用定量的方法,两者都属于效标关联效度,即根据效标来判断评价结论的有效性。
1. 最常用的定性方法是三角互证法,即用不同来源的定性材料来证实同一结论
2. 在评价结论采用定量方式时,则可用相关法计算评价结论的效标关联效度
计算相关的具体方法应当依评价结论及效标的量化水平而定,可采用积差相关法等方法。
1. 评价指标和工具的科学性
2. 评价实施的质量
要尽量避免出现效标污染情况,即效标包含了与评价目的无关或关系不大的内容
4. 被评价者的特性和样本的代表性
评价信度也是判断评价质量的最重要的技术指标。评价信度是指评价指标(或工具、结果)的可靠性、一致性和稳定性程度。
同组各分指标的内在一致性程度越高,该组指标的信度也就越高。对指标体系而言,应当用复本法或再测法来估计指标体系的信度。
主要考察工具的内在一致性信度、稳定性信度和等值信度。
计算评分信度一般采用相关分析。当计算两个评价者的评分一致性时,可采用皮尔逊积差相关法(评分为连续性分数)或斯皮尔曼等级相关法(评分为等级或名次);当计算两个以上评价者的评分一致性时,可采用α系数法(评分为连续性分数)或肯德尔和谐系数法(评分为等级)。
由于信度是用相关系数来表示的,其数值范围为0.0~1.0,信度系数越接近1,表明评价信度越高。
被评价对象团体的异质性越大,分数分布范围越大,信度系数就越高。对于不同水平的团体,相同的评价项目会具有不同的难度,项目难度的变化累积起来便会影响信度。
2. 评价指标和评价工具
3. 实施评价过程中的各种因素
4. 评分误差
从理论上讲,提高信度是提高效度的必要条件,效度受到信度的制约。但信度是效度的必要条件而非充分条件,信度高并不一定保证效度高。
信度低,效度不可能高;信度高,效度必然高;
效度低,信度可能高;效度高,信度必然高。(学姐笔记,不一定完全可信)
完整的再评价应当包括:对评价的设计审核、对评价进展的监控、对评价工具的审核、对评价报告的审核以及对评价结果的总体评价。
1. 在评价方案设计完成后进行的再评价
2. 在评价实施过程中进行的再评价
3. 在评价工具和程序的开发过程中进行的再评价
4. 在评价报告完成时进行的再评价
5. 在评价总结阶段进行的再评价
由评价者或评价指导小组实施。
由局外的小组实施。
优势:熟悉和了解评价的背景、评价的开发及发展过程,能直接进入再评价。
可以对照评价的专业标准来审核
劣势:存在个人认知偏差、思维定势,带有“敝帚自珍”的感情色彩。
(二)由被评价者、评价资助者或评价报告接受者实施再评价
(三)由外部专业评价者实施再评价
(一)明确再评价的对象及内容
(二)确定再评价的实施者
(三)获得实施再评价的授权
(四)制定或选择再评价的原则或标准
(五)把评价方案设计与再评价的原则或标准相对照
(六)判断评价方案设计的充分性
(七)提出改进的建议
除了运用信度鉴定和效度鉴定外,在收集在评价信息时,常常采用访谈、问卷、文献等方法;在对再评价的信息进行分析、判断时,经常采用定性、定量的分析方法。
五、再评价的现状亟待改进
在以高新技术为核心的知识经济日益临近的新形势下,人力资源在社会发展中起着越来越重要的作用。基础教育作为提高全民族素质的电机工程,应当主动迎接新的挑战。
学力是指通过学习获得的能力,是人的能力的基础部分。
1956年,美国的布鲁姆发表了《教育目标分类学——认知领域》,把学力结构分为:认知、情感、动作技能三大领域。
1985年,加涅在《学习的条件和教学论》中提出五种学习的结果:智慧技能、言语信息、认知策略、动作技能和态度。
1983年,美国哈佛大学教授加德纳提出了提出了多元智能的理论,认为每个人都至少有七种职能,即语言、逻辑——数学、空间、身体——运动、音乐、人际关系、自我认识智能等。他于1996年又提出第八种智能——自然观察者智能。这八种智能又可以归入三个更一般的领域:与“物体有关”的智能、与“物体无关”的智能(语言、音乐)以及“与人相关”的智能。
1996年,美国耶鲁大学心理学家斯滕伯格在七《成功智力》一书中提出成功智力包括分析性智力、创造性智力和实践性智力三个方面。
1996年,《教育——财富蕴藏其中》报告指出:面向未来社会发展,教育必须围绕四种基本的学习能力来重新设计、重新组织,它们被称为是教育的四大支柱:学会认知、学会做事、学会共同生活和学会发展。
(一)确定测验的目的(为什么测)和对象(测什么人)
(二)规定测验的内容和形式
测验蓝图即命题双向细目表,包含两个维度:一维是考核的学科知识内容要点;另一维是考核的能力层次(认知水平)。
1. 考核内容的抽样和考核认知水平的确定
2. 确定题型和题量
3. 确定试题的平均难度和难度分布
4. 试题赋分和测验期望分的预估
目前,我国大规模的校外考试(如高考及高中毕业会考)已开始采用征题与命题相结合的方式进行命题组卷。
(五)试测和试题统计分析
按照考核内容/考核的认知水平/题型组卷
(七)制定评分细则
选答题和自答题
客观题和主观题
覆盖面、效率、答案、评分
多选一的选择题、多项选多的选择题、是非题、组配题
2. 选答题的猜测校正
……对学生发展和变化的价值作出判断的过程
二、学生综合素质评价的基本内容
三、……的原则和方式
(一)概念
(二)意义
(一)操行评语法
(二)等第法
(三)评等评分测评法
(四)操行加减评分法
(五)加权综合测评法
(六)模糊综合测评法
(七)评等评分评语综合测评法
探究性、研究性学习
(一)评价的问题具有开放性、真实性、综合性
(二)评价的方案具有灵活性
(三)评价主体具有多元性
(四)评价的结论以质的描述为主,辅以必要的等级
(五)评价具有持续性,并鼓励学生通过合作解决问题
(一)更重视过程
(二)更重视实际的应用
(三)更重视体验
一、重视联系实际,重视跨学科知识和能力的考核
二、重视一般能力与思维技能的考核,尤其是批判性思维、创造性思维的考核
(一)加强对有效获取信息能力的考核
(二)加强对智慧技能(程序性知识)和认知策略(元认知)的考核
(三)提高对思维品质(尤其是批判性思维和创造性思维)的考核要求
三、重视实际操作能力的考核
四、学业评价技术的现代化
五、学生思想品德与心理素质评价将更注重理论与实践的结合,并渗透到其他学科的评价中
教师质量观,通俗地讲就是什么样的教师是好教师。
第一,教书育人的角色
第二,学习者的角色
第三,学习的指导者和合作者
第四,集体的领导者和团队的管理者
第五,心理辅导者的角色
第六,研究者的角色
第一种:以考核教师的资格和能力,为教师的聘任、晋升、加薪、解聘等提供认识决策依据的奖惩性教师评价制度
第二种:用以提高教师专业水平,促进教师职业发展,保证教育教学质量的发展性教师评价制度
1. 学生的参与状态
2. 教学过程中对学生创造性的培养
3. 教师教学设计
(1)听课和记录
(2)整理听课记录
(3)课堂教学评价
(1)准备工作
(2)课堂纪实
(3)教师访谈过程
(4)录像分析
(1)问卷调查
(2)积分式评定量表
(3)学生抽样作业
(一)期限
(二)评价目的
(三)评价对象
1. 制定课堂教学质量评价标准的依据
2. 评价标准的背景描述
3. 指标体系、权重和评价基准
(五)组织实施
(六)评价方法
(七)评价报告称颂期限
(八)评价报告的接受者
(九)预算
(1)反思成功之处
(2)反思失误之处
(3)反思疑惑之处
(4)反思困难之处
2. 在他人评价中反思
(1)对学生学习过程的评价反思
(2)对学生学习结果的评价反思
1. 自我提问法
2. 行动研究法
3. 教学诊断法
4. 交流对话法
5. 案例研究法
6. 观摩分析法
7. 总结记录法
1. 班级教育目标
2. 管理计划的特色
3. 计划目标的到达度
1. 学生思想道德面貌
2. 学生各科学习成绩
3. 体育锻炼达标率
1. 学生习惯
2. 生活习惯
3. 卫生习惯
1. 学生之间的关系
2. 教师与学生之间的关系
3. 班级集体的风气
1. 班主任同科任教师的联系
2. 班主任同学生家长的联系
3. 班主任同社区有关方面的联系
1. 教育环境
2. 物理环境
3. 心理环境
1. 质量信息
2. 教育信息
3. 评价信息
(八)
(一)定量积分评价法
(二)定性讨论分析法
(三)综合法
1. 了解和研究学生
2. 组织和培养班集体
3. 班级日常管理及思想教育