PC版
搜索导航
论文网 > 教育论文 > 学科教育论文

谈历史学科的考试评价标准

考试的评价就是对考试的质量进行检测。通常,人们是以对试卷、试题的定性分析和定量分析的方法进行 检测。定性分析主要是以定量分析的数据为依据,对试卷、试题的整体面貌进行描述,它最终应回答:“考试 结果反映命题意图实现的程度”、“命题意图反映高考功能实现的程度”这两个问题。定量分析主要是在对试 卷进行抽样统计的基础上,通过信度、效度、区分度、难度等指标对试卷、试题进行多角度的量化描述。
    为了便于说明问题,在这里我们把定性和定量分析的内容改编为一种评价标准,并按当前历史科考试的构 成分为试卷、试题、评分三个部分。
    一、试卷
    一、试卷设计体现《历史科考试说明》的各项要求。
    《考试说明》是依据《教学大纲》制定的,它和大纲不同的地方是对考试的一些技术性问题和实施问题做 了规定。这主要是:考试的能力要求;考试形式及试卷结构,其中包括考试的方式和时间、试卷的分类、考试 内容的比例和题型的比例;考试的知识范围。
    《考试说明》是联系《教学大纲》和考试的纽带,在标准化考试的各个环节中,《考试说明》集中体现了 标准化考试的透明度要求,也是用以评价试卷、试题的主要标准之一。
    二、考查历史学科的主体内容
    所谓主体内容一是指中学教学的重点内容。考试的内容要和教学的内容一致,更要和教学的主体内容一致 ,不然,考试就失去了它的有效性。其实,所谓主体内容,在《教学大纲》中有透彻的解释,归纳起来就是: 反映历史整体面貌和发展线索的内容;反映历史演变规律的内容;反映辩证唯物主义和历史唯物主义的基本理 论和方法的内容;反映国情的内容。
    另外,主体内容亦指与大学学习相关密切的内容。这部分内容是指建立在主体知识之上的与大学学习相关 密切的学科理论和能力方面的内容,即指对历史事物和历史现象的综合、分析、评价的能力。
    三、反映学科的内部联系和基本规律
    这实际上是对试题科学性的总要求。所谓学科的内部联系有两层含义,一是体现历史事物、历史现象之间 的本质关系,不能孤立地考查知识点,不能片面地、错误地解释历史事实。二是试卷内容对学科各部分内容的 考查要有整体性,也就是说坚持合理的内容比例,这个比例一旦失调,内部联系也就难以全面地反映出来。所 谓基本规律,是指试题的设计要以辩证唯物主义和历史唯物主义为指导,引导考生通过历史现象认识人类社会 发展的客观规律。
    四、全面考查学科的各种能力要求
    现在公布的历史学科能力共有十项要求,其中第一、二项是识记、理解的要求,做为最基础的能力要求是 肯定要考到的。三、四、五项是对历史材料和历史信息的处理能力,由于材料题的数量有限,不可能针对每一 项能力要求出一道题,只能是综合性地设计题目内容,把能力要求包含进去。六、七、八、九项是叙述、分析 、综合、评价能力的要求,也做综合性处理。
    五、题目难、中、易比例合适,总体难度得到有效控制。
    题目难度的控制有这样几层含义:其一,大部分的题目难易程度应该在0.3-0.7之间,这个幅度里 的题目,其难易程度又应相对集中在0.5这个区域里。其二,全卷题目难度应该难、中、易交替出现,逐级 由易到难。从我们的试题安排上可以看出,先是选择题,中间是材料题,最后才是问答题。在每一部分中,难 、中、易不是呈扎堆状态,而是交替分布。这样,全卷的总体难度才能得到有效控制。
    难度是一个相对的概念,通常人们认为0.5-06之间是合适的区域。当然,如果需要,也可上下调整 到其它区域。
    六、试卷长度合适
    试卷长度是指试题的数量和参考答案的文字总量之合,试卷过长或过短都会影响考试的信度。在目前的高 考中,在规定的时间内在50%以上的考生完成全卷内容,这个长度就是合适的。从现在的情况看,试卷长度 是比较合适的,有的考生做完全卷后尚有时间检查。
    二、试题
    一、测试目标明确
    任何题目的设计都要体现具体测试目标,这样才能够有效地限制题目的随意性,达到规范化和标准化。历 史学科的测试目标大致可分为几类,一是对知识内容掌握的准确程度;二是对知识内容掌握的深入程度;三是 对历史事物内部联系的认识程度;四是理论与史实相结合的水准,五是历史意识。在这五类目标范围内又可以 分为许多小的类目。在实际操作中,一道题目往往含有一个以上的测试目标,但几个测试目标在题目中不能平 分秋色,要有主次之分。
    二、试题科学、规范
    试题不能出现科学性的错误。有些问题虽然不能算作错误,但它存在争议,遇上这类问题应相当慎重。另 外,试题的科学也表现在题干和参考答案的对应,题目的测试目的,它所涉及的知识范围等等,都必须在参考 答案中有相应的表述,其层次、范围、幅度就都是一致的。不能题干庞大,而答案很窄,也不能题干要求很少 但答案要求很多。
    规范的含义是题目的设计要符合历史学科的特点;在表述上有相对固定的形式;在格式和语言的运用上符 合国家规定的标准。
    三、题目角度新颖,立意深刻
    在就要求题目的创设应不句泥于教材的表述,设置新的情境,从新的角度提出问题,这样的题目往往都含 有较深的立意。如把焚书坑儒和八股取士相联系论述问题,这自然就要求从这两个历史现象之间的内在联系上 寻找一个共同角度去展开。把榷场和民族关系相结合也反映了这样的问题创设新的情境,是测量对已有知识掌 握程序的最有效的办法。
    四、题意明确,表述方式合理
    考试当中有时会出现因题意不明或由于考生对题目的表述不理解而出现了审题错误,这是造成误差的一个 原因。
    题意明确首先是命题者对题目所涉及的知识内容准确掌握,其次是对测试目标有准确理解,再是对知识内 容和测试目标之间的关系准确把握。题目的表述方式应该选择最简洁、有效的书面语言。
    五、题目类型和题型比例合理。
    题目类型比例是指主观题和客观题的比例。目前历史科高考试卷主、客观题的比例是各占50%。在客观 题尚未发掘出更好的测量办法的情况下,这个比例是合适的。大多数的考生往往是在主观题这一部分拉开档次 。题型比例是指各类题型所占的比重。前边我们已经提到选择题、填空题、材料题、问答题的比例,它们基本 上呈金字塔形状,这种形状是为了有效地实现考试目的。它一方面反映了对基础知识的重视,另一方面反映了 对学科能力的要求。这种状况在目前情况下能够较好地区分考生。
    六、有较好的区分度
    区分度指试题对不同水平考生的鉴别能力,对于区分度的掌握,有从整体上看的,也有从局部上看的,亦 有从一道试题上看的。从整体上看,全卷的区分度应该在0.3以上,说明试卷整体的鉴别能力较好。全卷区 分度好不等于要求每道题都在0.3上,但在考查主要学科能力的试题上或综合性较强的试题上要求有较高的 区分度,这类试题往往是材料解析题、问答题和部分选择题。在这些题目中,区分度的要求也是不同的,它们 之中亦有很高、较高之分。总之,区分度也有一个根据命题意图合理布局的问题。
    区分度和难度有着密切的关系,太难、太易的题目都不会有好的区分度,只有中等难度的题目才会产生好 的区分度。根据这一原理,目前历史科考试中的问答题里出现了考查再认、再现能力和分析、综合、评价能力 相结合的形式,使题目达到一种不难不易的状况,以求达到好的区分度。当然,问答题最理想的设计还是从思 维的角度划分层次,这样能充分利用题型的功能。
    以上是对于各种试题总的评价目标,但具体到不同类型的试题,也有不同的要求:
    [客观题]
    一、试题内容适合使用选择题
    从理论上说,选择题应该可以考查各种内容和能力要求,但目前对于选择题的功能尚未完全发掘出来,也 由于受到试卷长度的限制,所以有的内容不适于选择题使用。比如考查叙述、论证、对历史材料中所含有效信 息的筛选等,在选择题中难以实施,尤其是涉及理论的内容,弄不好就会形成模式化、概念化的东西。这几年 ,实际上用于选择题方面的内容在不断扩大,由最初的考查再认、再现能力的内容,扩大到理解、分析、综合 甚至评价的内容。选择题的发展方向是在发掘题目多样化的同时注重考查历史思维水平。
    二、题干围绕一个中心,选项和题干的关系一致
    题干围绕一个中心,首先,题干必须有一个相对完整的中心问题,不能将题干要表达的意思放到选项中去 。其次,题干不能产生歧意。选项和题干的关系一致是指选项和题干围绕一个共同的问题,不能出现与题干所 问无关的选项。
    三、干扰项有效
    干扰项有效是指对正确项的干扰有效。一道选择题出的是否成功,除了正确项无误外,干扰项也相当重要 ,因为它起到了调节试题难度的作用。如果干扰项不起干扰作用,易被学生排除,试题难度就会下降,因为学 生不用对正确项进行分析,只凭排除错误项即可做答,这样,不仅难度下降,区分度也会随之下降。所以,干 扰有效也存在一个程度问题。这个程度的控制标准就是使试题达到中等难度为最合适。如何使干扰项有效呢? 一是干扰项和正确项对试题题干的关系应该一致,这个在前边也讲过;二是干扰项应该代表考生的典型错误, 否则,就会出现干扰项太易或大部分考生把某一干扰项做为正确项的情况。这样,考试的有效程度就会降低, 在选拔性考试中,这一点显得尤为重要。
    四、各选项的结构、长度大体一致
    这实际上是要求各选项要整齐。结构是说句式、用词、语气要大体一致,不能出现迥然不同的表述,这样 容易带来某种暗示,或者引起评分上的分歧。长度是说文字长度要大体一致,一般来说,选项的文字不宜过长 。如果文字不长不足以表述一个相对完整的意思,那么就要考虑重新设计题目内容。
    五、正确选项比例分布合理
    从总题量的角度说,正确项应该大致均匀地分布在四个选项中,这会降低猜题、蒙题的可能,提高考试效 果。在多选题当中,正确项存在一个比例问题,原则上正确项不能集中在某一数量上,也要有所分布,同时分 布要均匀。

[主观题]
    一、题目设计体现运用已有知识解决新问题的能力考查要求
    运用已有知识解决新问题的能力是对学科能力要求的一个概括性表述。它体现在试题设计上应该包含这样 几层意思:其一,题目涉及的内容在教材中有依托。其二,题目要设计成不同于教材表述的新情境。其三,题 目要引导考生对历史现象进行新的认识。
    这里边第二条最不容易做得好。因为新情境的设计首先受到教材的制约,往往是新情境同时也会带来许多 的新的内容,如果这些内容在教材中没有涉及到,就要进行修改、剪裁,弄不好会给人以削足适履之感,有时 甚至会失去新情境的意义。在历史学科中,所谓新情境实际上就是人们认识历史现象的新角度或展示的新材料 。这些东西不是文学创作,可以由命题者去编制,它必须来源于既有的材料和现实中人们在研究历史现象时所 认识到的那些问题以及认识角度,它的规定性很强,要恰当地把它们改造成一种新情境并与考生已有知识对接 ,这实际上是一种特殊的创造性劳动,做到天衣无缝相当不容易。当然,这并不意味着新情境都会带来新角度 ,命题者不能一味单纯求新,关键还是要看新情境有没有一定的深度,它自身的认识价值如何。这也是我们评 价问答题时应注意的一个问题。
    二、考查较高层次的学科能力
    历史学科十项能力要求中,涉及对历史材料的分析运用能力、论证能力、评价历史事件、历史人物的能力 应该是较高层次的学科能力。这几方面的能力有些共同特点,一是理论水平要求高,二是对历史材料和信息的 处理水平要求高,三是对文字表述水平要求高,总的来说,较高层次的能力要求综合性强。
    较高层次的学科能力是以较低层次的学科能力为其基础的。在主观题的设计中,命题者很注意由较低层次 向较高层次的深入梯度,也就是说,涉及再认、再现历史事实、叙述、理解的能力要求在主观题中仍占有一定 的份量,所以,确切地说应该是重点考查较高层次的学科能力。
    三、难度和答题量与赋分值合理
    赋分值是指题目在全卷总分当中的比值。历史学科四种题型的赋分值不同,从每道题来说,填空题0.5 分;选择题1分、2分;材料解析题9分左右;问答题12分左右,由此可以看出,赋分值是随着试题的难度 和答题量的增长而增长的。那么,对于赋分值与难度、答题量的关系的含义就应该这样认识:赋分值是考试内 容含量的显示,它反映支付思维活动和文字表述活动的程度。难度和答题量的控制依据是赋分的比值。
    但是这里边有两个问题需要注意,一是赋分值和难度、答题量的关系在同一题型内是相对整齐的,但不同 题型相比较就复杂一些,比如十个1分的选择题和一个10分的问答题的比较只能是大致整齐。在主观题中, 应特别注意分数的分布和难度、答题量的比重。比重应体现能力考查的要求,应体现对学科深层含义的理解。 二是主观题的难度相对地比客观题的难度要高一些,不能用整卷的平均难度值去衡量主观题的难度。另外,主 观题的难度和答题量关系要具体而论,通常,涉及再认、再现历史事实的内容,即使文字量多,但难度不高, 赋分也较少;涉及综合、分析、评价的内容,即使文字量不多,但难度较高,赋分也多一些。
    三、评分
    一、参考答案及评分标准具有科学性和可操作性
    科学性是指参考答案和评分标准无科学性错误,另外,亦指程度合适。对于选择题来说,答案就是正确选 项,在设计正确选项时就要考虑到它的科学性和程度问题。程度包含难度,也包含其它的因素,如应排除正确 选项的偏、怪现象以及它和干扰项的内容是否平衡等等。
    对于主观题来说,科学性首先是指参考答案和评分标准科学合理。另外,重要的是要看参考答案是否体现 了一个相对完整的科学含义,是否揭示了题目各个因素之间的内部联系。可操作性是指评分标准应与参考答案 相呼应,相一致,同时又有一定程度的变通性,也就是说,评分标准对答案来说既是给分的依据又是变通的依 据。这要求评分标准的含量要大于具体的答案,要能放得开又能锁得住。总之,评分标准应能够应付对同一问 题的各种理解的表述。
    二、主观题评分既能有效地控制评分误差,又能鼓励考生有创见地答题
    控制评分误差和鼓励有创见地答题是一对矛盾。控制评分误差是要求在评分中尽可能具体地设想考生的各 种思路,并在评分中予以规定;鼓励有创见地答题则要求题目是开放性的,但题目的开放会给评分的实施中自 然显得不好操作,变通无依据。题目越开放,评分误差就越难以控制,这是各科考试中遇到的普遍问题。因此 ,这条评价标准只能是相对而言,我们只能从题目在多大程度上鼓励了考生有创见地答案,在评分中是否相应 地采取了控制误差的方法,这就是说,题目向前发展了一步,评分也要向前发展一步,二者应该是相辅相成的 。
    就历史学科来说,控制评分误差有几个环节应该抓住;其一,题目的考查目标要在评分中体现出来;其二 ,考查目标应被分解成得分等级,每一等级应概括考生中的几种答题情况;考查目标的主体内容应分布各得分 等级中,主体内容是决定基本分的主要依据。其三,构成答题的其它因素如文字表述的逻辑联系,对问题的展 开程度、历史材料的运用等等也应制定量表予以等级化。
    鼓励考生有创见地答题对题目的要求大致是这样的,它应该摆脱生硬的一问一答的模式,题目的面貌基本 上不是在提出什么需要回答的问题,而是提出一个共同讨论的问题,这样才谈得上“鼓励”。“有创见”对于 题目来说,就是材料的组织更巧、问题的切入更新,使考生对已有知识能有新的组合发挥才可能“有创见”, 也就是说,要把教材套在题目上是无路可走的,非得“创见”一点不可。当然,对于各种“创见”的可能性, 要给以充分估计,并体现在评分标准上,以免评分失去依据。

相关论文

历史学科
初中物理学科核心素养的内涵与培养策
信息化教学在高校会计学科的应用研究
基础和应用学科融合的旅游管理专业教
浅谈历史学角度下我国茶的发展历程
探析高校历史学专业融入课程思政的路
试论应用于历史学研究的社会学方法
浅谈中国古代人口思想与西方历史上人
试论中国共产党百年维护农民经济利益
中国古代不同历史时期儒家体育思想特
信息化教学在初中历史课堂中的有效应