大学英语考试的质量控制
2018-01-30 阅读 : 次
标准化考试
大学英语考试是一种标准化考试。标准化考试是指采用教育测量技术对学生的英语能力进行测量并符合严格规范要求的大规模考试。
标准化语言测试的目的是提供一种公认的客观标准,通过对学生语言运用的抽样检查来确定学生的实际语言能力。标准化考试通常指跨地区甚至跨国界的大规模考试,往往涉及数十万甚至上百万考生,因此对标准化考试有一系列规范要求,包括内容和形式的标准化、质量的标准化、以及过程的标准化。
1) 内容和形式的标准化
对于标准化考试来说,每次考试的试卷不同,但所考核的内容(语言知识和能力)总体保持不变,试卷形式相对稳定。不同的语言观和考试的不同用途决定考试的内容。
有些考试以考核语言水平(language proficiency)为理论基础,如美国的 TOEFL 考试;有些考试以语言交际需要为基础,如英国的 IELTS 考试;有些则以某一教学大纲为基础,如我国的“大学英语四六级考试”。不同的语言观又决定不同的考试形式。有的认为语言能力是可以分解的,大量采用孤立的离散题(discrete-point items),以便扩大对语言点的采样,增加覆盖面;有的认为语言是一种综合能力,应大量采用综合能力题(integrative skills items),以便测量学生运用语言进行交际的能力。标准化考试通常不以某一教材为依据。对于英语标准化考试来说应妥善处理知识与能力的关系、领会能力与表达能力的关系、流利与准确的关系、句子水平与语篇水平的关系等。
2) 质量的标准化
(1) 标准化考试的信度与效度:信度和效度是标准化考试最重要的质量指标。信度指的是测量的误差要小、可靠程度要高。大规模标准化考试在公开实施前其内部信度应经过检验,一般应大于 0.85。效度指某一项考试是否考了应该考核的内容。效度只能通过外部的、独立的标准进行评价,例如把学生成绩与教师的评价进行比较、把一项考试与某一公认的大规模标准化考试作相关分析、通过长期观察考生语言能力的变化来验证考试的效度等等。一项考试的效度愈高,对分数的解释愈准确。现代语言测试研究的重点是提高测试的效度;
(2) 评分的客观性和一致性:根据评分是否受阅卷员主观判断的影响试题可分为客观性试题和主观性试题。客观性试题的常见形式有多项选择题、简答题、MC-完型填空等。客观性试题的答案是唯一的,因此可用机器阅卷。大规模标准化考试通常采用较多的客观性试题,以保证评分的客观性。主观性试题的常见形式有命题作文、翻译、回答问题等。主观题的阅卷需要采用一系列质量控制措施,包括用计算机进行调整,保证阅卷员本人、阅卷员之间、以及阅卷点之间评分的一致性。也有一些题型如简答题、综合填空等,设计试题时事先规定一定数量的可接受答案,可以称为半客观题,目的是使其尽可能兼具客观题和主观题的优点;
(3) 试题设计的质量控制:为了保证质量,试题设计一般要经过“命题--初审--预测--试题项目分析--审题--构卷--施考--阅卷及统计分析--建立题库”等环节。其中命题应有命题要求,命题员要经过专门训练,考核内容要有一定的覆盖率;进行试题项目分析和建立题库要有一定的数学模型,如经典测试理论的真分数模型、试题响应理论模型等,使每道试题都有客观数据作为参数,保证每一试卷在使用前整卷的平均难易度、试题难易度及区分度的分布情况等都能满足预定的质量要求。对于标准化考试来说一切应经过检验,且有实验数据支持。为了保证质量,标准化考试的试题在考前和考后都是保密的。
3) 过程的标准化
(1) 标准化考试要公布考试大纲。标准化考试作为一种大规模考试,应当让广大考生和用户了解考试内容、试卷构成、试题形式、记分体制等。让考生在答题过程中能充分表现自己的实际能力,使考试能保持评份标准的稳定性,并且使用户能了解分数的含义,正确使用考试结果,为此必须事先公布考试大纲。考试大纲应相对稳定,如果要改变题型,同样应经过充分实验研究,经事先公布后才能实施,以保证考试的稳定性;
(2) 标准化考试的分数应具有可比性,因此通常要对不同考次的结果进行等值处理。等值处理可以采用线性等值法、等价百分位法或试题响应理论的分数等值处理方法等,把原始分转换成换算分。只有换算分才能对考生成绩以及教学过程提供大量反馈信息。根据参照系的不同,记分体制分为正态分制、等级分制、百分制等。正态分制要求建立考生成绩常模,用考生在考生总体中的位置来表示考生的成绩,通常用均值和标准差表示。以考生成绩的正态分布作为参照系的考试称为常模参照考试。采用正态分制的考生成绩可与考生总体比较、不同考次可以比较、学校与学校可以比较、不同科目也可以比较,因此考试结果能提供大量反馈信息,成为各级用户决策的依据。正态分是间接解释的分数,而等级分则是把语言能力划分为若干等级,每级所表示的语言能力从词汇、语法、读音、交际功能、流利程度、语言复杂程度等方面进行描述,根据考生的实际能力进行判定,等级分是可以直接解释的分数。这种以某种尺度作为参照系的考试称为尺度参照考试。也可以把两者结合起来,大学英语四六级考试以教学大纲为依据,又参照一定的常模建立记分体制,同时又考虑到我国采用百分制的习惯,以 72 分作为均值,12 分为一个标准差,60 分为及格,因此大学英语四六级考试是一种尺度相关常模参照考试
(3) 标准化考试还应当定期发布成绩公报,常模参照考试要公布建立常模的依据,提供使用手册等;
(4) 过程的标准化还包括施考条件的标准化,如考试时间、考场条件、考场指令等都要标准化,使不同的考生具有相同的考试条件。
命题过程的质量控制
考试过程是环绕试卷进行的,在考试过程的诸多环节中起关键作用的是试卷的质量。大规模标准化考试要保持评价标准的稳定性,必须从保证试卷质量着手。试卷的设计要解决考什么和怎么考的问题,同时要保持评分的一致性。前者涉及考试的效度,后者涉及考试的信度。
下面分别从命题过程、记分体制、作文分调整及考务管理等方面说明大学英语四六级考试的质量控制措施。
命题流程
大规模标准化考试由于规模大,不得不大量采用多项选择题,以便实现机器阅卷并保证评分的客观性和一致性。实验研究证明多项选择题不但可以考核记忆,也可考核判断、分析、推理,甚至可以考核应用。多项选择题虽然形式简单,阅卷方便,但是其命题却是一项专业性极强的工作。
为了保证多项选择题的质量,不但要有一支经过专业训练的命题员队伍,而且整个命题过程包括许多环节,一般来说,用于大规模标准化考试的多项选择题,其命题流程应包含如下环节:
大规模标准化考试中多项选择题的命题流程
(详见《大学英语四六级考试效度研究》)
命题要求
大学英语四六级考试委员会以三个考试中心为基础建立了相当稳定的命题员网络。命题员都经过专门训练,熟悉客观题和主观题的命题原则。命题员送交的客观题在题眼的确定、题干和选择项的设计等方面都要符合多项选择题的基本技术指标。此外,考试委员会还对各部分试题提出了具体的命题要求,从考核什么语言技能到怎么考核有关语言技能,都提出了明确的可以操作的要求,以保证考试的效度。
1) 听力理解部分命题要求
听力理解部分的目的是测试学生获取口头信息的能力,包括理解主旨大意、重要的事实细节、理解隐含的意义、言语的交际功能、理解谈话人的观点态度等。
听力理解部分主要考核语言能力,要避免测验智力、记忆力或背景知识等语言外的能力。
听力理解部分目前分为对话和短篇听力材料两部分,所选材料应当是题材熟悉的对话、讲话、叙述、解说等,语言要口语化,避免采用书面语体太强的材料。所用词语不超出教学大纲词汇表规定的范围。
命题时应考虑能够全面考核教学大纲所规定的各种听力微技能。在构成一张试卷时各种听力微技能都要占一定比例。
2) 阅读理解部分命题要求
阅读理解部分的目的是测试学生通过阅读获取信息的能力。包括掌握所读材料的主旨和大意;了解说明主旨和大意的事实和细节;既理解字面的意思,也能根据所读材料进行一定的判断和推论;既理解个别句子的意义,也理解上下文的逻辑关系,理解文章的深层含义。阅读理解不但要求准确,而且要有一定的速度。
阅读材料的选材原则是:
(1) 题材广泛,可以包括人物传记、社会、文化、日常知识、科普常识等,但是所涉及的背景知识应能为学生所理解;
(2) 体裁多样,可以包括叙述文、说明文、议论文等,应体现学术英语( English for Academic Purposes )的特点;
(3) 语言难度及词汇量符合教学大纲规定的范围。
阅读理解能力包括三个层次:句子层次、语篇层次、以及推理判断层次,命题时应考虑到各个层次的阅读能力要有一定的比例。
3) 词语用法和语法结构部分命题要求
词语用法部分主要测试学生对词和短语的意义、搭配和用法的掌握程度,语法结构部分则主要测试正确使用语法结构的能力。词语用法和语法结构题在四六级中各占一定比例,但都不应超出教学大纲规定的范围。
4) 完形填空部分命题要求
完形填空部分的目的是测试学生综合运用语言的能力。
完形填空部分的选材原则与阅读理解部分相同,要求学生在全面理解内容的基础上答题。命题时要考虑到要求填入的词项中虚词和实词各占一定比例,并且要包含若干必须在正确理解全文后才可能答对的题项。
5) 综合改错部分命题要求
综合改错部分的目的是测试学生综合运用语言的能力,不但要求学生能够识别错误而且能够写出正确的语言形式,因此是一种对语言表达能力的测试。
综合改错部分的选材要求是题材熟悉、没有背景知识方面的困难、文章难度略浅于阅读理解材料、文章内容要有一定的逻辑展开。命题时在短文中安排 10 个错误(不含拼写错误或标点错误)要求学生改正。错误分三种类型,一种是需要改正某个词,一种是需要增添某个词,一种是需要删除某个词。需要改正的错误有的是局部性的,有的是全局性的,涉及篇章结构;两者有一定比例,要求考生在全面理解内容的基础上改正错误,使短文的意思完整、语言正确。
6) 短文写作部分命题要求
短文写作部分的目的是考核学生运用英语书面表达思想的能力,要求学生在 30 分钟内写出一篇短文,四级不少于 100 词,六级为不少于 120 词。
题库建设
题库建设是一个考试机构的基本建设,为了建设题库,大学英语四六级考试的试卷在考前考后都严格保密。题库要有一定的数学模型,没有数学模型的试题的集合称为题堆(Item Pool),目前大学英语四六级考试的题库建设采用经典测验理论(CTT)数学模型,今后拟逐步过渡到采用试题响应理论(IRT)数学模型,并在此基础上逐步开发大学英语四六级考试自适应计算机考试系统。
大学英语考试是一种标准化考试。标准化考试是指采用教育测量技术对学生的英语能力进行测量并符合严格规范要求的大规模考试。
标准化语言测试的目的是提供一种公认的客观标准,通过对学生语言运用的抽样检查来确定学生的实际语言能力。标准化考试通常指跨地区甚至跨国界的大规模考试,往往涉及数十万甚至上百万考生,因此对标准化考试有一系列规范要求,包括内容和形式的标准化、质量的标准化、以及过程的标准化。
1) 内容和形式的标准化
对于标准化考试来说,每次考试的试卷不同,但所考核的内容(语言知识和能力)总体保持不变,试卷形式相对稳定。不同的语言观和考试的不同用途决定考试的内容。
有些考试以考核语言水平(language proficiency)为理论基础,如美国的 TOEFL 考试;有些考试以语言交际需要为基础,如英国的 IELTS 考试;有些则以某一教学大纲为基础,如我国的“大学英语四六级考试”。不同的语言观又决定不同的考试形式。有的认为语言能力是可以分解的,大量采用孤立的离散题(discrete-point items),以便扩大对语言点的采样,增加覆盖面;有的认为语言是一种综合能力,应大量采用综合能力题(integrative skills items),以便测量学生运用语言进行交际的能力。标准化考试通常不以某一教材为依据。对于英语标准化考试来说应妥善处理知识与能力的关系、领会能力与表达能力的关系、流利与准确的关系、句子水平与语篇水平的关系等。
2) 质量的标准化
(1) 标准化考试的信度与效度:信度和效度是标准化考试最重要的质量指标。信度指的是测量的误差要小、可靠程度要高。大规模标准化考试在公开实施前其内部信度应经过检验,一般应大于 0.85。效度指某一项考试是否考了应该考核的内容。效度只能通过外部的、独立的标准进行评价,例如把学生成绩与教师的评价进行比较、把一项考试与某一公认的大规模标准化考试作相关分析、通过长期观察考生语言能力的变化来验证考试的效度等等。一项考试的效度愈高,对分数的解释愈准确。现代语言测试研究的重点是提高测试的效度;
(2) 评分的客观性和一致性:根据评分是否受阅卷员主观判断的影响试题可分为客观性试题和主观性试题。客观性试题的常见形式有多项选择题、简答题、MC-完型填空等。客观性试题的答案是唯一的,因此可用机器阅卷。大规模标准化考试通常采用较多的客观性试题,以保证评分的客观性。主观性试题的常见形式有命题作文、翻译、回答问题等。主观题的阅卷需要采用一系列质量控制措施,包括用计算机进行调整,保证阅卷员本人、阅卷员之间、以及阅卷点之间评分的一致性。也有一些题型如简答题、综合填空等,设计试题时事先规定一定数量的可接受答案,可以称为半客观题,目的是使其尽可能兼具客观题和主观题的优点;
(3) 试题设计的质量控制:为了保证质量,试题设计一般要经过“命题--初审--预测--试题项目分析--审题--构卷--施考--阅卷及统计分析--建立题库”等环节。其中命题应有命题要求,命题员要经过专门训练,考核内容要有一定的覆盖率;进行试题项目分析和建立题库要有一定的数学模型,如经典测试理论的真分数模型、试题响应理论模型等,使每道试题都有客观数据作为参数,保证每一试卷在使用前整卷的平均难易度、试题难易度及区分度的分布情况等都能满足预定的质量要求。对于标准化考试来说一切应经过检验,且有实验数据支持。为了保证质量,标准化考试的试题在考前和考后都是保密的。
3) 过程的标准化
(1) 标准化考试要公布考试大纲。标准化考试作为一种大规模考试,应当让广大考生和用户了解考试内容、试卷构成、试题形式、记分体制等。让考生在答题过程中能充分表现自己的实际能力,使考试能保持评份标准的稳定性,并且使用户能了解分数的含义,正确使用考试结果,为此必须事先公布考试大纲。考试大纲应相对稳定,如果要改变题型,同样应经过充分实验研究,经事先公布后才能实施,以保证考试的稳定性;
(2) 标准化考试的分数应具有可比性,因此通常要对不同考次的结果进行等值处理。等值处理可以采用线性等值法、等价百分位法或试题响应理论的分数等值处理方法等,把原始分转换成换算分。只有换算分才能对考生成绩以及教学过程提供大量反馈信息。根据参照系的不同,记分体制分为正态分制、等级分制、百分制等。正态分制要求建立考生成绩常模,用考生在考生总体中的位置来表示考生的成绩,通常用均值和标准差表示。以考生成绩的正态分布作为参照系的考试称为常模参照考试。采用正态分制的考生成绩可与考生总体比较、不同考次可以比较、学校与学校可以比较、不同科目也可以比较,因此考试结果能提供大量反馈信息,成为各级用户决策的依据。正态分是间接解释的分数,而等级分则是把语言能力划分为若干等级,每级所表示的语言能力从词汇、语法、读音、交际功能、流利程度、语言复杂程度等方面进行描述,根据考生的实际能力进行判定,等级分是可以直接解释的分数。这种以某种尺度作为参照系的考试称为尺度参照考试。也可以把两者结合起来,大学英语四六级考试以教学大纲为依据,又参照一定的常模建立记分体制,同时又考虑到我国采用百分制的习惯,以 72 分作为均值,12 分为一个标准差,60 分为及格,因此大学英语四六级考试是一种尺度相关常模参照考试
(3) 标准化考试还应当定期发布成绩公报,常模参照考试要公布建立常模的依据,提供使用手册等;
(4) 过程的标准化还包括施考条件的标准化,如考试时间、考场条件、考场指令等都要标准化,使不同的考生具有相同的考试条件。
命题过程的质量控制
考试过程是环绕试卷进行的,在考试过程的诸多环节中起关键作用的是试卷的质量。大规模标准化考试要保持评价标准的稳定性,必须从保证试卷质量着手。试卷的设计要解决考什么和怎么考的问题,同时要保持评分的一致性。前者涉及考试的效度,后者涉及考试的信度。
下面分别从命题过程、记分体制、作文分调整及考务管理等方面说明大学英语四六级考试的质量控制措施。
命题流程
大规模标准化考试由于规模大,不得不大量采用多项选择题,以便实现机器阅卷并保证评分的客观性和一致性。实验研究证明多项选择题不但可以考核记忆,也可考核判断、分析、推理,甚至可以考核应用。多项选择题虽然形式简单,阅卷方便,但是其命题却是一项专业性极强的工作。
为了保证多项选择题的质量,不但要有一支经过专业训练的命题员队伍,而且整个命题过程包括许多环节,一般来说,用于大规模标准化考试的多项选择题,其命题流程应包含如下环节:
大规模标准化考试中多项选择题的命题流程
(详见《大学英语四六级考试效度研究》)
命题要求
大学英语四六级考试委员会以三个考试中心为基础建立了相当稳定的命题员网络。命题员都经过专门训练,熟悉客观题和主观题的命题原则。命题员送交的客观题在题眼的确定、题干和选择项的设计等方面都要符合多项选择题的基本技术指标。此外,考试委员会还对各部分试题提出了具体的命题要求,从考核什么语言技能到怎么考核有关语言技能,都提出了明确的可以操作的要求,以保证考试的效度。
1) 听力理解部分命题要求
听力理解部分的目的是测试学生获取口头信息的能力,包括理解主旨大意、重要的事实细节、理解隐含的意义、言语的交际功能、理解谈话人的观点态度等。
听力理解部分主要考核语言能力,要避免测验智力、记忆力或背景知识等语言外的能力。
听力理解部分目前分为对话和短篇听力材料两部分,所选材料应当是题材熟悉的对话、讲话、叙述、解说等,语言要口语化,避免采用书面语体太强的材料。所用词语不超出教学大纲词汇表规定的范围。
命题时应考虑能够全面考核教学大纲所规定的各种听力微技能。在构成一张试卷时各种听力微技能都要占一定比例。
2) 阅读理解部分命题要求
阅读理解部分的目的是测试学生通过阅读获取信息的能力。包括掌握所读材料的主旨和大意;了解说明主旨和大意的事实和细节;既理解字面的意思,也能根据所读材料进行一定的判断和推论;既理解个别句子的意义,也理解上下文的逻辑关系,理解文章的深层含义。阅读理解不但要求准确,而且要有一定的速度。
阅读材料的选材原则是:
(1) 题材广泛,可以包括人物传记、社会、文化、日常知识、科普常识等,但是所涉及的背景知识应能为学生所理解;
(2) 体裁多样,可以包括叙述文、说明文、议论文等,应体现学术英语( English for Academic Purposes )的特点;
(3) 语言难度及词汇量符合教学大纲规定的范围。
阅读理解能力包括三个层次:句子层次、语篇层次、以及推理判断层次,命题时应考虑到各个层次的阅读能力要有一定的比例。
3) 词语用法和语法结构部分命题要求
词语用法部分主要测试学生对词和短语的意义、搭配和用法的掌握程度,语法结构部分则主要测试正确使用语法结构的能力。词语用法和语法结构题在四六级中各占一定比例,但都不应超出教学大纲规定的范围。
4) 完形填空部分命题要求
完形填空部分的目的是测试学生综合运用语言的能力。
完形填空部分的选材原则与阅读理解部分相同,要求学生在全面理解内容的基础上答题。命题时要考虑到要求填入的词项中虚词和实词各占一定比例,并且要包含若干必须在正确理解全文后才可能答对的题项。
5) 综合改错部分命题要求
综合改错部分的目的是测试学生综合运用语言的能力,不但要求学生能够识别错误而且能够写出正确的语言形式,因此是一种对语言表达能力的测试。
综合改错部分的选材要求是题材熟悉、没有背景知识方面的困难、文章难度略浅于阅读理解材料、文章内容要有一定的逻辑展开。命题时在短文中安排 10 个错误(不含拼写错误或标点错误)要求学生改正。错误分三种类型,一种是需要改正某个词,一种是需要增添某个词,一种是需要删除某个词。需要改正的错误有的是局部性的,有的是全局性的,涉及篇章结构;两者有一定比例,要求考生在全面理解内容的基础上改正错误,使短文的意思完整、语言正确。
6) 短文写作部分命题要求
短文写作部分的目的是考核学生运用英语书面表达思想的能力,要求学生在 30 分钟内写出一篇短文,四级不少于 100 词,六级为不少于 120 词。
题库建设
题库建设是一个考试机构的基本建设,为了建设题库,大学英语四六级考试的试卷在考前考后都严格保密。题库要有一定的数学模型,没有数学模型的试题的集合称为题堆(Item Pool),目前大学英语四六级考试的题库建设采用经典测验理论(CTT)数学模型,今后拟逐步过渡到采用试题响应理论(IRT)数学模型,并在此基础上逐步开发大学英语四六级考试自适应计算机考试系统。
本文地址:http://www.cetclub.com/kaoshizixun/kaoshidongtai/2018-06-28/8450.html