共查询到15条相似文献,搜索用时 203 毫秒
1.
将计算机应用到考试评分中,以计算机评分代替人工评分,是一种提高评分效率、降低评分成本的有效方法。MHK(三级)口语考试的计算机评分开创了汉语口语考试计算机评分研究的先河。本研究将人工评分与计算机评分进行了比较分析,探讨了MHK(三级)口语考试计算机评分的效度。 相似文献
2.
口试评分规范化与信度研究 总被引:2,自引:0,他引:2
口语考试的效度较高,信度却比较低。但没有信度,效度也不可能真正得到保证。因此,如何提高口试的信度,是很多测试研究者普遍关注的问题。本文通过描述清华大学英语水平考试中口试部分的评分规范化与评分员培训,对如何规范评分以提高口试信度这一问题进行讨论。 相似文献
3.
4.
5.
英语口试中综合式与分析式评分的异同——基于考生话语的分析 总被引:2,自引:0,他引:2
兰春寿 《福建师范大学学报(哲学社会科学版)》2008,(5)
本文依据Upshur and Turner(1999)考试与评分的理论模型,将考生口语产出的话语语言特征作为参照,研究口语考试中综合式与分析式评分的异同。实验结果表明考生口语产出的话语特征中流利度衡量指标之每分钟有意义音节数对两种不同评分模式都产生显著影响;评分员在两种评分过程中都注重考生话语的流利性,忽视语言准确性和复杂性。文章进一步对此进行了分析并从考生话语角度揭示口试评分中误差控制的问题。 相似文献
6.
论英语口语考试的评分误差 总被引:1,自引:0,他引:1
口语考试的评分是评分员基于评分标准对语言产出的认知处理过程,处理的目的就是解释考生之间的分数差异(score vari-ance)。用于解释分数差异的变量包括构念相关变量(construct-rele-vant variables)和构念不相关变量(construct-irrelevant variables)。如果构念不相关变量发生作用,那么评分就产生误差。考试误差可区分为系统性误差(systematic error)和随机性误差(randomerror)。随机性误差是评分误差控制的重点内容。口语考试评分误差的主要表现形式包括评分员的个性差异、回归均值趋势和假正态分布。我们可以通过分数差异分布和回归系数等统计手段验证口语考试评分误差的大小程度。本文还讨论了口语考试评分误差控制的目标、原则和方法。评估误差控制的目的就是最大化构念相关变量的作用,最小化构念不相关变量的影响作用;这就要求评分员在评分过程中坚持一致性、完整性和独立性三条基本原则;在手段的使用方面,口语考试的评分误差控制主要包括管理手段、技术手段和统计手段等。 相似文献
7.
全国公共英语等级考试体系(PublicEnglishTestSys-tem,简称PETS)是一种面向全社会、以全体公民为对象的非学历性英语证书考试,由笔、口试两部分组成。口试的目的是测试考生口头语言表达能力,属主观性考试。口试因其主观性,评分的最大难度在其公正性和一致性。因此,对PETS口试考官因素及其量分情况进行研究很有必要。本文拟在对一次PETS口试量分统计结果分析的基础上,研究影响考官评分的因素,并对考官素质和培训提出一些看法,目的是进一步提高PETS口试的信度、效度及其权威性。一、研究方法与统计结果研究对象为某考点2003年3月参加… 相似文献
8.
陈艳君 《教育测量与评价(理论版)》2014,(6):9-12
本文对过去十年(2003~2013)国内语言评估领域中运用多层面Rasch模型进行评估所产生的研究成果进行了分析,发现类似研究类型主要集中在试题信效度验证、评分员效应研究和评分方法研究三个方面,这三个方面相互交叉,又各有侧重。基于前人的研究成果,本文认为,多层面Rasch模型在对现有考试题型的信效度验证、新试题开发、评分方法的对比以及考试公平性方面均有着广阔的发展空间和巨大的应用价值。 相似文献
9.
全国公共英语等级考试包括笔试和口试两大部分,分为五级。PETS-3口语测试评分方法既有优点,也存在不足之处。该口试评分方法对测试的信度产生了一定影响。评分的信度取决于评分标准、评分依据以及评分人三方面的共同作用.最终确保评分信度的真实、可靠。 相似文献
10.
温志 《四川教育学院学报》2012,28(4):82-85
以Cyril J.Weir的效度整体观为基础,以全国英语应用能力A级考试为研究对象,对基于理论的效度、环境效度、评分效度、效标关联效度和后果效度等五个方面的效度证据进行了分析。研究表明,A级考试整体而言有较高效度,但也存在较大的改进空间。 相似文献
11.
12.
从PETS看我国高职院校的英语口语测试 总被引:1,自引:0,他引:1
刘伽 《邵阳学院学报(社会科学版)》2005,4(6):153-154
文章通过分析PETS口试形式、评分方法以及当前我国高职院校口语测试的基本情况,从设计有效的口试题型、制定科学的评分方法、建立口语试题库、培养高素质的考官和评分员队伍以及开发和利用多媒体技术几方面对高职院校的口试测试体系进行思考. 相似文献
13.
大学英语写作评分方法对评分者严厉程度的影响——整体评分法和分析评分法的对比分析 总被引:1,自引:0,他引:1
贺满足 《湖南第一师范学报》2006,6(4):59-61,66
评分标准在写作测试中非常重要,使用不同的评分方法会影响评卷者的评分行为。研究显示,虽然整体法和分析法两种英语写作评分方法都可靠,但是在两种评分中,评卷者的严厉程度以及考生的写作成绩发生很大变化。总体上,整体法评分中,评卷者的严厉程度趋于一致,接近理想值;分析法评分中,考生的写作成绩更高,同时评卷者的严厉程度也存在显著差异。因而,在决定考生前途命运的重大考试中,整体评分法更受推崇。 相似文献
14.
马小侠 《渭南师范学院学报》2014,(8):55-60
客观性试题具有命题灵活性大、知识覆盖面广、考查内容偶然性小,评分标准统一、客观、准确,阅卷评分不受评卷人主观因素影响,易于采用计算机阅卷,提高评卷速度,降低考试成本等优点.然而,就其考核效果看,客观性试题除自身无法展示考生的语言组织能力、表达能力、思维过程及写作能力外,还存在一个较大的缺陷,就是无法规避考生猜测答案获取分数的投机行为.这种机会看似对于每一个考生均等公平,但其实不然.对客观性试题评分方法的缺陷作以分析,推算出求相应真实成绩的换算公式,以期得到命题形式的改进. 相似文献
15.
A framework for evaluation and use of automated scoring of constructed‐response tasks is provided that entails both evaluation of automated scoring as well as guidelines for implementation and maintenance in the context of constantly evolving technologies. Consideration of validity issues and challenges associated with automated scoring are discussed within the framework. The fit between the scoring capability and the assessment purpose, the agreement between human and automated scores, the consideration of associations with independent measures, the generalizability of automated scores as implemented in operational practice across different tasks and test forms, and the impact and consequences for the population and subgroups are proffered as integral evidence supporting use of automated scoring. Specific evaluation guidelines are provided for using automated scoring to complement human scoring for tests used for high‐stakes purposes. These guidelines are intended to be generalizable to new automated scoring systems and as existing systems change over time. 相似文献