期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张洁《考试研究》2011,(5)

将计算机应用到考试评分中,以计算机评分代替人工评分,是一种提高评分效率、降低评分成本的有效方法。MHK(三级)口语考试的计算机评分开创了汉语口语考试计算机评分研究的先河。本研究将人工评分与计算机评分进行了比较分析,探讨了MHK(三级)口语考试计算机评分的效度。相似文献

2.

口试评分规范化与信度研究 总被引：2，自引：0，他引：2

郭茜邢如沈明波《清华大学教育研究》2003,(Z1)

口语考试的效度较高,信度却比较低。但没有信度,效度也不可能真正得到保证。因此,如何提高口试的信度,是很多测试研究者普遍关注的问题。本文通过描述清华大学英语水平考试中口试部分的评分规范化与评分员培训,对如何规范评分以提高口试信度这一问题进行讨论。相似文献

3.

机器自动口语测试的信度和效度研究——以MyET口语测试系统为例

《现代教育技术》2019,(9):59-65

文章首先从人工评分和机器评分两个方面,介绍了口语测试的发展情况。随后,文章采用MyET口语测试系统,以100名本科生为研究对象,基于对MyET口语测试系统中口语测试题题型、分数段、相关性的分析结果和问卷调查结果,研究了机器评分的信度和效度,结果表明:人分散度方面,机器评分在难度上与人工评分相差不大,但在区分度上不太理想;评分员信度方面,除部分题型之外,机器评分与人工评分有很高的相关性;表面效度方面,被试对My ET口语测试系统的接受度较高。文章从测试学角度探讨了机器自动口语测试的可行性,可为高校口语教学改革提供参考。相似文献

4.

新课程标准下的高中化学实验操作考试实践研究

《考试周刊》2020,(8):139-140

实验操作考试不仅是评价学生实验能力的一种手段,更是促进实验教学、检查实验教学效果的重要手段。本文主要依据《普通高中化学课程标准》(2017年版),并结合本校实际情况,对实验操作考试的具体实施与评价方法进行了初步研究。根据课程标准对必做实验的要求从中选取适合高一和高二学生的实验作为考查的内容,并对考试时间、分值、考试安排等方面进行细化,同时从分项评分规则和学业水平等级、学科素养水平方面对实验操作考试的评价标准进行了初步研究。相似文献

5.

英语口试中综合式与分析式评分的异同——基于考生话语的分析 总被引：2，自引：0，他引：2

兰春寿《福建师范大学学报(哲学社会科学版)》2008,(5)

本文依据Upshur and Turner（1999）考试与评分的理论模型,将考生口语产出的话语语言特征作为参照,研究口语考试中综合式与分析式评分的异同。实验结果表明考生口语产出的话语特征中流利度衡量指标之每分钟有意义音节数对两种不同评分模式都产生显著影响;评分员在两种评分过程中都注重考生话语的流利性,忽视语言准确性和复杂性。文章进一步对此进行了分析并从考生话语角度揭示口试评分中误差控制的问题。相似文献

6.

论英语口语考试的评分误差 总被引：1，自引：0，他引：1

曾用强《考试研究》2007,(3)

口语考试的评分是评分员基于评分标准对语言产出的认知处理过程,处理的目的就是解释考生之间的分数差异(score vari-ance)。用于解释分数差异的变量包括构念相关变量(construct-rele-vant variables)和构念不相关变量(construct-irrelevant variables)。如果构念不相关变量发生作用,那么评分就产生误差。考试误差可区分为系统性误差(systematic error)和随机性误差(randomerror)。随机性误差是评分误差控制的重点内容。口语考试评分误差的主要表现形式包括评分员的个性差异、回归均值趋势和假正态分布。我们可以通过分数差异分布和回归系数等统计手段验证口语考试评分误差的大小程度。本文还讨论了口语考试评分误差控制的目标、原则和方法。评估误差控制的目的就是最大化构念相关变量的作用,最小化构念不相关变量的影响作用;这就要求评分员在评分过程中坚持一致性、完整性和独立性三条基本原则;在手段的使用方面,口语考试的评分误差控制主要包括管理手段、技术手段和统计手段等。相似文献

7.

论提高PETS口试评分的信度--对一次PETS口试量分统计结果的思考

向平《中国成人教育》2003,(12):87-89

全国公共英语等级考试体系(PublicEnglishTestSys-tem,简称PETS)是一种面向全社会、以全体公民为对象的非学历性英语证书考试,由笔、口试两部分组成。口试的目的是测试考生口头语言表达能力,属主观性考试。口试因其主观性,评分的最大难度在其公正性和一致性。因此,对PETS口试考官因素及其量分情况进行研究很有必要。本文拟在对一次PETS口试量分统计结果分析的基础上,研究影响考官评分的因素,并对考官素质和培训提出一些看法,目的是进一步提高PETS口试的信度、效度及其权威性。一、研究方法与统计结果研究对象为某考点2003年3月参加… 相似文献

8.

多层面Rasch模型在语言评估中的应用研究述评

陈艳君《教育测量与评价(理论版)》2014,(6):9-12

本文对过去十年（2003～2013）国内语言评估领域中运用多层面Rasch模型进行评估所产生的研究成果进行了分析,发现类似研究类型主要集中在试题信效度验证、评分员效应研究和评分方法研究三个方面,这三个方面相互交叉,又各有侧重。基于前人的研究成果,本文认为,多层面Rasch模型在对现有考试题型的信效度验证、新试题开发、评分方法的对比以及考试公平性方面均有着广阔的发展空间和巨大的应用价值。相似文献

9.

PETS一3口语测试评分方法对信度的影响

陈妍玲肖惜《金华职业技术学院学报》2011,11(4):36-38

全国公共英语等级考试包括笔试和口试两大部分,分为五级。PETS-3口语测试评分方法既有优点,也存在不足之处。该口试评分方法对测试的信度产生了一定影响。评分的信度取决于评分标准、评分依据以及评分人三方面的共同作用．最终确保评分信度的真实、可靠。相似文献

10.

高等学校英语应用能力A级考试效度分析研究

温志《四川教育学院学报》2012,28(4):82-85

以Cyril J.Weir的效度整体观为基础,以全国英语应用能力A级考试为研究对象,对基于理论的效度、环境效度、评分效度、效标关联效度和后果效度等五个方面的效度证据进行了分析。研究表明,A级考试整体而言有较高效度,但也存在较大的改进空间。相似文献

11.

Comparing holistic and analytic scoring methods: issues of validity and reliability

Claudia Harsch Guido Martin 《Assessment in Education: Principles, Policy & Practice》2013,20(3):281-307

相似文献

12.

从PETS看我国高职院校的英语口语测试 总被引：1，自引：0，他引：1

刘伽《邵阳学院学报(社会科学版)》2005,4(6):153-154

文章通过分析PETS口试形式、评分方法以及当前我国高职院校口语测试的基本情况,从设计有效的口试题型、制定科学的评分方法、建立口语试题库、培养高素质的考官和评分员队伍以及开发和利用多媒体技术几方面对高职院校的口试测试体系进行思考. 相似文献

13.

大学英语写作评分方法对评分者严厉程度的影响——整体评分法和分析评分法的对比分析 总被引：1，自引：0，他引：1

贺满足《湖南第一师范学报》2006,6(4):59-61,66

评分标准在写作测试中非常重要,使用不同的评分方法会影响评卷者的评分行为。研究显示,虽然整体法和分析法两种英语写作评分方法都可靠,但是在两种评分中,评卷者的严厉程度以及考生的写作成绩发生很大变化。总体上,整体法评分中,评卷者的严厉程度趋于一致,接近理想值;分析法评分中,考生的写作成绩更高,同时评卷者的严厉程度也存在显著差异。因而,在决定考生前途命运的重大考试中,整体评分法更受推崇。相似文献

14.

客观性试题评分方法的缺陷及改进

马小侠《渭南师范学院学报》2014,(8):55-60

客观性试题具有命题灵活性大、知识覆盖面广、考查内容偶然性小,评分标准统一、客观、准确,阅卷评分不受评卷人主观因素影响,易于采用计算机阅卷,提高评卷速度,降低考试成本等优点.然而,就其考核效果看,客观性试题除自身无法展示考生的语言组织能力、表达能力、思维过程及写作能力外,还存在一个较大的缺陷,就是无法规避考生猜测答案获取分数的投机行为.这种机会看似对于每一个考生均等公平,但其实不然.对客观性试题评分方法的缺陷作以分析,推算出求相应真实成绩的换算公式,以期得到命题形式的改进. 相似文献

15.

A Framework for Evaluation and Use of Automated Scoring

David M. Williamson Xiaoming Xi F. Jay Breyer 《Educational Measurement》2012,31(1):2-13

A framework for evaluation and use of automated scoring of constructed‐response tasks is provided that entails both evaluation of automated scoring as well as guidelines for implementation and maintenance in the context of constantly evolving technologies. Consideration of validity issues and challenges associated with automated scoring are discussed within the framework. The fit between the scoring capability and the assessment purpose, the agreement between human and automated scores, the consideration of associations with independent measures, the generalizability of automated scores as implemented in operational practice across different tasks and test forms, and the impact and consequences for the population and subgroups are proffered as integral evidence supporting use of automated scoring. Specific evaluation guidelines are provided for using automated scoring to complement human scoring for tests used for high‐stakes purposes. These guidelines are intended to be generalizable to new automated scoring systems and as existing systems change over time. 相似文献