共查询到20条相似文献,搜索用时 531 毫秒
1.
一帆 《教育测量与评价(理论版)》2014,(3):9-9
计算机自适应测验(CAT)是建立在项目反应理论基础上,由计算机根据被试能力水平自动选择测题,从而对被试能力做出估计的新型测验。计算机自适应测验呈现给考生的试题是依据被试在前一个试题作答的表现好坏来决定的,其实现条件应囊括以下五个部分。 相似文献
2.
计算机自适应测验是现代教育测验的一种新形式。计算机自适应测验的指导理论与传统纸笔测验不同,而且测试方面有诸多的优点。本文详细介绍计算机自适应测验的基本测试流程,包括被试即时能力估计、选题策略、曝光率控制、测验终止标准等八个基本步骤;并进一步论述了计算机自适应测验在实测中应解决的关键技术与问题:在线参数估计、试题与测验交叠率控制、纸笔测验与计算机等值、多维评价与认知诊断等。 相似文献
3.
一帆 《教育测量与评价(理论版)》2015,(6)
共同被试法是通过相同被试寻找不同测验形式之间等值关系的方法,适用于大规模测验的等值转换。当两个实际被试组能力分布差异较大或能力分布未知的情况下,可采用同一组被试,让他们参加两种测验形式的测验。然后通过比较这一组被试在两种测验上的分数,得出测验等值关系。 相似文献
4.
计算机自适应测验依据被试作答的反应自动选择测验项目,是项目反应理论与计算机技术相结合的一种考试组织形式。随着计算机自适应测验的使用越来越广,特别是在大型考试的实施过程中,服务器的处理能力成为制约考试规模的重要因素之一。分布式计算可以有效提高系统的载荷,为网络服务提供更快的响应速度。贵州师范大学CAT实验室开发的计算机自适应测验系统PowerCAT,运用分布式计算的方式,为大规模考试提供了可用的负载能力。 相似文献
5.
计算机自适应测验在网络课程建设中的应用研究 总被引:1,自引:0,他引:1
计算机自适应测验(CAT)根据每个被试的水平,对不同的被试实施不同的测验项目,与传统纸笔测验相比,有很多优势。针对当前网络化学习中存在的问题,在现有CAT应用的基础上,尝试在网络课程建设中创新应用,发挥其及时反馈、自我激励、分层管理、认知诊断和学业评定的功能,提高网络化学习的质量。 相似文献
6.
7.
早期的单维IRT模型忽视了测验多维性的可能,而多维IRT模型对各维度的划分不够明确,不能很好地反映各维度能力的内涵。高阶IRT模型承认测验的多维性,以分测验划分维度,同时又将多个维度的能力统一到一个高阶的能力中,能够在了解被试各维度的能力同时,为被试提供整体的能力估计,它能更好地反映实际,并且适应大规模测验的需求。 相似文献
8.
一帆 《教育测量与评价(理论版)》2010,(2):36-36
项目的区分度又称为鉴别力。它是指测验项目对不同考生的知识、能力水平的鉴别程度。在某一测验中,若项目的鉴别力高,则能力强、水平高的被试得分高,能力弱、水平低的被试得分低。 相似文献
9.
本文介绍了当前国内外采用的考试形式,国外以自适应测验为主,国内以纸笔测验为主。计算机自适应测验相对于纸笔测验有很多优点,其中最重要的是自适应测验的测验结果在不同测验中具有可比性、有基于认知诊断的自适应测验,而纸笔测验不能提供被试测验进一步的信息。自适应测验是未来测验的发展方向。 相似文献
10.
标准参考性测验跟常模参考性测验不同,具有自己的突出特点和特殊的规定性。因此,我们有必要按照标准参考性测验的性质和要求,探讨适合于它的测量理论和方法。题目反应理论的基本概念题目反应理论是六十年代才大力兴起的一种现代测量理论。从这种理论看来,测验中被试的成绩,可用被试的内部特质或能力来说明,是这种特质和能力的函数。当前,描述被试成绩跟内部特质或能力关系的数学模型已有许多种。其中一种单 相似文献
11.
12.
袁慧 《宿州教育学院学报》2014,17(5):124-125
本文旨在研究大学英语四级考试集库式完形填空的内容效度,即探索它是否能测量被试在篇章层次上理解和运用单词的能力。被试为上海某高校438名非英语专业学生,研究工具为四个测验。其中两篇测验(整A和整B)取自大学英语四级考试历年真题。另外两篇测验(散A和散B),分别改编自整A和整B。随机抽取的高低两个水平的被试,分别完成了一个整篇原文测验和一个散句改编测验。结果显示,在整篇原文和散句改编测验中,高水平被试的成绩并没有体现显著差异;低水平被试整篇和散句测验成绩有显著差异。研究表明,可通过提高考点层次、适当增加选项的干扰性来提高大学英语四级集库式完形填空的内容效度。 相似文献
13.
14.
测验分数由于受到评分者和测验难度的影响,因而不能很好地评价学生的学业状况.能力分数仅与被试有关,与测验的难度无关.能力分数的特征有:能力分数是相合估计,能力分数是"不变分数",能力分数呈正态分布.在能力分数的意义下,对于来自不同测验的能力分数可以直接进行对比. 相似文献
15.
九、外语操作能力测验外语能力测验通常分为知识测验和操作测验,前者主要指“纸一笔测验”,用以检查被试对某一给定课题所具有的信息量,其形式采用多项选择、是非题、配对、填空、问答,以及作文。后者一般用于需要对某一特定课题的熟练程度进行验证,但又不能通过知识测验来测量的情境。这就象取得驾驶执照需要进行专业性两项检测一 相似文献
16.
王勤云 《中国教育技术装备》2011,(6):79
在计算机自适应测验中,利用计算机来模拟生成被试和题库,对于选题策略的实验模拟是非常重要的。主要叙述均匀分布、正态分布样本的生成算法以及正态分布的检验方法。 相似文献
17.
扶长青 《教育测量与评价(理论版)》2009,(5):12-15
限定问题测验是一种测量儿童道德判断发展水平的工具,该测验以柯尔伯格的“儿童道德发展阶段论”为主要依据,以其“道德两难故事法”为主要方法,能够考察被试的道德认知水平和推理能力。30多年来,限定问题测验得到了广泛应用和有效改进。本文介绍限定问题测验的理论基础、施测程序、记分指标和效度指标,总结该测验的研究主题及其改进,并对其优缺点进行简要评价。 相似文献
18.
《中国考试》2003,(Z4)
测验质量的复核或交叉效度检验(crossvalidating)。经过试测和测题质量分析,挑选出了质量符合要求的测题,这些测题就构成了题库(item bank)。但由于试测所选的被试仅仅是被试总体的一个样本,难免受抽样误差的影响,因此还要进行第二次试测。也就是从被试总体中独立地抽取另一被试样本,施测后分析测题的难度和区分度,比较同一测题两次分析的结果是否一致,不一致的测题还需作进一步的分析和修改。这称为测验质量的复核或交叉效度检验。复核后的测验就进入了供测验选题的题库中。复本的制作。复本指两份完全等值的测验,所谓等值,是指有相同的测验目的,题型、题数、测 相似文献
19.
把刻板印象影响记忆的过程分离为记忆力和反应偏差成分,40名被试参加2×2×2混合实验。结果表明:被试在调整测验方式条件下的记忆正确率高于在标准测验方式下的结果,记忆错误表现出刻板一致的模式,但其主要受反应偏差调节,而不是记忆力调节。因此,改变测验方式有助于提高整体的记忆准确性,但是不能减少刻板印象偏见。 相似文献
20.
《赣南师范学院学报》2016,(6):120-124
传统的测量模型有一重要假设,即被试在完成测验过程中自始至终采用同一种策略.事实上,被试会根据题目类型不同而改变其解题策略,称之为策略转换.使用策略转换模型和潜在类别分析两种方法对平衡秤任务测验作答过程中的策略转换现象进行了分析比较.结果显示:策略转换模型存在策略位置参数越界、顺序混乱等缺陷,不适于策略转换问题研究;使用潜在类别分析方法可有效分析被试的策略转换行为,儿童在完成平衡秤任务测验时呈现出不同的策略转换路径. 相似文献