首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
任何一种测试都要公平、公正,否则就失去了它存在的价值和意义。对语言测试的公平性问题的研究是测验开发者不可推卸的责任和义务。汉语水平考试(HSK)是专门为汉语作为第二语言的学习者而设计的语言测试。经过二十多年的发展,HSK在公平性问题研究方面已经取得了长足进展。针对HSK特有的考生构成特点,本文将考生数量较少的非亚裔考生当作研究对象,将其设为目标组,考察HSK是否会对这个亚群体考生不公平。本文运用3种传统的DIF检验方法——MH方法、SIBTEST方法和Logistic regression方法,对HSK【初中等】一套试卷的听力理解测验进行DIF检验,比较目标组(非亚裔考生)和参照组(亚裔考生)在同一组项目上的表现。  相似文献   

2.
本文旨在考察HSK应试者的专业背景是否会对他们的阅读成绩产生影响。运用MH方法和SIBTEST方法对2009年HSK(初中等)考试阅读题目进行DIF筛查,把专业背景为自然科学的HSK考生设为目标组,专业背景为人文社会科学的HSK考生设为参照组。MH方法的结果是没有找到含有DIF的题目;SIBTEST方法的结果如下:第一轮DIF筛查检测到一个题目,第二轮DBF筛查检测到一组题目。这组题目有利于人文社会学科专业背景的被试。就检测DIF的方法而言,本研究认为SIBTEST方法更加敏感,DBF检验更加适合像阅读理解测验这样的一组或多组相互关联的题目。  相似文献   

3.
新汉语水平考试HSK(五级)效度研究   总被引:2,自引:1,他引:1  
本文从HSK(五级)分测验及题型相关分析、因素分析和考生组间比较三个方面,对HSK(五级)的效度进行了研究。统计结果表明,HSK(五级)构念清晰,即从听力理解、阅读理解、书面表达三个方面对考生的汉语应用能力进行了考查,HSK(五级)具有良好的效度。  相似文献   

4.
阅读篇章的选择、多项选择题目的设计以及篇章数量与测验题目数量的拟合度问题,是影响阅读理解能力测试信度和效度的基本因素。篇章数量和题目数量的不同组合方式对阅读理解测验误差和信度的影响也不相同。本研究以中国汉语水平考试(HSK)的实测数据为基础,随机选择500名考生作为研究样本,借助概化理论的随机双面嵌套(nested)设计s×(i:p)分析了HSK阅读理解测验中的误差来源和结构,对篇章数量和题目数量的匹配合理性进行了检验。研究结果显示:增加文章数量和题目数量均可以提高测验的精度,但增加文章数量比增加题目数量对概化系数(Generalizability coefficient,Eρ2)的提高作用更有效;HSK阅读理解测验的篇章数量和题目数量的现行组合方式符合误差控制的原则和信度指标的要求。  相似文献   

5.
试论教学测量的设计   总被引:3,自引:0,他引:3  
文章论述了有效测量的四个指标,阐述了紧扣教学目标、围绕知识分类,设计不同的教学测验以保证教学测验的效度、信度、区分度和把握恰当的难度,并提出教学测量设计的重点应该是程序性知识和策略性知识的测验。  相似文献   

6.
PISA测验着眼于学生的终生发展,其测验编制思想给各国教育评价带来了深刻的变革。本研究在PISA阅读测验理论与框架基础上,编制了PISA式汉语阅读测验。该测验包含三篇阅读材料,共18个测验项目。通过对测验难度、区分度、信度、效度的检测,并使用全息Bifactor模型进行维度评价。结果表明,编制的PISA式汉语阅读测验难度适中,具有较好区分度,信效度基本合格。同时,基本达到PISA对阅读测验能力结构的要求,较好地考查了学生的一般阅读理解能力,以及信息提取、文本解释、反思和评价等三个子维度的能力。  相似文献   

7.
基于计算机的测验已逐渐普及,但不同的计算机测验形式在测量相同任务时可能会产生测验结果的偏差,从而导致教育测量与评价结果的不公平性。文章基于项目反应理论,探讨了计算机化线性测验与计算机自适应测验在测验效率、测验结果的统计学特征及其对考生个体心理特质的影响是否等效等问题,并以师范生"现代教育技术"课程为例开展了实证研究,结果显示:两种测验中考生的分数具有可比性,计算机自适应测验具有更高的测验效率与测验信度,但有无即时反馈对考生测验焦虑的影响较大;而计算机化线性测验具有更合理的内容效度,有无即时反馈对考生测验焦虑的影响较小。文章的研究不仅对教学评价中测验形式的选择是否公平合理进行了科学分析,而且为施测者根据测验场景有针对性地选择测验形式提供了理论参考。  相似文献   

8.
本研究通过随机选取2382名考生,采用共同组等值设计和线性等值法,对MHK三级与HSK三级、四级、五级、六级的考生成绩进行了等值,等值结果包括听力、阅读、书面表达各分测验分数及测验总分。  相似文献   

9.
测验等值使得不同形式的考试能进行比较,从而保证了测验之间的相对稳定性。基于IRT的分数等值是在估计出参数的基础上进行的参数转换,等值结果的稳定性与考生样本量密不可分。本研究针对汉语水平考试(HSK)阅读分测验,采用真实数据模拟共同组锚测验设计,确定等值的参照标准,考察考生样本量的变化对IRT分数等值稳定性的影响。结果表明,考生样本量为2000左右时各种方案的等值结果均比较稳定。考生样本量进一步增大时,等值误差不降反增。  相似文献   

10.
教师自编测验是指教师根据教学过程不同阶段的不同任务,确定测验的不同目的,编制不同的测验。如合格测验(目标参照测验)需要有较高的内容效度;用于选拔的择优测验就需要测验项目有合理的难度分布,使测验具有鉴别力;难度测验的目的在于考核学生所掌握的知识、技能在一定范围内所能达到的水平。此外,还有难度不大但项目很多且限制答卷时间的速度测验等。  相似文献   

11.
汉语水平考试(HSK)初中等包括听力理解、语法结构、阅读理解、综合填空4大部分,每一部分又分为若干小部分共9个分部分。每个大部分代表所要考查的一部分语言能力。语言能力的潜在因素(PotentialFactor)有很多,我们假定HSK测试了语言能力的4种因素,如果测试的每一部分在这些因素上的载荷(Factor Loading)不同,即它们对这些因素的贡献不同,这间接说明考生语言能力的结构存在差异。本文用探索性性因素分析(Exploratory Factor Analysis)的方法考查在本国内学习汉语的外国学生、在中国学习汉语的留学生以及新疆少数民族学生三类不同考生在汉语能力结构上是否存在差异。  相似文献   

12.
汉语水平考试与《国际汉语能力标准》挂钩研究报告   总被引:1,自引:0,他引:1  
汉语水平考试(筒称HSK)是考查考生在生活、学习和工作中运用汉语进行交际的能力的国际性考试。HSK从1984年开始研制,1990年在国内正式组织实施,1991年推向海外。《国际汉语能力标准》由国家汉办于2007年颁布,是适应各国汉语教学需求而制定的,是指导国际汉语教学的纲领性文件。作为两大汉语能力标准,它们之间是怎样的关系?本报告采取定性和定量研究相结合的方法,在组织了883名考生参加HSK考试及近100名专家及教师进行相关研讨的基础上,给出了两者之间的对应关系。  相似文献   

13.
近年来,随着华语文学习需求的日益升高,使得以“母语为非华语者”的华语文能力测验也逐渐受到各国瞩目,然而,这些华语文能力测验仍有一些限制与不足之处。本研究目的是以欧洲语言共同参考架构(The Common European Framework of Reference,CEFR)为基础,参考蔡雅熏(2009)编制的《华语文能力指标》,研发A2级的华语文听力与阅读测验,并导人现代测验理论(item response theory,IRT)之技术,建立一套具有信度、效度的华语文能力计算机化测验。最后,本文透过次级量尺分数估计方法,探讨受试者在CEFR中四种语言能力之表现,研究显示受试者表达与理解能力优于互动与转述能力。  相似文献   

14.
对HSK部分等级的验证性研究   总被引:1,自引:0,他引:1  
中国汉语水平考试(HSK)的作用之一是界定留学生进入中国大学入系学习时所应具备的汉语能力。根据有关规定,HSK三级和六级分别是进入中国大学理工西医类和文史中医类入系学习的最低标准。本文采用安哥夫、边缘组及对照组三种方法对此标准进行了验证性研究。  相似文献   

15.
本研究应用项目反应理论,从被试的阅读能力值和题目的难度值这两个方面,分析阅读理解测试中多项选择题命题者对考试效度的影响。实验设计中,将两组被试同时施测于一项“阅读水平测试”,根据测试结果估计出的两组被试能力值之间无显著性差异。再次将这两组被试分别施测于两位不同命题者所命制的题目,尽管这些题目均产生于相同的阅读材料,且题目的难度值之间并没有显著性差异,被试的表现却显著不同。Rasch模型认为,被试表现由被试能力和试题难度共同决定。因此,可以推测,这是由于不同命题者所命制的题目影响了被试的表现,并进而影响了使用多项选择题进行阅读理解测试的效度。  相似文献   

16.
本文以HSK[高级]考试的实测数据为研究材料,使用结构方程模型探究高级汉语学习者听、说、读、写四项技能的结构模式以及四项技能间的融合/分散趋势。对包含一阶因子模型和高阶因子模型在内的9个理论模型的验证结果显示:高级水平汉语学习者技能结构模式可以用"听读+说+写"的形式进行描述,四项技能中听力和阅读呈现融合的趋势,相对而言,说的技能与其它技能的区分性比较高,高级水平汉语学习者听、说、读、写四项技能呈现出部分融合的趋势。研究认为,HSK[高级]考试采用主试卷、口语试卷和写作试卷三部分各自独立施测的方法 ,并将听力和阅读分数进行综合报道,口语、写作分数独立报道,这种做法具有一定的合理性。  相似文献   

17.
Dyslexia is hard to diagnose in a second language. Poor performance on a test of reading may be caused by poor language proficiency in the second language or by limited schooling rather than by poor reading ability per se. This confound was supported in a study of 88 adult second language learners and 65 native language speakers. The incidence of dyslexia in the second language learners varied widely depending on the measure of reading. In order to reduce language and schooling confounds, a dynamic test of acquisition of basic decoding ability was developed. In the dynamic test, participants are taught three novel letters and to synthesise the letter sounds into new words. Results from the study indicated that the dynamic test provided results in accordance with the current IDA definition of dyslexia, while significantly reducing the influence second language vocabulary and amount of schooling. With the dynamic measure, the same cut-off point between dyslexic and non-dyslexic performance appeared valid in both native language speakers and second language learners.  相似文献   

18.
This study examined the differential impacts of an inquiry-based instruction on conceptual changes across levels of prior knowledge and reading ability. The instrument emphasized four simultaneously important components: conceptual knowledge, reading ability, attitude toward science, and learning environment. Although the learning patterns and effect size analyses indicated that students from all subgroups demonstrated substantial gains on weather concepts, students from the low prior conceptual knowledge group demonstrated greater gains in conceptual knowledge than subgroups with more prior knowledge; and these gains remained stable 3 weeks after the instruction ceased. However, students from the low language proficiency group showed the least gains in conceptual knowledge. Students’ prior knowledge and reading ability were found to be positively and significantly associated to conceptual development. Recent perspectives on the role of language in science education and suggestions that support learning during instruction are briefly described.  相似文献   

19.
HSK是为测试母语为非汉语者(包括外国人和华侨)的汉语水平而设立的国家级标准化考试。MHK是专门测试母语为非汉语的中国少数民族汉语学习者汉语水平的国家级标准化考试。HSK和MHK都是证书考试。如果证书授予标准缺乏稳定性和公平性,如果对使用这一份试卷的人一个标准,对使用另一份试卷的人又一个标准,那么,不仅会大大影响HSK的信度和效度,而且会对有关的决策产生误导,会使考生受到不公平的对待。在HSK和MHK的开发和实施过程中,一直坚持了对考试分数的统计等值处理。在HSK和MHK的等值设计方面,我们综合采用了共同组等值、共同题等值和分半组合的混合设计。在HSK和MHK的等值数据处理方面,我们综合采用了线性等值、等百分位等值和IRT等值。本文介绍了HSK和MHK的等值方法。讨论了各种方法的得失,讨论了今后继续改进的可能性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号