首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
讨论单参数正态分布族的双边假设检验问题,是基于考虑在第一类错误的概率为α的检验类中如何求取一个第二类错误概率最小的检验。  相似文献   

2.
在统计检验中,会犯两种类型的错误:第一类错误与第二类错误。以单个均值的检验为例,分析了它们的成因和计算方法。可以认为,第一类错误由检验中的实际推断原理引起,第二类错误由检验中的逻辑谬误引起。第一类错误出现的概率为显著性水平α,即小概率事件发生的概率。第二类错误的计算方法是阐述的重点,也是在解决这一问题上与目前的方法不一致的地方。  相似文献   

3.
本文分别以单、双侧u检验为例。讨论了犯两类错误的概率α与β以及样本容量n之间的关系,同时给出了计算犯第二类错误的概率β的具体方法。最后以单侧u检验为例,导出了确定样本容量n的公式。  相似文献   

4.
在统计假设检验中,讨论了两类错误的关系以及如何同时减少犯两类错误的概率,并给出了对单侧统计检验问题应如何选取合适的检验假设.  相似文献   

5.
在统计假设检验中,讨论了两类错误的关系以及如何同时减少犯两类错误的概率,并给出了对单侧统计检验问题应如何选取合适的检验假设.  相似文献   

6.
在一个正态总体下方差σ2已知时,给出了对检验假设H0∶μ=μ0的两类错误概率的具体形式,并依据它们的具体形式对两类错误α、β与n的大小变化规律的关系作了简要分析。  相似文献   

7.
讨论正态总体单侧检验问题中犯第一类错误的概率α和犯第二类错误的概率β之间的关系。提出了在试验成本不增加的条件下,怎样选择合适的显著水平α使期望损失最小。本文的主要结果为:设在显著性水平αF小的期望损失额为:L(α)=Mα Nβ则当  相似文献   

8.
基于相对危险度提出了一个假设检验问题,在配对设计下用delta方法构建了Wald检验统计量,并对Wald检验统计量进行连续性修正。通过Monte Carlo方法模拟,表明Wald检验统计量控制第一类错误的概率较差,而修正后的Wald检验统计量能较好地控制第一类错误率,且第一类错误率接近于给定的显著性水平,是一个理想检验。  相似文献   

9.
在假设检验中,人们总希望犯两类错误的概率都很小,但这很难实现.本文介绍了当样本容量n固定,显著性水平α为特定值时,使"犯第二类错误"的概率取得极小值的方法.  相似文献   

10.
基于单样本T检验介绍了如何利用模拟实验的方法讲解假设检验问题.在母体分别服从正态分布和T分布的条件下,给出了T统计量在不同样本容量下模拟得到的经验水平和经验势,从而直观地解释了为什么要求检验数据服从正态分布,什么是犯第一、二类错误的概率以及决定错误概率大小的因素等问题.对比实验结果表明,在假设检验问题的教学中加入模拟实验环节可以显著提高教学质量.  相似文献   

11.
我们通过实验研究比较了目前汉语水平考试中采用的两种看图写作测试方式的有效性.研究显示类似连环画的多幅图比单幅图更能有效地反映汉语学习中级阶段应试者的写作水平,前者基本不需要立意构思,而且较少受到题目取样误差和评分人误差的影响,适合在大规模的汉语中级写作水平测试中使用。  相似文献   

12.
本文研究了基于混合高斯分布的红外人脸分割。先将人脸像素点用不同的高斯分布进行分类,再利用统计学的概率大小决定某个像素点应该是人脸皮肤,还是背景,达到分割目的。并对测试图像的每个像素点使用贝叶斯公式,使得分割的错误率达到最小。实验证明,用该方法进行红外人脸分割可以达到了比较理想的效果。  相似文献   

13.
王风 《考试研究》2021,(1):65-69
考生猜测作答是一种偏离测验构念的行为,可以通过ARRG法检验,并将与其相关的问题最小化。通过比较大样本情况下概率阈限的改变对参数估计的影响,发现ARRG法能明显提高数据-模型的拟合优度。大样本条件下,概率阈限的改变主要引起题目难度估计的变化,标准误的波动较小。本文为消除考生猜测作答的影响及使用ARRG法时根据样本量合理解释参数变化的意义提供参考。  相似文献   

14.
15.
Like students in most developing countries, Colombian students in 4th grade performed poorly in the TIMSS 2007 test of mathematics skills, achieving an average score of 355 relative to an international mean of 500. After controlling for other factors and misreporting error, I find that large classes have substantial adverse effects on student achievement. Increases in class size from 20 to 53 students reduce test scores by about 80 points, or 2.4 points for each additional student in the class. Most likely this is the cumulative effect of class size in grades one to four on achievement in 4th grade.  相似文献   

16.
Two easy to administer reinforcement techniques were compared to determine their relative effectiveness in motivating improved science test performance in a fourth-grade classroom. The first technique—random selection, scoring, and posting of a single science test, followed by a back-up reinforcer administered to the whole class—was effective in decreasing error rate of the class. The second simplified technique—random selection, scoring, and posting of a single science test, with no back-up reinforcer—was equally effective.  相似文献   

17.
FFH/MFSK系统抗干扰性能研究   总被引:1,自引:0,他引:1  
针对FFH/MFSK通信系统的特点,推导了在赖斯衰落信道下,多音干扰产生的虚警检测概率和漏检概率数学表达式,并研究了不同参数对系统BER性能的影响. 仿真结果表明,在多音干扰功率大于一定值时,多音干扰数量是造成系统BER性能下降的主要因素.  相似文献   

18.
The Angoff method requires experts to view every item on the test and make a probability judgment. This can be time consuming when there are large numbers of items on the test. In this study, a G-theory framework was used to determine if a subset of items can be used to make generalizable cut-score recommendations. Angoff ratings (i.e., probability judgments) from previously conducted standard setting studies were used first in a re-sampling study, followed by D-studies. For the re-sampling study, proportionally stratified subsets of items were extracted under various sampling and test-length conditions. The mean cut score, variance components, expected standard error (SE) around the mean cut score, and root-mean-squared deviation (RMSD) across 1,000 replications were estimated at each study condition. The SE and the RMSD decreased as the number of items increased, but this reduction tapered off after approximately 45 items. Subsequently, D-studies were performed on the same datasets. The expected SE was computed at various test lengths. Results from both studies are consistent with previous research indicating that between 40–50 items are sufficient to make generalizable cut score recommendations.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号