首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 212 毫秒
1.
针对非特定人的孤立词识别问题,研究构造了基于神经网络建模的语音识别算法。该算法的意义在于将神经网络应用于非特定人语音识别中,并取得了较好的识别效果,表明了神经网络在语音识别中的优势。  相似文献   

2.
随着语音识别技术的不断发展,特定人孤立词语音识别技术己基本成熟并逐渐开始应用于社会众多领域。而系统所追求的成本低、速度快和识别率高等目标,使主因素特征参数的选取成为其重点和难点。在实验的基础上对特征提取方法进行了深入的研究,提出了对传统Mel倒谱参数的改进方法,有效提高了系统的识别性能。  相似文献   

3.
语音识别技术近些年来发展非常迅速,并且在许多方面已经有了很好的应用.在C环境下模拟实现一个简单的小词汇量、孤立词语、特定人的音识别系统.该系统具有很好的扩展性,稍微做些改动,就可以设计出各种各样的语音识别系统.  相似文献   

4.
建立了一个基于HMM算法的非特定人语音识别系统,阐述了具体实现过程,包括预处理、特征参数的提取及模板的匹配.并用MATLAB6.5对整个系统进行了仿真,仿真结果表明该系统可实现对非特定人输入命令词的识别,识别率约为88.6%.  相似文献   

5.
设计了一种基于CAN总线和语音识别的智能家居控制系统。主要介绍了系统硬件设计,包括语音识别系统、CAN接口设计和基于公共电话网的远程控制接口设计等,并简述了系统的软件设计。该系统实现了家居进行特定人语音识别控制不受空间限制,达到任意点集中家电管理的目的,具有很好的应用前景。  相似文献   

6.
在特定人孤立词语音识别中,最为简单有效的方法是采用动态时间弯折(dynamic time warping,DTW)算法。该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中很成功的一种匹配算法。  相似文献   

7.
以VC++6.0为开发平台,实现一个基于隐马尔可夫模型(Hidden Markov Model,简称HMM)非特定人的安多藏语孤立词语音识别系统。对有声段语音进行MFCC参数的提取,对提取后的MFCC参数进行矢量量化后训练HMM模型,形成特征模板库,最后进行识别。根据安多藏语的特点,改进端点检测的方法,提高了孤立词语音信号检测的准确性,并进一步提高了识别率。  相似文献   

8.
随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,其技术的应用正在日益改变着人类的生产和生活方式。本文介绍了语音识别的基本原理、方法,综述了语音识别系统的分类及语音识别技术的应用,分析了语音识别所面临的问题。  相似文献   

9.
提高大学生的创新能力是当今社会的迫切需求,而机器人实践平台是高校学生工程教育的最佳载体,因此,单片机课程设计的题目选择"非特定人语音控制机器人",让学生利用指定的实验模块和可选添的实验模块,以小组为单位按照各自设计通过工程实践实现非特定人对机器人的语音控制,这符合创新性教学理念,代表着科研与教学的有机结合。以学号121003224小组的实践为例,证明"非特定人语音控制机器人"创新性课程设计,既夯实了学生的理论知识,提升了学生的实践应用能力,又奠定了学校机器人创新实践平台的实验基础。  相似文献   

10.
利用HMM模型状态间的混淆度, 提出了一种新的状态结构调整算法, 使不同的状态可以共享相同的高斯混合函数, 并在EM算法的框架下推导出对状态结构调整后的增加参数, 即状态间权值的重估公式. 并对非特定人进行大词汇量汉语连续语音识别实验, 实验结果表明状态结构调整后的系统不仅优于基线系统, 还获得了比传统的参数增加方法更高的识别率, 由此证明了状态结构调整方法的有效性.  相似文献   

11.
由于传统人机交互大多使用键盘、鼠标等交互方式,速度较慢,因此语音识别开始受到越来越多人的青睐。但语音识别也存在如扩展性太差、可复制性不好造成单个产品价格过高、过于依赖外部条件导致对自身使用有所限制等问题。设计并实现一种基于本地的语音识别系统,通过构建抽象语法树,实现语音控制操作。实验结果表明,该系统的离线识别准确率可达70%以上,可以在局域网内实现语音操作。  相似文献   

12.
随着计算机技术和网络技术的迅速发展,计算机辅助教学在教学领域中的应用日益广泛.为了帮助英语学习者纠正其发音错误,提高英语口语水平,将计算机辅助教学应用于英语口语的教学与测试中,利用了特征参数提取,基于HMM模型的语音识别,模式匹配等技术实现了一个测试系统.  相似文献   

13.
在多媒体教学中应用语音识别技术   总被引:1,自引:0,他引:1  
语音识别技术的应用领域已十分广泛,技术也比较成熟。在智能多媒体教学中加以运用,则可增强课件的智能化程度,提高CAI教学效果。  相似文献   

14.
分析了在航管雷达模拟系统增加语音识别和合成功能的实现过程。根据航管雷达模拟系统的特点,采用中英文皆可识别且适合连续识别的语音引擎,以及符合人类语言特点的TTS语音库,与系统内部通讯机制相结合,实现语音识别和合成的过程。该系统运行稳定,在识别率和数据传输速度等方面效果比较好。  相似文献   

15.
利用小波变换对含噪语音信号进行特征提取,结合隐马尔可夫和人工神经网络混合模型进行识别的方法,进一步反映语音信号的动态特性、增强抗干扰能力、提高识别率.实验证明,该模型适合于对噪声背景下的语音进行识别,同传统的HMM模型相比,具有更好的抗噪鲁棒性,在信噪比较低情况下,识别率比传统的HMM模型有明显提高.  相似文献   

16.
将基于多个嵌入图组合形式的半监督判别分析(SDA)以及核SDA(KSDA)应用于全监督的语音情感识别.在语音信号样本情感成分的预处理阶段,从样本语段中提取出多种特征及其统计参数,包括基音、过零率、能量、持续长度、共振峰和MFCC(Mel频率倒谱系数).在将样本特征送入分类器之前的维数约简阶段,使用经过参数优化的SDA或KSDA进行降维.Berlin语音情感数据库上的实验表明,在使用多类SVM分类器时的全监督语音情感识别中,SDA优于其他一些先进的基于谱图学习的维数约简算法,如LDA,LPP,MFA等,而KSDA通过核化的数据映射,能够取得比上述所有算法更好的识别效果.  相似文献   

17.
Speaker variability is an important source of speech variations which makes continuous speech recognition a difficult task. Adapting automatic speech recognition (ASR) models to the speaker variations is a well-known strategy to cope with the challenge, Almost all such techniques focus on developing adaptation solutions within the acoustic models of the ASR systems. Although variations of the acoustic features constitute an important portion of the inter-speaker variations, they do not cover variations at the phonetic level. Phonetic variations are known to form an important part of variations which are influenced by both micro-segmental and suprasegmental factors. Inter-speaker phonetic variations are influenced by the structure and anatomy of a speaker's articulatory system and also his/her speaking style which is driven by many speaker background characteristics such as accent, gender, age, socioeconomic and educational class. The effect of inter-speaker variations in the feature space may cause explicit phone recognition errors. These errors can be compensated later by having appropriate pronunciation variants for the lexicon entries which consider likely phone misclassifications besides pronunciation. In this paper, we introduce speaker adaptive dynamic pronunciation models, which generate different lexicons for various speaker clusters and different ranges of speech rate. The models are hybrids of speaker adapted contextual rules and dynamic generalized decision trees, which take into account word phonological structures, rate of speech, unigram probabilities and stress to generate pronunciation variants of words. Employing the set of speaker adapted dynamic lexicons in a Farsi (Persian) continuous speech recognition task results in word error rate reductions of as much as 10.1% in a speaker-dependent scenario and 7.4% in a speaker-independent scenario.  相似文献   

18.
基于改进的DTW算法的仿真与分析   总被引:2,自引:0,他引:2  
传统的DTW算法着重于时间规整和间距测量的概念,对数据的可靠性没有进行有效的分析,且对连续词的识别效果不明显。基于松弛起始点和分段思想的改进DTW算法,可以改善明阿算法的缺陷。通过对语音样本0.9在MATLAB6.5上的仿真实现与分析表明,采用改进后的DTW算法具有良好的语音识别效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号