首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
语音识别技术及应用   总被引:5,自引:0,他引:5  
语音识别技术近年来得到了飞速的发展并且在越来越多的领域得到了广泛的应用。隐马尔可夫模型(HMM)语音识别技术是一种基于训练数据提供的概率自动构造识别系统的技术,主要用于大量词汇的语音识别,而且具有良好的识别性能和抗噪性能。因此,一般的语音识别系统都采用基于HMM的识别方法作为其基本算法。本文列举了语音识别在教学中的应用示例来分析其基本算法。  相似文献   

2.
说话人识别系统是在语音信号中提取说话人信息来鉴别说话人身份.整个系统以DSP处理器为核心结构,进行训练和识别语音信号.采用LPC和DTW作为核心算法来进行说话人识别.  相似文献   

3.
基于CHMM的高性能连续数字语音识别算法   总被引:3,自引:0,他引:3  
介绍了一种基于连续隐马尔可夫模型(CHMM)的汉语连续数字语音识别算法,该识别算法以MEL频率倒谱系数(MFCC)为主要语音特征参数,采用切割-识别方案。在此框架下,本文提出了变时窗的连续数字切割算法,并且结合了声调信息,因此最终连续数字语音识别率达到了90%以上。  相似文献   

4.
NAPT的内网用户识别   总被引:1,自引:0,他引:1  
接入Internet成为当今信息业最迫切的需求,而IP地址的现行标准是IPv4,IP地址严重不足.从IPv4到IPv6还需要一段时间。因此NAPT(网络地址端口转换)技术被广泛应用.识别NAPT内网的主机数目对于ISP(信息服务商)显得尤为重要.由于存在软件NAPT和硬件NAPT,本文提出多种方法结合的方案,通过对IP数据报中的IVid(IP标识),Source-port(源端口)进行统计,根据结果确定是否使用了NAPT技术,并对软件NAPT识别出NAPT服务器主机与NAPT客户端主机.结合Cookie提取技术。确定用户数.  相似文献   

5.
VoIP综合实验平台设计   总被引:1,自引:0,他引:1  
在IP网络中实现话音通信所采用的技术统称为VoIP.介绍了VoIP技术的主要特点,利用Cisco语音网络设备及相关软件设计了VoIP应用的综合实验平台,详细叙述了实验平台应用的基本原理和实验内容.该实验平台町以提供VoIP中的典型应用方式,同时还可以实现VoIP的多种呼叫控制及服务质量控制.  相似文献   

6.
本文分析了隐尔可夫模型(HMM)的参数迭代与语音识别问题,导出了一系列的参数寻优迭代公式,利用这组迭代公式,不易产生计算时的上溢与下溢,有效地提高了HMM语音识别系统的识别率与可靠。  相似文献   

7.
在VC++环境下,提取PLAR特征参数,基于听觉特性和语谱特性的语音增强器作为预处理器,对语音信号首先进行降噪处理,建立了基于DTW的抗噪声说话人识别系统.实验结果表明,即使在信噪比比较低的情况下,该系统都会在一定程度上提高多种噪声环境下说话人识别系统的识别性能.  相似文献   

8.
教学技术平台是开展各种教学的必要条件,是现代教育技术的基础。基于ARM11的智能语音识别机器人教学平台,采用Voyager-IIA旅行家二号自主移动机器人作为教学载体,通过将WinCE系统移植到ARM11的开发板上从而实现对机器人进行语音控制。该系统不仅可以在教学过程中为学生提供良好的人机交互,而且在计算机教学中,通过该系统促进相关技术和知识的学习。此外,通过对国内外各种语音识别算法进行对比分析,在研究HMM(隐马尔科夫模型)的基础上重点学习微软的SAPI语音识别引擎,并在WinCE系统上进行了实践应用。  相似文献   

9.
语音识别中的端点检测技术是语音识别的基础,低信噪比环境下的端点检测很大程度决定语音识别工作的有效进行.提出了一种利用一阶有限差分商结合折半查找来判定语音端点检测的方法,提高了端点检测的准确率.仿真实验表明,在噪声环境下该方法较好地实现了语音端点检测.  相似文献   

10.
语音识别技术是信息处理的重要内容。在总结国内外开展语音识别技术研究的历史和现状的基础上,详细介绍了语音识别技术的发展历程,并从语音识别的技术与应用两个角度展望了其发展方向。  相似文献   

11.
语音识别技术(ASR)的发展及普通话水平计算机测试的实现,扩大了语音规范研究的视野,拓宽了语音规范实践的领域。笔者分析很多人的感觉后发现,舌尖前音(z、c、s)和边音(l)的实际发音部位与大多数教材对这两类语音发音部位的描述存在着差别,于是从计算机对语音识别的基本原理出发,在音色相同的基础上,分析这些差别的可容性,并根据实践结果阐述其在教学中的可行应用。  相似文献   

12.
Speaker variability is an important source of speech variations which makes continuous speech recognition a difficult task. Adapting automatic speech recognition (ASR) models to the speaker variations is a well-known strategy to cope with the challenge, Almost all such techniques focus on developing adaptation solutions within the acoustic models of the ASR systems. Although variations of the acoustic features constitute an important portion of the inter-speaker variations, they do not cover variations at the phonetic level. Phonetic variations are known to form an important part of variations which are influenced by both micro-segmental and suprasegmental factors. Inter-speaker phonetic variations are influenced by the structure and anatomy of a speaker's articulatory system and also his/her speaking style which is driven by many speaker background characteristics such as accent, gender, age, socioeconomic and educational class. The effect of inter-speaker variations in the feature space may cause explicit phone recognition errors. These errors can be compensated later by having appropriate pronunciation variants for the lexicon entries which consider likely phone misclassifications besides pronunciation. In this paper, we introduce speaker adaptive dynamic pronunciation models, which generate different lexicons for various speaker clusters and different ranges of speech rate. The models are hybrids of speaker adapted contextual rules and dynamic generalized decision trees, which take into account word phonological structures, rate of speech, unigram probabilities and stress to generate pronunciation variants of words. Employing the set of speaker adapted dynamic lexicons in a Farsi (Persian) continuous speech recognition task results in word error rate reductions of as much as 10.1% in a speaker-dependent scenario and 7.4% in a speaker-independent scenario.  相似文献   

13.
随着计算机技术和网络技术的迅速发展,计算机辅助教学在教学领域中的应用日益广泛.为了帮助英语学习者纠正其发音错误,提高英语口语水平,将计算机辅助教学应用于英语口语的教学与测试中,利用了特征参数提取,基于HMM模型的语音识别,模式匹配等技术实现了一个测试系统.  相似文献   

14.
The present study examined the effectiveness of one configuration of automatic speech recognition (ASR) software and hardware with a child sample of 36 three-year-olds and a comparison sample of 20 adults. Subjects used a speaker-dependent, template-based system to play a simple Sesame Street naming game. Results indicated that while the system performed well with adults, it was much less effective with children. An analysis of the children's performances indicates that children's speech is more variable, in both volume and content, than that of adults. The ASR system responded ineffectively to this variability, resulting in inferior performance. Specific behaviors and their effects on the ASR system are identified, and possible system modifications that address these behaviors are noted.  相似文献   

15.
基于二维情感空间的语音情感识别   总被引:1,自引:0,他引:1  
为提高语音情感的正确识别率,在利用反映"激发维"维度信息的韵律特征基础上,提出了采用反映"评价维"维度信息的音质特征作为新的情感特征使用。再将韵律特征参数和音质特征参数结合并用于语音情感识别,并采用支持向量机分类器实现对汉语生气、高兴、悲伤、厌烦和中性五类情感的识别。试验结果表明,基于"激发维"和"评价维"二维情感空间取得的情感总体平均正确识别率为84%,比基于"激发维"一维情感空间取得的识别率高出了12%。可见同时考虑从"激发维"和"评价维"二维情感空间进行语音情感识别,识别结果得到了较大改善。  相似文献   

16.
基于语音识别的汉语发音自动评分系统的初步设计   总被引:2,自引:0,他引:2  
语音识别技术的发展使得人与计算机的交互成为可能,文章结合了语音识别的相关技术,提出了在对外汉语教学领域中,对汉语自动发音水平评价系统的设计,详细地介绍了系统的结构以及所使用的关键技术。  相似文献   

17.
基于支持向量机的语音情感识别   总被引:6,自引:0,他引:6  
针对语音情感识别特征识别问题,本利用支持向量机进行了研究.分析表明语音信号的情感特征参数在输入空间中不完全是一个线性分类的问题,使用非线性的核函数对输入空间进行映射可以有效地提高识别效率.与已有的多模式语音情感识别方式相比,利用高斯(径向基)核函数的支持向量机的识别效果优于其他已有的方法.  相似文献   

18.
普通话动态腭位研究   总被引:1,自引:0,他引:1  
被誉为“实时地看语音”的动态腭位技术可以显示发音过程的舌一腭接触图像,因此被广泛地应用于辅音的发音部位和发音方法的研究,特别是在协同发音的研究中有更大的应用价值。为此,我们在2001年建立了一个规模较大的《普通话语音动态腭位数据库》,共含有2081个音节。我们采用接触面积比、接触指数(CA、CC、CP)和约束度(CD)等指数研究了普通话辅音发音的生理特点和双音节环境中协同发音的情况。研究显示:这套指数对描述辅音的发音部位和发音方法是十分有效的;普通话鼻韵尾的变化是有规律的;辅音声母在协同学喜由曲铂甫序抽旱可而删的  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号