首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 812 毫秒
1.
说话人识别是语音识别的一种特殊方式,其目的不是识别语音内容,而是识别说话人是谁,即从语音信号中提取个人特征。采用矢量量化(VQ)可避免困难的语音分段问题和时间归整问题,且作为一种数据压缩手段可大大减少系统所需的数据存储量。本文提出了识别特征选取采用复倒谱特征参数和对应用VQ的说话人识别系统改进的一种方法。当用于训练的数据量较小时,复倒谱特征可以得到比较稳定的识别性能。VQ的改进方法避免了说话人识别系统的训练时间与使用时间相差过长从而导致系统的性能明显下降以及若利用自相关函数带来的大量运算。  相似文献   

2.
在VC++环境下,提取PLAR特征参数,基于听觉特性和语谱特性的语音增强器作为预处理器,对语音信号首先进行降噪处理,建立了基于DTW的抗噪声说话人识别系统.实验结果表明,即使在信噪比比较低的情况下,该系统都会在一定程度上提高多种噪声环境下说话人识别系统的识别性能.  相似文献   

3.
说话人识别系统是在语音信号中提取说话人信息来鉴别说话人身份.整个系统以DSP处理器为核心结构,进行训练和识别语音信号.采用LPC和DTW作为核心算法来进行说话人识别.  相似文献   

4.
基于二维情感空间的语音情感识别   总被引:1,自引:0,他引:1  
为提高语音情感的正确识别率,在利用反映"激发维"维度信息的韵律特征基础上,提出了采用反映"评价维"维度信息的音质特征作为新的情感特征使用。再将韵律特征参数和音质特征参数结合并用于语音情感识别,并采用支持向量机分类器实现对汉语生气、高兴、悲伤、厌烦和中性五类情感的识别。试验结果表明,基于"激发维"和"评价维"二维情感空间取得的情感总体平均正确识别率为84%,比基于"激发维"一维情感空间取得的识别率高出了12%。可见同时考虑从"激发维"和"评价维"二维情感空间进行语音情感识别,识别结果得到了较大改善。  相似文献   

5.
基于支持向量机的语音情感识别   总被引:6,自引:0,他引:6  
针对语音情感识别特征识别问题,本利用支持向量机进行了研究.分析表明语音信号的情感特征参数在输入空间中不完全是一个线性分类的问题,使用非线性的核函数对输入空间进行映射可以有效地提高识别效率.与已有的多模式语音情感识别方式相比,利用高斯(径向基)核函数的支持向量机的识别效果优于其他已有的方法.  相似文献   

6.
在与人交互情况下,针对物体识别系统通过反馈信息自动优化识别能力问题,提出一种结合梯度直方图(HOG)特征提取和支持向量机(SVM)进行特定物体识别的方法。运用Tensorflow训练语音识别模型反馈人机交互信息,使系统实现自优化。以手表类别作为识别对象,通过HOG特征描述对手表进行特征提取,通过二维主成分分析(2DPCA)和线性判别分析(LDA)对整体和局部特征进行降维,运用改进的空间金字塔匹配模型通过SVM对其分类,并运用非极大值抑制(NMS)确定区域,运用训练的梅尔倒谱(MFCC)特征语音识别模型对反馈信息进行识别,最终整合信息优化识别系统。实验表明,该系统对手表有较高的识别率,并能通过人机交流在较短时间内使系统实现自优化。  相似文献   

7.
借助语音增强、基音频率分析和共振峰分析,设计了简单的说话人识别系统.在识别过程中以平均基音频率、共振峰峰值位置作为两种评价标准,交互印证,最终实现了说话人的身份辨认.  相似文献   

8.
刘并竹 《考试周刊》2010,(4):237-238
语音识别技术是最近十年信息技术领域重要科技发展技术之一.现在的绝大多数家电都是采用单独的遥控器.各自通过独立的微处理芯片进行控制。智能家庭语音识别系统是一种集成的嵌入式系统,它是一种非接触识别技术.通过用户的声音控制家电的操作。本文作者通过对目前声音识别系统发展的了解与市场做菜辅助用具的调查,针对相关辅助用具在使用过程中所存在的一些问题.创造性地提出了采用智能声音识别技术的一款多功能厨具.而声控系统的应用使得该产品操作更方便。  相似文献   

9.
黄浩  朱杰 《东南大学学报》2007,23(2):174-178
提出了2种解决汉语语音识别中声调问题的方法:利用区分性方法对基于隐马尔可夫模型(HMM)的声调模型进行训练;提出将区分性训练的声调模型加入大词汇量连续语音识别系统的最优方法,该方法根据最小音子错误的训练准则以及利用扩展Baum-Welch算法区分性训练与模型相关的概率权重,对声学模型以及声调模型概率进行加权.实验结果表明区分性训练的声调模型能够显著地提高连续语音声调识别率以及大词汇量语音识别系统的识别率,同时区分性的模型权重训练能够在区分性声调模型加入连续语音识别系统之后进一步提高系统的识别性能.  相似文献   

10.
根据说话人识别系统结构,为了使系统识别率得到有效提高,在特征提取方面,将美尔倒谱系数与其一阶差分结合在一起形成新的特征参数。在识别算法方面,对基本的VQ识别算法进行了改进,提出了一种新的矢量量化识别方法,即基于方差的加权失真测度的矢量量化,并通过大量实验进行了论证。  相似文献   

11.
以DSP实现基于概率DP匹配算法的说话人识别系统   总被引:1,自引:0,他引:1  
提出了利用概率DP匹配算法进行说话人识别的的设想。并给出了运用TMS320C5416实现说话人自动识别系统的方案。该系统利用一种新的语音信号r阶的倒谱线性回归系数等参数构成识别的特征矢量集,运用提出的概率DP匹配算法进行与文本无关的说话人识别。实验结果表明该系统具有识别精度高、识别速度快,占用系统资源少等特点,是一种有效的说话人自动识别的实现方法。  相似文献   

12.
将基于多个嵌入图组合形式的半监督判别分析(SDA)以及核SDA(KSDA)应用于全监督的语音情感识别.在语音信号样本情感成分的预处理阶段,从样本语段中提取出多种特征及其统计参数,包括基音、过零率、能量、持续长度、共振峰和MFCC(Mel频率倒谱系数).在将样本特征送入分类器之前的维数约简阶段,使用经过参数优化的SDA或KSDA进行降维.Berlin语音情感数据库上的实验表明,在使用多类SVM分类器时的全监督语音情感识别中,SDA优于其他一些先进的基于谱图学习的维数约简算法,如LDA,LPP,MFA等,而KSDA通过核化的数据映射,能够取得比上述所有算法更好的识别效果.  相似文献   

13.
Speaker variability is an important source of speech variations which makes continuous speech recognition a difficult task. Adapting automatic speech recognition (ASR) models to the speaker variations is a well-known strategy to cope with the challenge, Almost all such techniques focus on developing adaptation solutions within the acoustic models of the ASR systems. Although variations of the acoustic features constitute an important portion of the inter-speaker variations, they do not cover variations at the phonetic level. Phonetic variations are known to form an important part of variations which are influenced by both micro-segmental and suprasegmental factors. Inter-speaker phonetic variations are influenced by the structure and anatomy of a speaker's articulatory system and also his/her speaking style which is driven by many speaker background characteristics such as accent, gender, age, socioeconomic and educational class. The effect of inter-speaker variations in the feature space may cause explicit phone recognition errors. These errors can be compensated later by having appropriate pronunciation variants for the lexicon entries which consider likely phone misclassifications besides pronunciation. In this paper, we introduce speaker adaptive dynamic pronunciation models, which generate different lexicons for various speaker clusters and different ranges of speech rate. The models are hybrids of speaker adapted contextual rules and dynamic generalized decision trees, which take into account word phonological structures, rate of speech, unigram probabilities and stress to generate pronunciation variants of words. Employing the set of speaker adapted dynamic lexicons in a Farsi (Persian) continuous speech recognition task results in word error rate reductions of as much as 10.1% in a speaker-dependent scenario and 7.4% in a speaker-independent scenario.  相似文献   

14.
基于音素的话者特定英语命令识别   总被引:2,自引:0,他引:2  
1 Introduction Sincethe 195 0s ,speechrecognitiontechnologies ,bothspeaker dependentandspeaker independent ,withsmallorlargevocabulary ,andusingisolatedorconnectedwords,orcontinuousspeech ,havedevel opedandbeenwidelyapplied .Recentlyithasbecomeadominanttechnologyforhuman machineinterface .Speechrecognitionisbasicallytreatedasaproblemofpatternmatching .Thegoalistotakeonepattern ,i .e .,thespeechsignal,andclassifyitasasequenceofpreviouslylearnedpatterns ,e.g .,wordsorsubwordunitssuchsphonems[1…  相似文献   

15.
论艺术语言是一种情感的行为   总被引:1,自引:0,他引:1  
语言是人们交际时反映客观世界和心理行为的载体。语言的选择使用表现了人类交际的目的性、语言的功能性和自然性,反映了发话主体的言语行为和心理行为,即理性行为和情感行为。科学语言是发话主体的理性行为的载体,艺术语言是发话主体的情感行为的载体。艺术语言的情感行为属于发话主体的审美行为。它表现为一种情象,即意象方式。它反映情感时的核心是借助于情感因素的互渗的表象,这表现了艺术语言的情感的运思过程和艺术语言的审美发现。  相似文献   

16.
本研究考察莫扎特音乐以及不同诱发唤醒度和不同情绪类型的音乐对3~5岁幼儿面部表情(高兴、悲伤和中性表情)识别的影响。结果表明:与同是高唤醒度正性情绪的音乐相比,具有高结构性和周期性的莫扎特音乐反而会对幼儿的表情识别产生干扰;而聆听低唤醒度负性情绪的音乐有利于幼儿大脑达到适当的觉醒水平,进入适当的情绪状态,从而对其表情识别产生促进作用。  相似文献   

17.
智障儿童的情绪识别能力存在基本情绪识别困难、各类识别任务表现不同、情绪加工方式偏好和特定性综合征差异四个主要特征。在解释智障儿童情绪识别主要特征时,传统认知理论的认知-智力局限假说和情绪特异性假说均孤立地看待身体与大脑,属于身心二元论。具身认知理论则强调身体及所处环境在情绪识别中的重要作用,从情绪体验、情绪刺激和加工方式三个角度进行解释。因此,在智障儿童的情绪识别干预中,应重视为其创设具身性情境,并提供情绪模仿和参与互动性游戏的机会,从而改善情绪识别能力。  相似文献   

18.
提出了一种新的语音识别方法,该方法综合了VQ和离散HMM算法,在每个状态通过用矢量量化误差值取代传统的HMM输出概率值来建立VQ-HMM.介绍了VQ-HMM,并通过非特定人汉语数码语音识别实验对其识别性能与传统的HMM作了相应的比较.实验结果表明该方法识别效果优于传统的HMM.,In this paper, a new speech recognition method was proposed, which integrated a VQ-distortion measure and a discrete HMM. The VQ-HMM uses a VQ-distortion measure at each state instead of a discrete output probability used by a discrete HMM. The VQ-HMM is described, and its speech recognition performance is compared with the conventional HMMs through the experiments on speaker-independent Chinese spoken digit recognition. The comparisons confirm that the new method over-performed traditional HMMs.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号