首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
查询扩展是信息检索领域重要研究内容。为了解决信息检索过程中用户提交查询时描述不准确以及查询词不匹配的问题,提出一种基于Word2vec的语义查询扩展方法。使用分布式神经语言概率模型Word2vec训练低维词向量,选取扩展词候选集,利用面向扩展词的查询向量生成方法过滤候选集,使选取的扩展词能更有效地体现整个查询的语义及语法相关性。实验结果表明基于Word2vec的语义查询扩展方法使查全率及查准率均有提高,因此该方法能很好地应用于查询扩展领域。  相似文献   

2.
为弥补目前国内学者只做单一算法研究且语料单一的缺陷,使用Word2vec词向量模型结合支持向量机(SVM)、卷积神经网络(CNN)和长短期记忆网络(LSTM)3种不同分类算法,研究了不同中文文本分类问题,包括微博语料的多维细粒度情感分类、酒店评价的倾向性分析和新闻文本的主题分类。将3种分类模型在不同文本中的分类效果进行对比,结果显示这3种算法对于不同的中文分类效果各有不同:不同维度的词向量对准确率等评价指标影响很大;支持向量机模型更适合于细粒度的微博情感分类;卷积神经网络、长短期记忆网络算法更适合于噪声小、文本长且规范的新闻主题分类任务。分类粒度会对算法准确性产生影响,粒度越细、任务越复杂,算法准确性越低。  相似文献   

3.
为确定歌词隐含的情感主题对音乐分类的作用,在传统主题模型中融入情感、语义元素,定义基于情感主题的音乐分类标准并进行音乐分类。结合文本情感词典、Word2vec词向量空间,将主题模型的基础主题进一步归类为情感主题,并通过爬取网易云音乐歌曲信息进行模型训练及测试。实验证明,该模型具有较好的分类效果,对音乐情感分类平均准确率达到80%。  相似文献   

4.
情感分析可以帮助商家了解客户喜好从而生产出满意度更高的商品,也可以监督网上舆论等。为此,基于传统机器学习方法,加入深度学习模块,对在线评论进行情感分析与对比。在词向量训练模块中引入Word2vec模型,用高维向量表示词语、句子,既可防止过度拟合问题,又可减少训练参数个数,提高训练效率。将得到的句向量作为输入代入机器学习模型(MLP、SVM、朴素贝叶斯等)与深度学习模型(CNN、LSTM、BILSTM等),比较实验结果,提出优化方向。结果表明,基于深度学习的情感分析模型准确率明显高于单一机器学习模型,但是深度学习需要大量语料,对实验机器要求也较高,很难完全展现其魅力。  相似文献   

5.
随着互联网的迅猛发展,网上健康信息以几何速度增长,其中大量虚假健康信息给人们的生活带来了很大影响,但目前对虚假健康信息文本识别的研究非常缺乏,以往研究主要集中在识别微博上的谣言、伪造商品评论、垃圾邮件及虚假新闻等方面。鉴于此,采用基于词向量的深度神经网络模型和基于双向编码的语言表征模型,对互联网上流传广泛的健康信息文本进行自动分类,识别其中的虚假健康信息。实验中,深度网络模型比传统机器学习模型性能提高10%,融合Word2vec的深度神经网络模型比单独的CNN或Att-BiLSTM模型在分类性能上提高近7%。BERT模型表现最好,准确率高达88.1%。实验结果表明,深度学习可以有效识别虚假健康信息,并且通过大规模语料预训练获得的语言表征模型比基于词向量的深度神经网络模型性能更好。  相似文献   

6.
针对支持向量在分类过程中,特别是对于非线性可分问题,如果采用不同的核函数,支持向量机(SVM)可以构造不同的学习机器和分类模型,从而导致分类算法复杂且分类精度较低。研究了SVM的轴承诊断原理,测试诊断方案及原始测试数据的特征提取,最后进行了数据训练和测试实验仿真,然后对风力发电机组机械故障进行诊断,实验说明了改进后的SVM故障分类方法的可行性和有效性。在建立故障分类模型之后,采用网格搜索法、遗传算法、粒子群算法对支持向量机的惩罚参数C和径向基核函数参数γ进行优化选择,通过分析发现故障分类精度提升比较明显。  相似文献   

7.
采用用户历史查询词构建用户画像时,现有向量空间模型存在特征稀疏和上下文依赖性强的问题。针对该问题,通过引入 LDA 主题模型,首先提取查询词潜在主题,得到查询词对应的主题分布;然后将概率最大的主题对应的词扩充到原始特征空间中,丰富用户特征;最后采用 SVM 分类算法对用户基本属性进行分类,构建用户画像。实验表明,利用 LDA 模型对用户特征进行扩展比传统向量空间模型用户画像精度提高了 1.6%。  相似文献   

8.
针对网络流量识别问题,提出一种基于支持向量机(SVM)的网络流量识别模型。首先通过流量特征提取模块,提取适合在支持向量机中识别网络流量的6个主要特征。对数据进行清洗、预处理以及训练和学习,从而实现整个基于SVM的网络流量识别系统。实验结果表明,经过交叉检验选择参数后,再用支持向量机模型进行训练和学习,可以取得较好的分类效果。  相似文献   

9.
随着社交网络的不断发展,微博成为越来越多的人获取信息的平台。为了有效解决微博话题检测中海量短文本带来的词稀疏问题,提出结合全局向量模型(GloVe)和潜在狄利克雷分布(LDA)的GV-LDA模型。在使用LDA进行话题检测前,模型利用多义词词项的含义与词性相关的事实,在标注过并去除低频词的语料上,对全局向量模型进行训练获得词向量,对词性相同且相似度大于阈值的词进行替换以解决稀疏性问题。实验结果表明, GV-LDA模型较传统的LDA主题模型,可有效提高话题检测的准确率和召回率,并降低“主题词”处理的维度,因此GV-LDA更适合微博话题检测。  相似文献   

10.
弹幕是最近比较流行的在线视频评论方式,因其内容为自发用户发出,可能带有大量的不和谐性,因此如何识别弹幕中的中文文本内容,文中使用了命名实体识别方法,针对弹幕文本规范化处理和研究,通过采用 Word2vec 方法进行词向量训练,以期望达到合理识别的效果。  相似文献   

11.
介绍了AAM基本理论,提出基于AAM+PCA+SVM的人脸表情识别方法.首先获取人脸样本的纹理模型和形状模型,然后利用主成分分析(PCA)建立AAM模型,将该统计模型的AAM应用到人脸特征点定位,对人脸表情进行特征提取,将PCA训练用于识别的支持向量机过程中,并进行分类.实验表明该方法降低了算法的时间复杂度,定位准确率高,同时不影响人脸表情的识别率.  相似文献   

12.
鉴于甲状腺结节良恶性的判别十分依赖于有效特征的提取,提出基于DLBP与RLBP模型相结合的局部纹理特征提取算法,首先利用RLBP模型解决图像旋转不变问题,然后与DLBP模型相结合对RLBP模式特征进行选择与降维,再与纵横比、圆形度、紧致度等形状特征相结合并输入到SVM分类器中。为了进一步提高识别率,提出基于粒子群算法与网格搜索算法相结合的SVM参数优化算法。实验结果表明,该模型提取的特征用于分类识别时较上述各种模型及传统的旋转不变等价ULBP模型能获得更高的识别率,且提出的参数寻优算法相比于传统寻优算法效率更高。  相似文献   

13.
垃圾邮件处理作为一种典型的文本分类应用问题,受到高维数据的困扰。为提高垃圾邮件检测的效率和准确率,提出一种基于PLS特征提取和SVM的入侵检测算法,首先对原始垃圾邮件数据利用偏最小二乘算法降低维度,再采用遗传算法寻优转换特征子集,并通过支持向量机SVM进行分类。 Matlab仿真实验表明,本算法能有效降低数据维数,提高检测的准确率。  相似文献   

14.
利用错误驱动法、支持向量机法和隐马尔可模型三种方法对汉语文本进行名词短语识别,对实验进行比较分析,结果表明SVM与HMM的识别效果总体上要好于错误驱动法,HMM法在封闭测试中优势明显.研究表明错误驱动法应用于解决从语料库中学习转换规则的传统问题;SVM方法适用于解决两类别的分类问题;而HMM方法侧重应用在与线性序列相关的现象上.  相似文献   

15.
互联网的飞速发展为大众带来便利的同时也产生了大量冗余信息,利用自然语言处理技术对新话题文章进行提取,控制新话题中虚假新闻传播,可为舆情控制提供有效支持。提出一种基于词聚类信息熵的新闻提取方法,并对“一带一路”相关新闻语料进行实验。实验通过网络爬虫的方式获取相关报道,利用Pkuseg工具分词进行一系列预处理后训练生成Word2vec词向量,然后利用词频统计筛选出历史高频词进行K-means聚类,将聚类后的词簇作为随机变量计算当前文章的信息熵。若文章的信息熵高于设定阈值,则为新话题文章,需要重点关注。结果表明,该方法在阈值设置为0.65时,新闻提取结果的准确率可达到84%。  相似文献   

16.
从自然语言处理技术(NLP)入手,对比TFIDF与Word2vec方法抽取结果,探讨更适用于中医医案症状信息自动化抽取的研究思路,为发展中医医案的自动化分析提供参考.在构建好的医案词典基础上,利用TFIDF与Word2vec方法分别对心系医案数据进行症状抽取,并对结果进行对比分析.在医案中,病人发病往往伴有心悸、胸闷、...  相似文献   

17.
手势识别技术可有效提高移动终端操作效率。通过移动终端加速度传感器捕获手势执行过程中的三维加速度信号,经过预处理、特征提取之后,采用机器学习方法SVM,建立相应的SVM分类模型,并利用该识别模型实现手势动作。实验结果表明,该方法具有较高的识别率并在移动终端上得到应用。  相似文献   

18.
《集宁师专学报》2017,(6):37-41
网络敏感词分析是舆情监控系统的关键,该文介绍了Spark、Flume、kafka等用于系统架构的主要开源组件,分析了敏感词分析中主要用到的Han LP中文分词和命名实体识别两大组件,以及利用Word2vec训练词向量组件进行相似度判断的算法原理及时间复杂度比较,根据高校网络用户流量特征,提出了舆情监控的系统架构设计,最后展示了系统原型实现,并对其进行了探讨及前景展望。  相似文献   

19.
分析了基于支持向量机(SVM)的文本分类方法,在此基础上,提出一种由SVM和概率统计方法相结合的文本分类方法。详细介绍该方法的实现原理、算法描述和工作流程,并进行实验测试。  相似文献   

20.
近年来,随着智能移动设备的普及,人们可以随时随地通过网络社交媒体获取与分享信息。然而,便捷的上网方式以及自由的网络空间,也为网络谣言的产生与传播提供了条件,广泛传播的谣言可能具有极大的破坏性。因此,及时识别谣言对于保障社会稳定具有重要意义。使用词嵌入对微博短文本进行向量化处理,然后使用朴素贝叶斯、K最近邻和支持向量机对文本向量进行主题分类,以期及时发现具有周期性出现特点的谣言。将该模型在中文谣言真实数据集上进行有效性验证,使用5 487条数据作为训练集,2 703条数据作为测试集进行分类实验。实验结果表明,K最近邻模型相比于朴素贝叶斯模型及支持向量机模型,在谣言主题分类任务中表现最佳,其F1值和分类准确率都达到0.93,表明基于词嵌入的谣言主题分类方法可及时发现周期性谣言。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号