首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
[目的/意义]针对产品评论中的复合句式,实现特征观点对的语义匹配及提取,并明确评论可信度的识别因素及权重,对产品可信评论进行筛选和分析。[方法/过程]基于特征观点对的语义匹配算法实现评论语义指标的量化计算,并采用模糊层次分析法确定可信度指标权重。[结果/结论]实验表明相较于单句提取特征观点对方法,特征观点对的语义匹配算法在召回率、准确率和F-score等性能方面均有较大优势。依据可信度指标对网站产品评论进行筛选,不仅可以评估产品整体的评论可信度,还可以细化到产品特征级别的可信度分析,为用户筛选可信的评论信息并提升购物决策效率。  相似文献   

2.
[目的/意义]为了实现从非结构化的在线评论中有效提取用户需求,文章提出了数据驱动下产品需求识别的方法。[方法/过程]利用Word2vec表示学习方法,获取评论文本内容的语义向量表示;结合K-means算法和LSA模型实现评论文本聚类,识别产品需求主题;在此基础上,通过网络分析方法探索需求主题间的关联关系。以华为手机的评论数据为例进行方法验证。[结果/结论]结果表明,基于语义的文本特征可以取得较好的聚类效果,与传统方法相比,CH指标和SC指标均得到显著提高,验证了该方法的有效性。研究方法和结果能够为企业产品创新和运营决策提供一定参考。[局限]样本数据集规模不够,缺少跨平台实验计算和比较。  相似文献   

3.
[目的/意义]准确把握公众微博评论中所反映的公众观点并总结舆论焦点,有助于及时获取和引导社会舆情态势,对政府公信力、快速响应能力及执行力提升具有支撑作用。[方法/过程]文章针对当前政府微博评论社会功能发挥的现实要求和其文本特征挖掘的技术需求,从基于深度学习的文本智能语义理解和挖掘出发,提出了适用的细粒度四元组标注策略,构建了政府微博评论观点抽取与焦点呈现的深度学习模型POF-BiLSTM-CRF,即通过细粒度标注策略确定、Word2vec训练词向量、BiLSTM评论特征学习进行标签及其概率输出、CRF学习上下文实现微博评论标注优化,以及观点聚类和主题词提取后最终呈现舆论焦点。[结果/结论]针对"中国警方在线"微博评论的实验表明,文章所提研究框架和模型能够有效进行舆论观点的智能化提取,为快速把握公众观点及为政府决策提供了参考。  相似文献   

4.
基于改进特征提取及聚类的网络评论挖掘研究   总被引:1,自引:0,他引:1  
[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤。并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进K-means聚类算法对产品特征进行聚类。[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为92.64%,综合值达到79.07%。在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能。  相似文献   

5.
[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。  相似文献   

6.
基于碎片化UGC的知识元抽取研究   总被引:1,自引:0,他引:1  
[目的/意义]在大数据环境下,从海量的碎片化用户生成内容中抽取具有完整语义的知识单元。[方法/过程]文章提出一种基于碎片化UGC的知识元抽取方法,该方法首先借助BTM主题分割方法从UGC中抽取知识要素,而后基于融合TextRank和Glove词向量的K-means方法实现知识要素聚类,最后根据知识要素相关属性和知识要素聚类结果生成对应UGC知识元。[结果/结论]实验结果显示基于碎片化UGC的知识元抽取方法具有一定科学性和有效性。  相似文献   

7.
本文将聚类分析引入竞争情报分析之中,构建了基于领域本体的竞争情报聚类分析模型。该模型利用竞争情报领域本体指导文本语义分析和标注,抽取特征概念和概念间关系,实现语义层面的文本表示;针对传统的聚类分析算法无法进行深层次的聚类分析,设计了一种基于语义核函数的聚类分析算法进行挖掘分析,实现深层次的聚类分析。实验结果表明,该模型取得了很好的预期效果,显著提高了竞争情报分析的准确率和效率。  相似文献   

8.
【目的/意义】随着旅游网站的增加,游客的网络评论日益增多。针对传统方法在旅游短文本评论主题分类 时出现特征维度过高和数据稀疏等问题,本文提出一种基于卷积神经网络和 SOM的旅游评论主题发现方法。【方 法/过程】首先采用词向量来进行文本表示,降低了特征维度过高问题;其次,通过卷积神经网络对评论文本提取高 阶的抽象特征;最后在通过 SOM 模型基于提取到的抽象特征对主题进行聚类。【结果/结论】实验结果表明, CNN-SOM算法较传统文本聚类算法在准确率、召回率和 F值上都有显著提高,能够更好的进行旅游评论的主题 发现。  相似文献   

9.
【目的/意义】针对基于关键词的科技文献聚类研究进行了一些探讨,包括:使用具有不同特征的关键词来 实现文献聚类在效果上有何差异;如何按特征对关键词进行选择来提高文献聚类效果。【方法/过程】按照关键词词 频与语义类型特征设置对照组进行实证研究,观察其对文献聚类密度及文献语义表示效果的影响。【结果/结论】单 独使用具有超高频、次高频、研究主题或限定范围特征的关键词进行文献聚类能使聚类密度较为合适;超高频特征 通常在其他频次中都具有体现,次高频词能同时反映不同频次的关键词特征,但次高频词对中频词特征的表示不 够全面;将语义类型不同的关键词分开来实现文献聚类,其效果好于将关键词进行组配,语义类型不同的关键词间 存在互斥性。【创新/局限】本文发现了在以关键词间的共现关系为基础来进行文献聚类时单独选择次高频或某一 语义类别的关键词来实现文献聚类具有较好效果,但缺少对关键词间语义结构关系的进一步研究。  相似文献   

10.
为了提高文本聚类的质量和效率,本文提出了一种基于本体图的文本聚类模型。该模型一方面利用本体图表示文本,获取更多、更深的文本语义信息特征,提高文本表示的准确性;另一方面从语法结构和语义内容两个角度综合衡量文本间的相似程度,增强计算的精确性和全面性。实验结果表明,该模型明显优于现有的文本聚类模型,获得了很好的聚类效果,提高了文本聚类的质量和效率,降低了聚类的时间复杂度和空间复杂度。  相似文献   

11.
[目的/意义]实体语义关系分类是信息抽取重要任务之一,将非结构化文本转化成结构化知识,是构建领域本体、知识图谱、开发问答系统、信息检索系统的基础工作。[方法/过程]本文详细梳理了实体语义关系分类的发展历程,从技术方法、应用领域两方面回顾和总结了近5年国内外的最新研究成果,并指出了研究的不足及未来的研究方向。[结果/结论]热门的深度学习方法抛弃了传统浅层机器学习方法繁琐的特征工程,自动学习文本特征,实验发现,在神经网络模型中融入词法、句法特征、引入注意力机制能有效提升关系分类性能。  相似文献   

12.
周春雷  陈艳云  袁扬 《现代情报》2019,39(1):161-168
[目的/意义]寻找识别高价值学术图书的评价方法。[方法/过程]从理论、方法和实践3个角度系统梳理现有的学术图书质量评价研究,发现其中存在的问题并提出对策建议。[结果/结论]学术图书质量评价是图书评价的精细化,其核心在于揭示学术图书的特色知识贡献与价值。本研究发现,虽然现有的图书评价方法多种多样,但普遍缺乏坚实的理论基础,不同程度地忽视或回避了图书价值揭示问题。未来,自然语言处理、语义分析、图书标注等领域的研究工作有望为解决学术图书质量评价研究中的难题带来启发。  相似文献   

13.
[目的/意义] 随着"互联网+"在医疗服务行业的应用与发展,积累了大量的医疗评价信息,利用情感分析技术可以对其进行有效地挖掘和利用,从而为医疗管理提供决策参考。[方法/过程] 基于框架语义理论建立医疗情感语义分类词典;采用词典和规则相结合的方法进行在线医疗评论的情感语义分析,标注情感类别、情感主题、极性和强度等信息。[结果/结论] 通过在线医疗评论数据测试,验证了研究方法的有效性和科学性,是情感分析向医疗健康领域纵深发展的一次有益探索。  相似文献   

14.
文奕  陈文杰  张鑫  杨宁  赵爽 《现代情报》2018,38(4):112-117
[目的/意义]专利信息是人类科学技术进步的结晶,随着社会的发展,专利信息将为促进科技创新发挥日益重要的作用。利用聚类技术可以将海量专利信息进行自动分类,在实现信息有序归并管理的同时,有助于用户高效而全面的获取相关技术领域中的集成专利信息,具有重要的现实意义,传统聚类研究方法效率与准确度存在不足。[方法/过程]本文通过对专利信息服务网站(中国科学院知识产权网)访问日志数据的清洗与分析,生成专利信息点击序列,基于深度学习词嵌入模型,设计了PatentFreq2Vec模型,计算得出专利关联信息。[结果/结论]利用PatentFreq2Vec模型分析计算访问日志数据,能够得到关联专利信息,实现专利聚类,且聚类准确度高于传统方法。  相似文献   

15.
[目的/意义] 提出一种基于在线产品评论的竞争情报挖掘框架,为企业改进产品设计和制定竞争策略提供参考。[方法/过程] 利用Word2vec技术构建产品特征词集合,识别用户评论主题特征。然后使用情感分析方法对评论文本进行分类,得到特征维度的评论情感。最后从产品主题特征和情感态度特征两方面进行数据分析,并以可视化结果呈现。[结果/结论] 以汽车行业的评论数据为例进行实验,结果表明该方法能够有效提取产品情报信息,帮助企业有效识别自身品牌及竞争对手的优势和劣势,为大数据环境下的竞争情报挖掘提供方法指导。  相似文献   

16.
Sentiment analysis is a text classification branch, which is defined as the process of extracting sentiment terms (i.e. feature/aspect, or opinion) and determining their opinion semantic orientation. At aspect level, aspect extraction is the core task for sentiment analysis which can either be implicit or explicit aspects. The growth of sentiment analysis has resulted in the emergence of various techniques for both explicit and implicit aspect extraction. However, majority of the research attempts targeted explicit aspect extraction, which indicates that there is a lack of research on implicit aspect extraction. This research provides a review of implicit aspect/features extraction techniques from different perspectives. The first perspective is making a comparison analysis for the techniques available for implicit term extraction with a brief summary of each technique. The second perspective is classifying and comparing the performance, datasets, language used, and shortcomings of the available techniques. In this study, over 50 articles have been reviewed, however, only 45 articles on implicit aspect extraction that span from 2005 to 2016 were analyzed and discussed. Majority of the researchers on implicit aspects extraction rely heavily on unsupervised methods in their research, which makes about 64% of the 45 articles, followed by supervised methods of about 27%, and lastly semi-supervised of 9%. In addition, 25 articles conducted the research work solely on product reviews, and 5 articles conducted their research work using product reviews jointly with other types of data, which makes product review datasets the most frequently used data type compared to other types. Furthermore, research on implicit aspect features extraction has focused on English and Chinese languages compared to other languages. Finally, this review also provides recommendations for future research directions and open problems.  相似文献   

17.
谢海涛  肖倩 《现代情报》2019,39(9):28-40
[目的/意义]对社交媒体中热门新闻的及时识别,有助于加速正面资讯的投送或抑制负面资讯的扩散。当前,基于自然语言处理的传统识别方法正面临社交媒体新生态的挑战:大量新闻内容以图片、音视频形式存在,缺乏用于语义及情感分析的文本。[方法/过程]对此,本文首先将社交网络划分为众多社群,并按其层次结构组织为贝叶斯网络。接着,面向社群构建基于卷积神经网络的热门新闻识别模型,模型综合考虑新闻传播的宏观统计规律及微观传播过程,以提取社群内热门新闻传播的特征。最后,利用贝叶斯推理并结合局部性的模型识别结果进行全局性热度预测。[结果/结论]实验表明,本方法在语义缺失场景下可有效识别热门新闻,其准确度强于基于语义信息的机器学习方法,模型具有良好的时效性、可扩展性和适用性。该研究有助于社交媒体的监管机构及时识别出各类不含语义信息且迅速扩散的热点内容。  相似文献   

18.
孟旭阳  白海燕  梁冰  王莉 《情报杂志》2021,(3):125-131,7
[目的/意义]资源数字化时代文献服务向知识服务方向转变,高质量的文献自动标引是文献知识服务能力提升的基础和关键,针对目前英文科技文献自动标引准确率不高的问题,提出了基于语义感知的概念遴选优化方法。[方法/过程]基于知识组织系统的自动主题标引,采用自然语言处理中的神经网络词向量技术,对概念和英文文献内容语义进行表示并进行语义感知与评估,实现概念标引结果在语义层面的遴选。该方法采用基于知识组织系统与自然语言处理技术相结合的方法,弥补了在语义层面上的不足,从而进一步降低不相关概念的影响,提高概念标引结果的准确率。[结果/结论]实验结果表明,该方法具有较好的语义感知性能,在概念遴选上有效降低了不相关概念,大大提高了标引结果的文献相关性,为科技文献资源知识化服务建设和相关研究提供有价值的参考和支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号