首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 358 毫秒
1.
为改善传统个性化推荐算法精准度不高的问题,使用评论数据作为数据集,先对评论数据作文本预处理和特征提取,然后使用LDA主题模型对文本特征数据建模,得到主题词分布,将其作为标签,同时使用LSTM网络作文本分类,通过计算得到好评率。最后把用户需求和标签利用潜在语义标引计算相似度,根据相似度和好评率大小向用户推荐结果。实验结果表明,该方法能够向用户推荐符合其兴趣的个性化需求信息,且准确率高于96%,证明了该推荐算法的有效性。  相似文献   

2.
根据土壤数据进行作物推荐是农业大数据应用的重要内容之一.针对现有土壤数据推荐模型忽略土壤文本域信息、土壤数据交叉特征表达能力不足和无差别对待交叉特征问题,提出一种融合注意力机制的深度交叉网络作物推荐模型.首先,该模型对土壤文本数据通过向量化嵌入转化成低维稠密向量;然后通过注意力机制训练稠密向量交叉特征的权重;再连接数值...  相似文献   

3.
传统协同过滤算法仅利用评分信息进行推荐,而没有利用到更多用户特征与电影特征,推荐效果不佳。深度学习的普通应用,为特征提取打下了良好基础。通过爬取网站上的电影演员信息表,使用卷积神经网络对文本信息进行特征提取,采用结合注意力机制与场感知因子分解机的混合推荐方法,并使用用户—电影特征矩阵进行训练。在公开数据集 MovieLens 上进行实验测试,RMSE 达到 0.850,与 5 组推荐模型进行对比,RMSE 分别提18.0%、11.3%、7.60%、25.7%、6.80%。实验结果表明,该模型可以提高推荐效率。  相似文献   

4.
评论文本中的词符合幂律分布,使LDA模型词的分布偏向高频词,导致主题相似度大,表达能力下降。提出幂函数加权LDA(Latent Dirichlet Allocation)模型以提高低频词的表达能力。使用iForest算法,选择出与众不同且具有价值的评论集合。实验结果表明,选择的评论子集特征覆盖率较高,且有较高的平均信息量。  相似文献   

5.
用于改善web搜索的结构化数据抽取技术   总被引:1,自引:0,他引:1  
为了提高web文本搜索质量,提出了基于语义结构化数据的查询扩展方法.通过分析属性的语义特征(文档频率特征和辨识能力特征)将属性分为概念属性、背景属性和无用属性3类,并且提出了衡量属性语义相关度的标准.设计了trie-bitmap和pair pointer table数据结构来实现发掘属性语义特征和检测属性语义相关度的有效算法.通过使用合适的属性和它们的语义关系,可以为查询关键字生成扩展词并将它们嵌入到具有插值参数的向量空间模型中.实验使用IMDB电影数据库和真实文本数据集来比较所提方法和原始向量空间模型的性能.实验结果证明所提出的查询扩展方法可以有效地提高文本搜索性能,同时属性语义特征和属性语义相关度都具有良好的分类能力.  相似文献   

6.
新闻文本分类是长文本分类的典型问题,因此提取词与词之间的关系特征就尤为重要.提出了基于双向Transformer编码表示的预训练模型(Bidirectional Encoder Representations from Transformers, BERT)和双向长短时记忆网络(Bi-directional Long Short-Term Memory, BiLSTM)以及注意力机制的对抗训练分类模型(BBA-AT).将预处理新闻文本数据经过BERT进行训练得到词嵌入编码,在训练后的词向量级别上进行扰动达到数据增广的效果,以此来进行对抗训练,之后通过双向长短时记忆网络对数据集进行编码提取双向语义表征.本文提出的BBA-AT模型F1值在TNEWS数据集上比BERT模型提升了1.34%.  相似文献   

7.
在商品推荐领域,商品评论信息往往难以得到有效利用。为了充分利用商品评论信息,提高商品推荐系统精度,对 NCF 神经网络协同过滤模型进行改进,将 NCF 模型与 Inception 结构的卷积神经网络相结合,提出基于 Inception 结构的神经网络协同过滤方法(NCF-i 模型),将商品评论信息融入模型进行预测和推荐。首先基于 Inception 结构的卷积神经网络对商品评论信息进行分析并提取多元特征模型,然后将多元特征模型添加到 NCF 模型中,通过多层全连接层获取用户、商品及商品评论之间的非线性关系,最后基于此非线性关系对商品进行预测和推荐。通过基于真实数据集的实验证明,应用 NCF-i 模型的推荐算法,推荐系统的预测精度和稳定性均优于当前常用的推荐模型。  相似文献   

8.
为了解决软件众包任务定价决策阶段可用信息有限的问题,提出一种基于层次注意力模型的软件众包定价方法。利用层次注意力模型提取软件众包任务需求文本语义特征,可以在需求文本中自动发掘与任务价格相关的有效信息。此外,将文本划分成词和句两个层次对全文进行有重点的表示,可以更好地表示文本特征。实验结果表明,该方法能够有效克服生产环境的局限性,降低特征提取难度,并在一定程度上提高了预测性能。  相似文献   

9.
一、什么是张力"张力"一词,最早见于物理学。文学张力与物理学上的张力有相似的特质,但分而论之,文学张力又具有以下四个特征:其一,多义性。文学张力追求文本的充盈感,其基础在于文本  相似文献   

10.
在传统推荐系统中,通常基于协同过滤推荐算法挖掘评分中的隐含特征,但在实际应用中,评分矩阵往往十分稀疏,很难充分地表示用户偏好特征与物品描述特征。为了充分挖掘评论文本中的隐含特征,并在一定程度上缓解数据稀疏性问题,提出一种深度协同过滤模型(CFiCNN):融合卷积神经网络的协同过滤模型。该模型利用卷积神经网络抽取用户-物品评论数据中的隐含特征,基于协同过滤的矩阵分解方法,进行评分预测。在4个真实数据集上对该模型进行了评估实验,并与3个常用模型进行对比。实验结果表明,该模型能够很好地抽取到用户与物品的隐含特征,并且进行更准确的评分预测。  相似文献   

11.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。  相似文献   

12.
颜色词在汉语中是一类丰富多彩且自身具有多种语义特征的词群,它的语义特征主要体现在多义性、修辞性和文化性上,并且这三种语义特征关系相辅相成、密不可分。颜色词多义性的产生是由于其修辞性和文化性共同作用的结果,而多义性又为丰富修辞性和文化性奠定了基础。运用语义特征理论来分析汉语颜色词可以进一步理解颜色词的丰富多样性和它在日常生活中的功能作用。  相似文献   

13.
近年来,电子商务发展迅速,对电商商品评论进行情感分析可为消费者购物、商家调整销售策略与电商平台个性化推荐提供重要参考意见,因此提出双通道卷积记忆神经网络文本情感分析模型。首先,通过词向量与由特征词典构造的扩展特征矩阵两个不同的通道进行卷积运算,再利用卷积神经网络提取文本局部最优信息,最后利用长短期记忆神经网络学习长距离的上下文情感,完成文本情感分析任务。实验结果表明,与多种文本情感分析方法相比,双通道卷积记忆神经网络文本分析算法具有较高的精度,达到95%,且考虑了文本语义信息与文本情感信息,可获得更好的文本表示,同时兼顾文本局部特征与上下文信息的学习,可有效提高文本情感分析准确率。  相似文献   

14.
基于〈产品特征,情感词〉关联对的缺点,讨论了情感词与否定性副词搭配的必要性,提出了〈Pfeature,FIag,sword〉关联三元组,能够更准确地表达文本中相关评论句对产品特征的情感倾向。采用两个步骤来提取关联三元组:首先,利用已训练好的最大熵模型作为分类器,结合Bootstrapping方法完成了产品特征与情感词语关联对的抽取;其次,将情感词前的否定性副词抽取出来,合成关联三元组。  相似文献   

15.
近年来,随着智能移动设备的普及,人们可以随时随地通过网络社交媒体获取与分享信息。然而,便捷的上网方式以及自由的网络空间,也为网络谣言的产生与传播提供了条件,广泛传播的谣言可能具有极大的破坏性。因此,及时识别谣言对于保障社会稳定具有重要意义。使用词嵌入对微博短文本进行向量化处理,然后使用朴素贝叶斯、K最近邻和支持向量机对文本向量进行主题分类,以期及时发现具有周期性出现特点的谣言。将该模型在中文谣言真实数据集上进行有效性验证,使用5 487条数据作为训练集,2 703条数据作为测试集进行分类实验。实验结果表明,K最近邻模型相比于朴素贝叶斯模型及支持向量机模型,在谣言主题分类任务中表现最佳,其F1值和分类准确率都达到0.93,表明基于词嵌入的谣言主题分类方法可及时发现周期性谣言。  相似文献   

16.
词向量在自然语言处理中起着重要作用,近年来受到越来越多学者关注。然而,在词向量研究中,基于Word2vec词向量的应用研究居多,对于GloVe词向量的应用研究却很少。因此,将GloVe词向量模型与支持向量机(SVM)相结合,利用GloVe词向量模型进行特征提取与选择,利用SVM进行分类,并与Word2vec词向量结合SVM作实验对比。实验结果表明,GloVe词向量特征提取与SVM分类相结合的方法能够取得较好的准确率、召回率及F值,因此在新闻文本分类中具有一定应用价值。  相似文献   

17.
为了提高滚动轴承性能退化评估中退化指标的早期故障敏感性和稳定性,提出了一种基于嵌入选择的邻域保持嵌入(ESNPE)方法.首先,采用变分模态分解(VMD)对获得的振动信号进行分解,提取各本征模态分量的奇异值和相对能量等组成高维故障特征集.然后,采用NPE流行学习方法提取特征空间内的嵌入特征.针对传统NPE存在有效嵌入信息容易被抑制的问题,构建了一种基于Spearman相关系数的嵌入选择策略.该策略通过相关系数的大小衡量嵌入特征的有效性,并通过一阶差分的方法在轴承退化的早期阶段确定并保留有效嵌入特征.最后,采用支持向量数据描述(SVDD)模型构建性能退化指标,实现轴承性能退化评估.使用轴承全寿命退化实验数据,并与传统的主成分分析(PCA)方法和NPE方法特征提取分析结果进行对比,验证了所提方法在提升退化指标早期故障敏感性和稳定性方面具有优越性.  相似文献   

18.
近年来,如何利用计算机自动、快速、准确地识别大量文本产品评论数据情感倾向是自然语言处理领域关注的重点话题。使用数据抓取软件,抓取亚马逊官网华为honor畅玩版4X手机在线评论进行实验,实验中按照一定的语法规则将每条完整的在线产品评论分成若干子句,识别其中有效子句,提取有效子句评论中多种特征进行组合,然后选用C4.5决策树机器学习法来识别子句的情感倾向,并对多组实验结果进行分析对比。实验结果表明,选择子句中情感词数量和否定词数量作为特征组合时,加权后模型的查准率和查全率均达到96%;程度副词和特殊符号对模型的作用比较微弱,仅有1%的影响;程度副词的作用略优于特殊符号。  相似文献   

19.
为探究大学生在英语写作中所使用文本导向词块的特征,本文借助中国学生万篇英语作文语料库(TECCL)和语料分析工具AntConc4.1.2对6869篇大学生英语作文进行统计,聚焦分析其中四词和五词文本导向词块的结构特征和功能特征。结果发现,在结构特征上,介词结构是使用频率最高的结构类型,而名词结构和动词结构明显使用频率不高,且文本导向词块的使用表现出核心词匮乏的情况;在功能特征上,文本导向词块实施了附加、因果和引用等语篇功能和逻辑关系,但存在误用、文本衔接不紧密和连贯性不足等问题。此结果产生的原因一方面是大学生对特定词块的过度依赖,另一方面是大学生对文本导向词块功能和用法掌握不当。此研究对大学英语学习者和英语写作教学有一定的启示意义。  相似文献   

20.
关键词抽取技术能从海量产品评论文本中挖掘出用户关注的焦点,方便后续为用户推荐合适的产品。经典关键词抽取算法TextRank在迭代计算词汇节点的重要性得分时,忽略了邻近词汇节点的影响力差异。为此,提出一种融合TFIDF与TextRank算法(简称TFTR)抽取评论中的关键词。首先,通过引入用户浏览评论后给出的评论有用性反馈,提高有效评论中出现的重要词语权重,对TFIDF算法进行改进。然后将改进后的词频逆文档频率作为词节点特征权重引入到TextRank算法中,以改进词汇节点的重要性得分分配过程。实验结果表明,相比传统的TextRank算法,TFTR算法提取出的产品评论关键词准确性在P@10标准下提高了15.7%,证明了该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号