共查询到10条相似文献,搜索用时 209 毫秒
1.
随着互联网规模的急剧扩张,提升信息检索的效用变得相当困难.本文首先通过特定算法提取每篇文档的关键词,然后运用统计方法计量不同文档的共现关键词并形成相应的共现关键词标签矩阵,最后利用层次聚类算法对共现关键词标签进行聚类并形成相应的层次标签树来构造文档聚类束.该方法可以对源搜索引擎返回的结果进行有效的分类,使用户在更高主题层次上查看检索词的相关信息,准确地找到感兴趣的信息.通过与Lingo算法的比较,显示本文算法所得的标签更具可读性和概括性,同时F-measure评价指标也表明本算法在文本聚类的质量上有了一定的提升. 相似文献
2.
3.
提出一种基于N元语法的英文学术文献聚类标签抽取算法,该算法利用N元语法在大规模语料库上进行先期学习生成领域短语词表,再通过K-means算法进行聚类,从聚簇中抽取N元语法项计算TFIDF值,对出现在词表中的特征项赋以更高的权值,以得分最高的特征项作为聚类标签。实验结果表明,该算法能获得更好的实验效果。同时,在抽取聚类标签时提出一种改进的TFIDF权重计算,在评价标签质量时提出一种新的标签评价方法R@N方法。 相似文献
4.
随着Internet和电子商务的迅猛发展,聚类技术在Web用户划分方面的作用越来越明显.Web用户聚类的难度在于有成千上万的用户需要聚类,而且每个用户的偏好向量是高维稀疏的.对于处理大规模的数据集,近邻传播算法是一种快速、有效的聚类方法.但面对高维稀疏的数据,近邻传播算法往往不能得到很好的聚类结果,而且该方法不能产生指定类数的聚类.本文提出一种改进的近邻传播算法,使用该方法对Web用户进行聚类.根据灰关系等级和Jaccard系数定义用户相似度矩阵,对算法产生的初始聚类进行重新分配,获得指定类数的聚类.实验结果表明新算法是有效的,与原始近邻传播算法相比,新算法在个性化推荐的应用中具有更好的性能. 相似文献
5.
社会化标签系统中基于密度聚类的Web 用户兴趣建模方法 总被引:1,自引:0,他引:1
Web用户兴趣模型在个性化信息服务中有着非常重要的作用。本文利用社会化标签的独特优势,针对传统社会化标签聚类方法的局限性,提出了一种基于密度聚类的Web用户兴趣建模方法。首先建立基于社会化标签的向量空间模型,并将社会化标签表示为Web资源及其权重的形式,以此为基础利用DBSCAN算法对其进行聚类,进而依据所有Web用户的标注行为以每个聚类为中介计算特定Web用户对Web资源的兴趣度来构建Web用户兴趣模型。实验结果表明了该方法的优越性。 相似文献
6.
大众分类是Web2.0环境下产生的一种新型信息分类法,标签是其中的核心要素,但标签的多样性、模糊性、结构扁平化等缺陷严重影响了信息检索的效率.本文以"豆瓣读书"为例,通过分析标签的统计学规律,挖掘标签间的相互关系,并利用聚类算法对标签进行聚类,构建标签概念空间,从而实现对标签的重新组 织,为用户提供更好地标签导航和浏览机制.实验证明,本文提出的算法模型能够较好地构建标签概念空间. 相似文献
7.
基于凝聚式层次聚类算法的标签聚类研究* 总被引:8,自引:1,他引:8
对标签、标注、大众分类等概念进行界定,指出现有标签标注系统中存在着标签描述信息的精确度不高、标签检索结果相关度低、标签缺乏有效组织等问题,提出采用凝聚式聚类算法对标签聚类,从而实现对标签的重新组织,为用户提供更好的标签导航、浏览机制。最后通过实验对标签聚类方法进行验证。 相似文献
8.
基于社会化标注的个性化推荐研究进展 总被引:6,自引:2,他引:4
社会化标注是当前互联网研究中的一个热点.本文在对社会化标注的内涵和结构加以简单介绍的基础上,重点探讨了基于社会化标注进行推荐的相关进展.首先是明确了标签对于用户模型的意义,接着,从用户、资源和标签三个角度对基于社会化标注的聚类算法进行了讨论.同时也对基于社会化标注的排序算法进行了分析,并进一步将其分为依附补充、独立排序和通用排序三类算法.然后,对标签推荐方面的研究进行了探讨,主要是围绕内容分析、协同分析、语义分析三个方面展开的.最后,分析了社会化标注中个性化信息推荐的研究,发现借助矩阵、聚类和网络的分析是三种主要思路. 相似文献
9.
协同推荐中基于用户-文档矩阵的用户聚类研究* 总被引:1,自引:0,他引:1
针对个性化推荐服务的需要以及用户聚类处理时用户-文档访问数据的高维稀疏性问题,采用“比对降维”的思想和K层次聚类算法,分析基于用户资源评价数据的用户聚类处理流程。在此基础上,采用Java开源技术设计并实现一个用户聚类的试验系统。 相似文献