首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内容与结构语义相融合的XML语义相似性度量方法.同时,针对IEEE数据集无法提供每篇文档的类别信息,本文从相关文档的分布情况引入了相关簇率和相关文档分布率的概念来进行聚类质量评价.数据集IEEE CS上的实验表明,与同类相似性度量方法和传统方法相比,本文所提方法具有可行性和更好的聚类效果.  相似文献   

2.
介绍SNS开放平台及其应用的相关概念,分析开放平台应用现状和运营模式,基于国内此类软件的统计数据,采用DTW算法度量变长时序数据的形状相似性,使用一维序列变换改进K中心点聚类的簇中心计算方法,并对数据进行时间序列聚类挖掘,最后使用产品生命周期理论分析聚类结果。  相似文献   

3.
本文从信息论的角度考虑了聚类问题,将聚类看成是有损信息压缩的过程.首先运用率失真理论建立了模糊聚类的优化模型,与经典的模糊聚类模型相比,模型的目标函数中多了一个描述聚类过程复杂度的指标.同时为了估计聚类数目,还提出了一个新的聚类有效性指标.其次通过求解优化模型得到基于率失真理论的模糊聚类算法.最后将基于率失真理论的模糊聚类算法与经典模糊C均值算法进行了数值实验比较.数值实验结果表明基于率失真理论的模糊聚类算法能够自动确定聚类数目,在运行时间上比模糊C均值算法有一定减少,且最终的模糊划分矩阵与模糊C均值算法相比有较少的模糊性,因而聚类结果更加明确可靠.  相似文献   

4.
聚类有效性指标用于评价聚类质量和确定最佳聚类数,针对包含大小和密度差异性较大数据类的数据集,在分析了传统模糊聚类有效性指标不足的基础上,提出了一个同时考虑紧致性、重叠度和分离性的聚类有效性指标COS.类内紧致性用一定阈值内的隶属度之和与最大类内距离之比表示,一定阈值内各样本同属于两个类的隶属度差异反映了这两个类的重叠度,类间分离性的度量为最小类间距离,使COS指标值最大的聚类数即为最佳聚类数.在四个人工数据集和iris真实数据集上利用模糊C均值算法进行聚类实验的结果表明,COS指标可以有效发现小类和低密度类.  相似文献   

5.
本研究在总结现有以共链分析和社会网络分析为主的学术网络局部结构识别方法的基础上,提出了改进的两步式K核分析方法,首次引入了复杂网络中的社区识别算法进行链接网络的分割,并尝试通过适用性评测验证快速聚类算法在同质Web链接网络的主题结构识别方面的有效性.最后的实验结果表明,本研究提出的改进K核分析方法可以有效地发现存在于链接网络中的主题聚类现象;同时研究中引入的快速聚类算法对以93所大学网站进行了聚类并获得六个主题类.通过聚类准确率指标计算,该聚类方法的平均准确率为72%.以上结论证实了本研究中采用的从链接关系度量,数据矩阵构建、到链接网络分析的方法体系是有效的.  相似文献   

6.
陶剑文  潘红艳 《情报学报》2008,27(2):199-204
推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,本文提出了一种基于相似项目与用户评分预测的协同过滤推荐算法,综合利用相似项目和相似用户评分信息预测用户对未评分项目的评分.通过聚类算法形成用户候选近邻集,减小了算法搜索空间,降低了最近邻用户的搜索时间,从而增强了算法的扩展性.实验结果表明,本算法可以有效解决用户评分数据极端稀疏情况下传统协同推荐算法存在的问题,显著提高推荐系统的推荐质量.  相似文献   

7.
专利数据包含了各种丰富的信息.通过对专利数据聚类,可以将它们划分为语义或结构上相似的子集,从而为发现数据中所蕴含的有用模式和知识提供更为深入的洞察力.传统的专利数据聚类方法通常只是利用专利数据的某项属性实现聚类,没有充分利用专利数据所包含的多种丰富信息.本文针对现有专利数据聚类方法的不足,提出了一种综合利用专利摘要文本和IPC分类号的专利聚类方法PDICluster.该方法通过解析IPC分类号中包含的树型结构信息,利用树距离度量专利数据之间的相似性,并综合专利摘要文本和IPC分类号相似性信息来实现专利数据聚类.实际专利数据上的聚类实验结果验证了PDICluster方法的有效性.  相似文献   

8.
基于样本加权的文本聚类算法研究   总被引:3,自引:0,他引:3  
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法.实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果.该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果.  相似文献   

9.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法.  相似文献   

10.
基于文档聚类的Web辅助浏览研究   总被引:2,自引:0,他引:2  
王勋  刘君强 《情报学报》2004,23(2):168-172
目前的搜索引擎在方便人们查询的同时也存在不足 ,由于它们并非面向某个特定用户服务 ,所以并不能反映用户的个性化需求 ,查询得到的信息往往还是有大量的冗余。为此本文提出了一种基于文档聚类的网络辅助浏览技术。首先给出了模糊概念图的模型来描述词语间的关系 ,然后将Web文档转化为矢量文档表示 ,利用基于K Means聚类方法对矢量文档进行聚类 ,通过确认最终抽取出用户兴趣模式 ,从而辅助用户实现个性化搜索  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号