首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
郭文娟 《科技风》2022,(4):63-65
针对传统的K-means算法运行的结果依赖于初始的聚类数目和聚类中心,本文提出了一种基于优化初始聚类中心的K-means算法.该算法通过量化样本间距离和聚类的紧密性来确定聚类数目K值;根据数据集的分布特征来选取相距较远的数据作为初始聚类中心,避免了传统K-means算法的聚类数目和聚类中心的随机选取.UCI机器学习数据...  相似文献   

2.
文本聚类算法的质量评价   总被引:4,自引:0,他引:4  
文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段,选择了k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明,STC聚类算法由于在处理文本时充分考虑了文本的短语特性,其聚类效果较好;基于Ant的聚类算法的结果受参数输入的影响较大;在Ant聚类算法中引入文本特性可以提高聚类结果的质量。  相似文献   

3.
本文将数据挖掘算法应用干智能答疑系统中,提出了一套基于数据挖掘算法的答疑设计方案并加以改进,传统的K-均值算法聚类虽然速度快,在文本聚类中易于实现,但其同样依赖于所有变量,聚类效果往往不尽如人意.为了克服这一缺点,提出一种改进的K-均值文本聚类算法.它在K-均值聚类过程中,向每一个聚类簇中的关键词自动计算添加一个权重,重要的关键词赋予较大的权重.经过实验测试.获得了一种基于子空闻变量自动加权的适合文本数据聚类分析的改进算法,它不仅可以在大规模、高维和稀疏的文本数据上有效地进行聚类.还能够生成质量较高的聚类结果.实验结果表明基于子空闻变量自动加权的K-均值文本聚类算法是有效的大规模文本数据聚类算法.  相似文献   

4.
针对K-Means算法中对初始聚类中心进行随机选择并未达到理想优化的情况,提出一种改进的初始聚类中心选择算法。改进算法首先将原始数据进行预处理并计算各维有效数据的最大值和最小值,然后利用各维有效数据的最大值和最小值进行数据分段和初始聚类中心选择,最后采用VS集成开发环境进行建模。采用遵义医学院2010级的学生计算机考试成绩数据对模型进行仿真,仿真结果显示聚类挖掘性能相对K-Means算法较高,证明改进的初始聚类中心选择算法可以提供精确的聚类挖掘结果。  相似文献   

5.
英汉双语文本聚类是一项非常有价值的研究。使用单语言文本聚类算法,在英汉双语新闻语料基础上,对基于中文单语、英文单语和英汉双语混合的方法进行了文本聚类比较研究,实验结果表明,基于英汉双语混合的文本聚类方法可以取得较好的聚类结果。  相似文献   

6.
文章提出了一种基于高斯核的KSOFM聚类算法,通过核函数将输入空间中的样本映射到高维特征空间中,并在特征空间中进行聚类。核函数的应用使得在原空间中未曾体现的信息得以展现并被聚类算法所运用,使得聚类算法在性能上有较高的提升。  相似文献   

7.
刘杰 《大众科技》2017,19(11):1-2,10
为了研究在复杂光照环境下的多目标特征聚类跟踪,文章分析了从傍晚到夜景时段下车辆视频流的素材,并设计了结合灯组聚类跟踪、灯影去除、车身聚类跟踪的多特征跟踪算法,实验结果表明采用多特征聚类跟踪算法后,在复杂的光照环境下取得较好的跟踪效果。  相似文献   

8.
利用话题识别技术将Blog文本信息按照所表达的话题进行归类和组织,可以使Blog信息更加有效、准确地为用户使用。文章重点研究话题识别模型中的词频,权重计算以及相似度计算,对聚类算法有简单的实现并通过该实验对聚类算法有了更深层次的认识。  相似文献   

9.
黄旭  马凯 《大众科技》2011,(2):65-66
传统的聚类算法在处理复杂特征数据时效果不理想,为此提出使用高斯径向基核函数将原空间上的数据映射到高维特征空间后,再用蚂蚁算法进行第一次聚类,针对第一次聚类结果得到较多簇等问题,提出再用马赛克算法进行二次聚类,得到较为接近真实情况的簇数目。  相似文献   

10.
介绍聚类算法的过程以及聚类有效性指标的分类,分别评述科学计量学常用软件中的几种聚类算法,分析聚类算法的特性并采用基于类内紧密度和类间分离度对聚类结果的有效性进行探讨,总结各聚类算法的效果并对应软件分析的结果进行案例分析。  相似文献   

11.
针对DCF聚类描述法存在的问题,提出一种基于组合策略的聚类描述方法,即综合利用"先描述、后聚类"和"先聚类、后描述"的优点,解决聚类描述的可理解性问题.实验结果表明该方法的有效性,将该方法用于搜索结果聚类这一应用中.  相似文献   

12.
在阐明文献聚类的基本概念和重要作用的基础上,介绍了当前最流行的两种文献聚类方法:层次聚类和划分聚类;论述了三种主要的文献聚类评价函数:F—measure、平均查准率、熵;指出了文献聚类函数的优缺点。  相似文献   

13.
本文简要介绍了聚类算法在国外信息检索领域中的应用概况,并详细介绍了聚类算法在国内该领域的应用情况。列举了应用得较多的几种聚类算法,给出了在多种信息检索中聚类算法的应用过程。  相似文献   

14.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。  相似文献   

15.
郭伟光  汪本强  杨学春 《情报杂志》2015,(2):159-163,158
针对社会化标签语义模糊,传统K-medoids聚类算法对初始聚类中心敏感、收敛速度缓慢、只能将归类对象划入到单一类别的缺点,提出一种基于改进K-medoids的社会化标注资源两阶段聚类算法。算法应用一种简洁快速的初始聚类中心选取新规则以及改进的聚类准则函数,首先进行标签聚类,然后将同一标签簇中标签标注的网络资源初步划分到同一资源簇中,最后在这些资源簇中再次进行资源聚类。实验结果表明,提出的算法能自主、合理地确定初始聚类中心,聚类过程收敛速度快,聚类结果有更好的准确性。  相似文献   

16.
限制性聚类是一种试图将用户监督信息加入到已有聚类算法中的一种分类技术,目前已经被广泛应用于K-means算法和层次聚类算法中.在本文中,提出一种将限制条件加入到谱聚类算法的半监督聚类方法,利用正约束和负约束限制来构造约束矩阵,通过它们来引导聚类过程,并结合最优化技术,达到聚类的目的.数据实验验证了这种方法具有很好的精确度.  相似文献   

17.
在分析folksonomy概念空间构建的可行性的基础上,对基于向量空间模型的传统聚类方法和概念空间模型的标签聚类方法进行比较,提出了基于概念空间模型的folksonomy聚类方法,并使用学术资源标注网站CiteUlike的真实标签数据集进行试验.  相似文献   

18.
模糊c均值聚类在wav格式音频检索中的研究   总被引:1,自引:0,他引:1  
应用模糊c均值聚类方法对wav格式的音频检索。不同于以前为音频建模和分类的监督机制,而是通过对音频数据的特征进行模糊聚类形成聚类质心,根据聚类质心的相似度匹配来实现非监督机制的音频检索,并优化参数以提高检索准确度。  相似文献   

19.
为中文搜索引擎返回结果的每一条记录构建一种修改的PAT-tree结构,为整个返回结果集构建修改的整体PAT-tree结构.通过计算PAT-tree中有效节点代表短语的排序权值函数,提取基本聚类.使用与STC框架相似的聚类算法得出最后的聚类.实验表明该算法能很好地完成中文搜索引擎结果的聚类.  相似文献   

20.
聂珍  王华秋 《现代情报》2012,32(7):112-116,121
本文采取了3种必要的措施提高了聚类质量:考虑到各维数据特征属性对聚类效果影响不同,采用了基于统计方法的维度加权的方法进行特征选择;对于和声搜索算法的调音概率进行了改进,将改进的和声搜索算法和模糊聚类相结合用于快速寻找最优的聚类中心;循环测试各种中心数情况下的聚类质量以获得最佳的类中心数。接着,该算法被应用于图书馆读者兴趣度建模中,用于识别图书馆日常运行时各读者借阅图书的类型,实验表明该算法较其它算法更优。这样的读者兴趣度聚类分析可以进行图书推荐,从而提高图书馆的运行效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号