首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 812 毫秒
1.
分析了K均值聚类算法(K-means)存在的不足和改进遗传算法的全局优化能力,提出一种基于改进遗传算法的文本聚类方法,该方法将原始文档转化成用向量空间模型来描述的文本向量,首先随机产生若干个文档向量作为初始聚类中心形成遗传算法的染色体种群,经过改进遗传算法的选择、交叉、变异进化运算,得到较为优化的K均值聚类算法的初始聚类中心。实验表明该算法文本聚类提高了查准率和查全率,算法的高效性也得到了验证。  相似文献   

2.
针对传统的文本聚类容易受到噪声影响的问题,提出一个基于词性标注的文本聚类算法。该算法利用词性标注从文本中识别并抽取最能体现文本特征的关键词,再基于所抽取的关键词进行聚类操作。实验发现,相对传统的聚类算法,基于词性标注的文本聚类算法能够有效地提高聚类结果的质量。  相似文献   

3.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。  相似文献   

4.
检索结果聚类能够有效帮助提高获取信息的效率和质量。针对传统文本聚类模型存在数据维数过高、缺乏语义理解等问题,提出一种面向检索结果聚类的融合共现分析主题建模算法。基于改进的LDA模型,对得到的“文档-主题”概率分布进行聚类分析,采用K-means算法完成聚类过程,最后提出根据聚类中心提取主题词作为类簇标签。实验结果表明,改进的LDA算法在检索结果聚类应用上不仅获得了很好的聚类效果,类簇标签也有良好的可读性。  相似文献   

5.
根据文本信息在聚类过程中的特点构建了一种基于K medoids的文档聚类方法,并结合文本特征提取KNN算法对训练文本进行测试,该方法首先利用K medoids在聚类过程中实现简单、收敛速度快的特性,再利用KNN算法在文档特征提取过程中简单、高效的特点,对训练进行聚类划分。实验结果表明,利用该方法在对文档进行聚类时,F1值、耗时及分割数等方面与KNN及CLKNN算法相比都有较大提高。  相似文献   

6.
针对传统 K-means 算法随机选取初始聚类中心导致聚类结果随机性大、优劣不定的缺点,通过定义局部方差,利用方差反映数据密集程度的特性,提出一种基于最小 局部方差优化初始聚类中心的 K-means 算 法。该算法选取数据集中局部方差最小的点作为一个初始聚类中心,并利用数据信息更新数据集,直到选到 k个初始聚类中心,实现初始聚类中心优化。基于 UCI 数据集与人工数据集进行实验,与传统 K-means 算法及最小方差优化初始聚类中心的 K-means 算法进行性能比较。实验结果表明,基于最小局部方差优化初始聚类中心的 K-means算法具有良好的聚类效果和很好的鲁棒性,且聚类时间较短,验证了算法有效性和优越性。  相似文献   

7.
LDA模型对长文本聚类有优势。将微博文本按一定规则构建长文本,根据文本中隐含的丰富语义信息,将SVM模型与LDA模型相结合,利用K Means算法聚类。实验结果表明,SVM和LDA相结合的模型,明显提高了聚类质量和稳定性。  相似文献   

8.
文本聚类是聚类方法的一个重要应用,是近年研究热点。对文本聚类定义、流程、相关问题进行了阐述,对其主要算法及应用领域进行了详细介绍。  相似文献   

9.
随着信息技术和Web技术的发展,如何从海量的Web文本信息中找到自己所需信息已成为一个重要的研究领域。在众多信息获取方法中,聚类技术是一种被广泛应用的方法。总结了文本聚类算法的研究现状,比较了算法的主要差异和整体思想,并分析了各种方法的优劣,同时指出了文本聚类研究今后的发展趋势,即在粒子群聚类过程中融入其它传统聚类方法的思想,以提高聚类性能。  相似文献   

10.
特征选取的好坏在文本聚类算法中起着举足轻重的作用,为了在文本预处理阶段更好地获得文本特征,这篇论文从文本语义关系的角度入手,研究了文本语义关系的数学表达方式,研究设计了更好的特征选择的算法,以此提高文本聚类的质量.  相似文献   

11.
Kmeans算法存在两个主要缺陷,导致聚类结果准确率较低。为改善聚类效果,提出一种DGK-Kmeans算法。该算法选用核密度估计处理数据,得到备选聚类中心,依据平均类间相似度动态增加初始聚类中心个数,直至平均类间相似度大于前次计算值时,选取平均类内相似度最小时对应的聚类中心为初始聚类中心,进行Kmeans聚类计算。采用UCI标准数据集进行实验,证明改进后的DGK-Kmeans算法在聚类准确率和稳定性方面有很大提高。  相似文献   

12.
针对模糊C-均值聚类算法(FCM)存在易受初始聚类中心影响和容易陷入局部最优的问题,提出了一种将灰狼优化算法(GWO)和模糊C-均值相结合的新聚类算法(GWO-FCM)。该算法利用GWO算法强大的全局寻优能力对FCM算法的聚类中心进行优化,模拟灰狼优秀的搜寻猎物行为找到一组最佳聚类中心来提高FCM的聚类效果。通过UCI数据集的仿真结果和算法比较验证了该算法的有效性。  相似文献   

13.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。  相似文献   

14.
为了提高聚类结果和允许在结果中进行选择,将本体语义与文档聚类相结合,在文档处理过程中提出了基于WordNet的新的文档聚类算法.首先通过tf-idf对文档进行了表示,为了将WordNet的概念出现在文档集合中,通过新的实体对每一个单词向量进行扩展.其次,运用特征提取算法对文档进行特征提取.最后提出了本体集合聚类算法用以提高文本的聚类效果.实验构建在Reuters20新闻组的数据基础上,应用互信息作为试验结果的比较.结果表明:与已经存在的一些算法如MNB,CLU-TO,co-clustering等相比,基于本体的聚类算法在文本聚类上有很明显的提高.  相似文献   

15.
K-means算法是解决聚类问题的经典算法,在满足一定的条件情况下,聚类的结果比较好.但这种算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动.针对这种缺陷,提出了一种新的基于数据样本分布选取初始聚类中心的算法.  相似文献   

16.
文本聚类综述   总被引:1,自引:0,他引:1  
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘、智能搜索引擎、短文本信息处理等领域获得了广泛的应用。本文首先讨论了文本聚类(Text clustering)的应用,然后对文本聚类算法、聚类关键技术进行了综述。  相似文献   

17.
在传统聚类模型的基础上,提出一种基于向量空间模型的层次聚类算法,用于文本数据的挖掘。实验结果表明,基于向量空间模型的层次聚类算法从挖掘的准确率上更具有性能优势。  相似文献   

18.
对web文本聚类中的数据预处理、聚类算法及结果评估等进行了分析研究.在由lucene和nutch构建的搜索引擎的基础上,提出基于k—means聚类算法web页聚类系统设计方案,并论述了各模块的设计与实现方法.  相似文献   

19.
聚类和粒度具有天然的相通性,本文探讨了基于粒度聚类算法的一般框架,并基于该框架,研究了一种基于网格密度的文本聚类算法,最后以例证说明这一方法的可行性。  相似文献   

20.
研讨系统会产生大量的专家发言文本信息,对发言文本进行聚类分析并可视化展现聚类结果,可以引导专家思维,提高研讨效率。提出一种基于聚类的研讨文本分析及可视化方法。首先对专家发言文本进行分词,提取专家发言文本向量;再采用聚类算法对专家发言文本进行聚类分析,得到不同发言簇;最后在基于Web的研讨系统中实现研讨文本聚类,并采用D3方法对聚类结果进行可视化展现。实验结果表明,该方法能有效展现专家发言之间的相似性和聚集度,引导专家思维收敛并达成共识。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号