共查询到16条相似文献,搜索用时 109 毫秒
1.
2.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。 相似文献
3.
文本聚类能够把相似性大的文本聚到同一类中。K-Means常用来聚类文本,但是由于聚类中心的选取对聚类结果有影响,导致聚类不稳定,因此采用一种基于聚类中心的改进算法分析文本,通过实验,验证算法的有效性。 相似文献
4.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。 相似文献
5.
针对传统的文本聚类容易受到噪声影响的问题,提出一个基于词性标注的文本聚类算法。该算法利用词性标注从文本中识别并抽取最能体现文本特征的关键词,再基于所抽取的关键词进行聚类操作。实验发现,相对传统的聚类算法,基于词性标注的文本聚类算法能够有效地提高聚类结果的质量。 相似文献
6.
7.
8.
基于主题概念空间的文本模糊c-均值聚类方法 总被引:2,自引:0,他引:2
为了改善文本聚类的准确度,提出用基于主题概念子空间的模糊c-均值聚类(TCS2FCM)方法来分类文本.采用5个评估函数的加权值来提取关键短语;利用WordNet对相应的关键短语提取概念短语并生成最后的类别描述.初始中心和初始隶属度矩阵的建立是决定模糊c-均值聚类效果的关键,使用能够代表文本主题的概念短语来建立相互正交的主题概念子空间,利用主题子空间中的概念向量来初始化聚类中心和隶属度矩阵.实验结果表明:不同于传统模糊c-均值聚类的随机化初始,与文本内容相关的初始化有助于改进最后的聚类结果,提高聚类精度. 相似文献
9.
张浩 《温州职业技术学院学报》2013,(1):84-86
在传统聚类模型的基础上,提出一种基于向量空间模型的层次聚类算法,用于文本数据的挖掘。实验结果表明,基于向量空间模型的层次聚类算法从挖掘的准确率上更具有性能优势。 相似文献
10.
为了提高聚类结果和允许在结果中进行选择,将本体语义与文档聚类相结合,在文档处理过程中提出了基于WordNet的新的文档聚类算法.首先通过tf-idf对文档进行了表示,为了将WordNet的概念出现在文档集合中,通过新的实体对每一个单词向量进行扩展.其次,运用特征提取算法对文档进行特征提取.最后提出了本体集合聚类算法用以提高文本的聚类效果.实验构建在Reuters20新闻组的数据基础上,应用互信息作为试验结果的比较.结果表明:与已经存在的一些算法如MNB,CLU-TO,co-clustering等相比,基于本体的聚类算法在文本聚类上有很明显的提高. 相似文献
11.
一种基于向量空间模型的文本聚类方法 总被引:3,自引:0,他引:3
研究了一种基于向量空间模型的文档聚类方法.提出了一个新的聚类模型,即在传统聚类模型的基础上增加一个文档特征向量调整模块;给出了一个特征评价函数用以进行特征提取;对一种基于相似度的平面划分聚类算法做了一些改进.实验结果表明本文提出的聚类模型是可行的. 相似文献
12.
随着SOA迅猛发展和互联网上服务数量俱增,服务发现成为极具挑战性的工作。传统的服务发现方法在语义稀疏情境下精准度不高,主要是缺乏有效信息对发现工作的支持,无法对服务进行准确的类别划分。针对此问题,提出一种基于BTM面向Web服务短文本描述的服务聚类方法S3C,该方法的主要思想是利用BTM在短文本聚类过程中使用Biterm(词对)优势对服务描述进行潜在特征表示,基于服务潜在特征使用Kmeans聚类方法进行服务聚类。BTM采用词对的主题建模方式,能够极大程度地扩展文本信息,解决短文本中的关键词稀疏问题。采用PWeb数据集进行大量对比实验可知,该方法与经典聚类方法相比,类簇的平均纯度提高30%,平均熵降低近50%。 相似文献
13.
聚类和粒度具有天然的相通性,本文探讨了基于粒度聚类算法的一般框架,并基于该框架,研究了一种基于网格密度的文本聚类算法,最后以例证说明这一方法的可行性。 相似文献
14.
数据挖掘中聚类方法比较研究 总被引:4,自引:0,他引:4
牟廉明 《内江师范学院学报》2003,18(2):16-20
聚类是数据挖掘领域中的一个重要研究课题。聚类在电子商务、图像处理、模式识别、本分类等领域有广泛的应用。本首先建立了数据挖掘中聚类方法的比较标准,然后从基于优化、关系、变换这样一个新的角度对聚类方法进行了分类和比较,最后对数据挖掘中常用聚类算法进行了分析,以便于人们更易于选择研究方向和选择适合于具体问题的聚类算法。 相似文献
15.
为及时从海量微博信息中迅捷有效提取出微博热点话题、事件,提出基于频繁集的聚类SSDKmeans算法,在有限空间下统计分词的近似频数,并在此基础上构建文本向量空间模型,在聚类生成的每个话题簇中提炼话题关键词。通过对2万条微博数据进行有效性验证,结果表明,基于SSDKmeans算法的话题发现有较高的召回率和精准率,分别为91.3%、92.1%。SSDKmeans算法能够有效提高微博热点话题发现率,进而及时了解社会热点话题与舆论趋势。 相似文献