共查询到20条相似文献,搜索用时 125 毫秒
1.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。 相似文献
2.
叶苗群 《宁波职业技术学院学报》2008,12(2):48-50
提出了一种基于核的聚类方法,增加对样本特征的优化;通过核函数,把数据样本空间映射到一个高维的特征空间;在特征空间对数据样本进行k-中心点聚类,并通过计算类内距离作为适应度准则,取其最优的结果。通过Web日志挖掘中的Web客户聚类应用比较,表明核聚类方法在性能上比经典的聚类算法有较大的改进,从而实现更为准确的聚类。 相似文献
3.
林滨 《福建工程学院学报》2016,(1):80-85
针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。 相似文献
4.
微博文本聚类是依据微博主题不同将描述同一类主题的微博文本汇聚到一起的过程。由于微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微博文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。 相似文献
5.
6.
随着SOA迅猛发展和互联网上服务数量俱增,服务发现成为极具挑战性的工作。传统的服务发现方法在语义稀疏情境下精准度不高,主要是缺乏有效信息对发现工作的支持,无法对服务进行准确的类别划分。针对此问题,提出一种基于BTM面向Web服务短文本描述的服务聚类方法S3C,该方法的主要思想是利用BTM在短文本聚类过程中使用Biterm(词对)优势对服务描述进行潜在特征表示,基于服务潜在特征使用Kmeans聚类方法进行服务聚类。BTM采用词对的主题建模方式,能够极大程度地扩展文本信息,解决短文本中的关键词稀疏问题。采用PWeb数据集进行大量对比实验可知,该方法与经典聚类方法相比,类簇的平均纯度提高30%,平均熵降低近50%。 相似文献
7.
张丹 《佳木斯教育学院学报》2006,(3)
文本相似度计算是文本分类、文本聚类、自动文摘、信息抽取的基础.文本相似度计算性能直接影响到文本分类、文本聚类、自动文摘的质量.另外文本相似度还应用于诸多自然语言处理任务中,本文对文本相似度计算问题进行了深入的研究,并根据自然语言的特点提出了通过比较两个文本关键语义对来计算文本的语义相似度. 相似文献
8.
针对传统的文本聚类容易受到噪声影响的问题,提出一个基于词性标注的文本聚类算法。该算法利用词性标注从文本中识别并抽取最能体现文本特征的关键词,再基于所抽取的关键词进行聚类操作。实验发现,相对传统的聚类算法,基于词性标注的文本聚类算法能够有效地提高聚类结果的质量。 相似文献
9.
在网络环境中文本挖掘的过程主要包括特征提取、特征选择、挖掘方法选择、结果评价和知识模块等几个部分;最新的发展方向是基于EM算法对文本进行挖掘,基于该算法的的比较挖掘模型为:首先对已知数据集任意分为几个类,然后根据各个类集和背景集对文档集的各个词进行似然,再通过求和可以得到整个数据集的似然,该过程反复进行,直到收敛,从而可以根据各类和背景集结果中的较大的概率值得出文本的共同主题和各个类的主题。 相似文献
10.
11.
12.
为解决传统谱聚类算法在图像分割时计算量大、使用单一特征分割的局限性问题,设计一种融合谱聚类和多特征的图像分割算法。首先进行超像素分割以减少计算量,分别提取每个超像素的颜色特征和纹理特征,构建超像素相似度矩阵|然后采用特征加权方法线性融合颜色和纹理特征的超像素相似度矩阵|最后采用谱聚类算法进行聚类分割。在UCMerced_LandUse和Berkeley数据集上进行实验测试,并与现有方法进行比较。实验结果表明,大多数实验图像IOU指标均在90%以上,相比于传统方法有了显著提高。 相似文献
13.
为了克服自然语言表达形式的多样性和文本分类的粗略性,将潜在语义分析和谱聚类方法结合起来对语料库进行处理,构造一个语义空间,最终使用向量空间模型对文本进行相似性计算。实验证明,该方法可有效提高语义相似性计算的准确度。 相似文献
14.
15.
叶飞 《赤峰学院学报(自然科学版)》2012,(12):35-37
特征选取的好坏在文本聚类算法中起着举足轻重的作用,为了在文本预处理阶段更好地获得文本特征,这篇论文从文本语义关系的角度入手,研究了文本语义关系的数学表达方式,研究设计了更好的特征选择的算法,以此提高文本聚类的质量. 相似文献
16.
政府公文数量巨大,不同政府网站公文分类规则不一 ,在引用和参考公文时可能发生混淆 。针对该问题,基于政府公文题目、摘要和正文内容,采用 K-means 算法对公文进行分类。首先对政府公文进行分词及去停用词等数据预处理操作,再通过词频—逆文档频率(TF-IDF)权值计算方法,将处理后的政府文本信息转换成二维矩阵,然后采用 K-means 算法进行聚类。使用清华大学 THUCTC 文本分类系统对公文聚类结果进行测试。实验结果表明,采用 K-means 算法对公文进行聚类,准确率达到 82.93%,远高于政府网站公文分类准确率。 相似文献
17.
18.
微博的普及导致微博平台数据量日益增长,因此从海量微博中快速准确地为微博用户推荐好友成为了巨大挑战。用户的社交网络和微博文本在一定程度上体现了用户的价值观和兴趣爱好,有相似兴趣的微博用户更有可能成为朋友。基于上述事实,以用户微博文本相似度为似然函数,使用K-means聚类对微博用户聚类,得到微博用户社交圈;在社交圈内部迭代计算用户之间的相似度,同时计算用户对其所在社交圈中其余用户的信任度;最后,根据用户之间的相似度和信任度完成微博好友推荐。实验结果表明,该算法优于传统的基于社交网络拓扑图的好友推荐方法。 相似文献
19.
阐述了在远程教育的研究和应用中,利用基于关联规则的多层次、超图分割聚类方法,对Web网页和用户进行有效聚类。该方法借助网站层次图,可以根据实际需要,在各个层次上进行聚类分析,仅将高度相关的网页和用户聚在同一类,而将关联性较小的网页排除在聚类外。 相似文献
20.
阐述了在远程教育的研究和应用中,利用基于关联规则的多层次、超图分割聚类方法,对Web网页和用户进行有效聚类。该方法借助网站层次图,可以根据实际需要,在各个层次上进行聚类分析,仅将高度相关的网页和用户聚在同一类,而将关联性较小的网页排除在聚类外。 相似文献