首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。  相似文献   

2.
提出了一种基于核的聚类方法,增加对样本特征的优化;通过核函数,把数据样本空间映射到一个高维的特征空间;在特征空间对数据样本进行k-中心点聚类,并通过计算类内距离作为适应度准则,取其最优的结果。通过Web日志挖掘中的Web客户聚类应用比较,表明核聚类方法在性能上比经典的聚类算法有较大的改进,从而实现更为准确的聚类。  相似文献   

3.
针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。  相似文献   

4.
微博文本聚类是依据微博主题不同将描述同一类主题的微博文本汇聚到一起的过程。由于微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微博文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。  相似文献   

5.
研讨系统会产生大量的专家发言文本信息,对发言文本进行聚类分析并可视化展现聚类结果,可以引导专家思维,提高研讨效率。提出一种基于聚类的研讨文本分析及可视化方法。首先对专家发言文本进行分词,提取专家发言文本向量;再采用聚类算法对专家发言文本进行聚类分析,得到不同发言簇;最后在基于Web的研讨系统中实现研讨文本聚类,并采用D3方法对聚类结果进行可视化展现。实验结果表明,该方法能有效展现专家发言之间的相似性和聚集度,引导专家思维收敛并达成共识。  相似文献   

6.
随着SOA迅猛发展和互联网上服务数量俱增,服务发现成为极具挑战性的工作。传统的服务发现方法在语义稀疏情境下精准度不高,主要是缺乏有效信息对发现工作的支持,无法对服务进行准确的类别划分。针对此问题,提出一种基于BTM面向Web服务短文本描述的服务聚类方法S3C,该方法的主要思想是利用BTM在短文本聚类过程中使用Biterm(词对)优势对服务描述进行潜在特征表示,基于服务潜在特征使用Kmeans聚类方法进行服务聚类。BTM采用词对的主题建模方式,能够极大程度地扩展文本信息,解决短文本中的关键词稀疏问题。采用PWeb数据集进行大量对比实验可知,该方法与经典聚类方法相比,类簇的平均纯度提高30%,平均熵降低近50%。  相似文献   

7.
文本相似度计算是文本分类、文本聚类、自动文摘、信息抽取的基础.文本相似度计算性能直接影响到文本分类、文本聚类、自动文摘的质量.另外文本相似度还应用于诸多自然语言处理任务中,本文对文本相似度计算问题进行了深入的研究,并根据自然语言的特点提出了通过比较两个文本关键语义对来计算文本的语义相似度.  相似文献   

8.
针对传统的文本聚类容易受到噪声影响的问题,提出一个基于词性标注的文本聚类算法。该算法利用词性标注从文本中识别并抽取最能体现文本特征的关键词,再基于所抽取的关键词进行聚类操作。实验发现,相对传统的聚类算法,基于词性标注的文本聚类算法能够有效地提高聚类结果的质量。  相似文献   

9.
在网络环境中文本挖掘的过程主要包括特征提取、特征选择、挖掘方法选择、结果评价和知识模块等几个部分;最新的发展方向是基于EM算法对文本进行挖掘,基于该算法的的比较挖掘模型为:首先对已知数据集任意分为几个类,然后根据各个类集和背景集对文档集的各个词进行似然,再通过求和可以得到整个数据集的似然,该过程反复进行,直到收敛,从而可以根据各类和背景集结果中的较大的概率值得出文本的共同主题和各个类的主题。  相似文献   

10.
根据文本信息在聚类过程中的特点构建了一种基于K medoids的文档聚类方法,并结合文本特征提取KNN算法对训练文本进行测试,该方法首先利用K medoids在聚类过程中实现简单、收敛速度快的特性,再利用KNN算法在文档特征提取过程中简单、高效的特点,对训练进行聚类划分。实验结果表明,利用该方法在对文档进行聚类时,F1值、耗时及分割数等方面与KNN及CLKNN算法相比都有较大提高。  相似文献   

11.
针对短语文本的分类、聚类、信息查询问题,提出了一种新的中文短语文本相似度计算方法.用该方法计算出的文本相似度及一个比较文本与多个被比较文本所得相似度变化趋势是合理的,因此可以满足短语文本分类/聚类和信息查询的需要.  相似文献   

12.
冒伟 《教育技术导刊》2020,19(3):248-251
为解决传统谱聚类算法在图像分割时计算量大、使用单一特征分割的局限性问题,设计一种融合谱聚类和多特征的图像分割算法。首先进行超像素分割以减少计算量,分别提取每个超像素的颜色特征和纹理特征,构建超像素相似度矩阵|然后采用特征加权方法线性融合颜色和纹理特征的超像素相似度矩阵|最后采用谱聚类算法进行聚类分割。在UCMerced_LandUse和Berkeley数据集上进行实验测试,并与现有方法进行比较。实验结果表明,大多数实验图像IOU指标均在90%以上,相比于传统方法有了显著提高。  相似文献   

13.
为了克服自然语言表达形式的多样性和文本分类的粗略性,将潜在语义分析和谱聚类方法结合起来对语料库进行处理,构造一个语义空间,最终使用向量空间模型对文本进行相似性计算。实验证明,该方法可有效提高语义相似性计算的准确度。  相似文献   

14.
文本聚类是聚类方法的一个重要应用,是近年研究热点。对文本聚类定义、流程、相关问题进行了阐述,对其主要算法及应用领域进行了详细介绍。  相似文献   

15.
特征选取的好坏在文本聚类算法中起着举足轻重的作用,为了在文本预处理阶段更好地获得文本特征,这篇论文从文本语义关系的角度入手,研究了文本语义关系的数学表达方式,研究设计了更好的特征选择的算法,以此提高文本聚类的质量.  相似文献   

16.
政府公文数量巨大,不同政府网站公文分类规则不一 ,在引用和参考公文时可能发生混淆 。针对该问题,基于政府公文题目、摘要和正文内容,采用 K-means 算法对公文进行分类。首先对政府公文进行分词及去停用词等数据预处理操作,再通过词频—逆文档频率(TF-IDF)权值计算方法,将处理后的政府文本信息转换成二维矩阵,然后采用 K-means 算法进行聚类。使用清华大学 THUCTC 文本分类系统对公文聚类结果进行测试。实验结果表明,采用 K-means 算法对公文进行聚类,准确率达到 82.93%,远高于政府网站公文分类准确率。  相似文献   

17.
文本聚类综述   总被引:1,自引:0,他引:1  
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘、智能搜索引擎、短文本信息处理等领域获得了广泛的应用。本文首先讨论了文本聚类(Text clustering)的应用,然后对文本聚类算法、聚类关键技术进行了综述。  相似文献   

18.
微博的普及导致微博平台数据量日益增长,因此从海量微博中快速准确地为微博用户推荐好友成为了巨大挑战。用户的社交网络和微博文本在一定程度上体现了用户的价值观和兴趣爱好,有相似兴趣的微博用户更有可能成为朋友。基于上述事实,以用户微博文本相似度为似然函数,使用K-means聚类对微博用户聚类,得到微博用户社交圈;在社交圈内部迭代计算用户之间的相似度,同时计算用户对其所在社交圈中其余用户的信任度;最后,根据用户之间的相似度和信任度完成微博好友推荐。实验结果表明,该算法优于传统的基于社交网络拓扑图的好友推荐方法。  相似文献   

19.
阐述了在远程教育的研究和应用中,利用基于关联规则的多层次、超图分割聚类方法,对Web网页和用户进行有效聚类。该方法借助网站层次图,可以根据实际需要,在各个层次上进行聚类分析,仅将高度相关的网页和用户聚在同一类,而将关联性较小的网页排除在聚类外。  相似文献   

20.
阐述了在远程教育的研究和应用中,利用基于关联规则的多层次、超图分割聚类方法,对Web网页和用户进行有效聚类。该方法借助网站层次图,可以根据实际需要,在各个层次上进行聚类分析,仅将高度相关的网页和用户聚在同一类,而将关联性较小的网页排除在聚类外。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号