首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
研讨系统会产生大量的专家发言文本信息,对发言文本进行聚类分析并可视化展现聚类结果,可以引导专家思维,提高研讨效率。提出一种基于聚类的研讨文本分析及可视化方法。首先对专家发言文本进行分词,提取专家发言文本向量;再采用聚类算法对专家发言文本进行聚类分析,得到不同发言簇;最后在基于Web的研讨系统中实现研讨文本聚类,并采用D3方法对聚类结果进行可视化展现。实验结果表明,该方法能有效展现专家发言之间的相似性和聚集度,引导专家思维收敛并达成共识。  相似文献   

2.
讨论了聚类分析及文本挖掘,分析了一种用模拟退火思想改进的K均值聚类算法在文本挖掘中的应用。传统的信息检索技术已经不适应日益增加的、大量文本数据处理的需求。如何从数据中分析和提取有用信息即文本挖掘已经成为数据挖掘中日益流行与重要的研究课题。  相似文献   

3.
根据文本信息在聚类过程中的特点构建了一种基于K medoids的文档聚类方法,并结合文本特征提取KNN算法对训练文本进行测试,该方法首先利用K medoids在聚类过程中实现简单、收敛速度快的特性,再利用KNN算法在文档特征提取过程中简单、高效的特点,对训练进行聚类划分。实验结果表明,利用该方法在对文档进行聚类时,F1值、耗时及分割数等方面与KNN及CLKNN算法相比都有较大提高。  相似文献   

4.
Web挖掘采用数据挖掘信息处理技术,从Web信息资源中发掘用户所需信息。本文在分析Web文本信息特征的基础上,揭示了Web文本数据挖掘的目标样本的特征提取、分词处理与Web文本分类等关键技术,以Google为例讨论了该技术在网络信息检索中的应用。  相似文献   

5.
随着SOA迅猛发展和互联网上服务数量俱增,服务发现成为极具挑战性的工作。传统的服务发现方法在语义稀疏情境下精准度不高,主要是缺乏有效信息对发现工作的支持,无法对服务进行准确的类别划分。针对此问题,提出一种基于BTM面向Web服务短文本描述的服务聚类方法S3C,该方法的主要思想是利用BTM在短文本聚类过程中使用Biterm(词对)优势对服务描述进行潜在特征表示,基于服务潜在特征使用Kmeans聚类方法进行服务聚类。BTM采用词对的主题建模方式,能够极大程度地扩展文本信息,解决短文本中的关键词稀疏问题。采用PWeb数据集进行大量对比实验可知,该方法与经典聚类方法相比,类簇的平均纯度提高30%,平均熵降低近50%。  相似文献   

6.
LDA模型对长文本聚类有优势。将微博文本按一定规则构建长文本,根据文本中隐含的丰富语义信息,将SVM模型与LDA模型相结合,利用K Means算法聚类。实验结果表明,SVM和LDA相结合的模型,明显提高了聚类质量和稳定性。  相似文献   

7.
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类无论在商务领域,还是在生物学、Web文档分类、图像处理等其他领域都得到了有效的应用。本文主要研究的是基于迭代思想的聚类算法。  相似文献   

8.
随着互联网的发展和Web2.0的应用,网络信息呈现出越来越明显的动态演化性,传统的静态文摘方法不能很好地反应文摘的动态变化和新颖性,难以满足人们对于摘要获取效率的要求,动态文摘技术成为新的研究热点。提出一种基于改进K means算法的动态文摘提取和更新方法。为了减小聚类结果对初值的依赖性,提高聚类的稳定性,采用聚类中心的搜索算法获得较优的初始聚类中心。它能解决使用传统聚类方法进行动态文摘提取中存在的重复计算问题,并能保持较高效率。在TAC2008上的实验证明,该方法生成的动态文摘效果较好、算法效率高。  相似文献   

9.
对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。  相似文献   

10.
通过对Web数据的特点进行详细的分析,在基于传统的贝叶斯聚类算法基础上,采用网页标记形式来有效地弥补朴素贝叶斯算法的不足,并将改进的方法应用在文本分类中,是一种很好的改进思路。最后实验结果也表明,此方法能够有效地对文本进行分类。  相似文献   

11.
文本聚类综述   总被引:1,自引:0,他引:1  
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘、智能搜索引擎、短文本信息处理等领域获得了广泛的应用。本文首先讨论了文本聚类(Text clustering)的应用,然后对文本聚类算法、聚类关键技术进行了综述。  相似文献   

12.
针对Web挖掘,首先论述了Web挖掘的基本理论,接着分析数据挖掘中的聚类算法,讨论了聚类分析的数据结构和数据类型,以及聚类算法的分类,详细介绍了数据挖掘中用到的主要聚类算法,最后对评价聚类结果的方法进行了分析。  相似文献   

13.
在分析基于工艺元的典型工艺信息组织模式的基础上,提出一种基于数据挖掘技术的从工艺数据中获取工艺元知识的方法.该方法采用文本聚类的思想扫描工艺数据库,将数据库中工艺描述划分为不同的类提取出常用工艺语句并设计了相应的处理算法,通过改进Apriori方法设计的Apriori-seq算法用于对工艺规程序列进行挖掘获取工艺元.同时,开发出在制造工艺序列数据中进行知识发现的原型系统SCU-KDPS,应用表明本文的研究方法有较高的知识发现效率.  相似文献   

14.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。  相似文献   

15.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。  相似文献   

16.
聚类分析是当今飞速发展的数据挖掘和数据信息分析的一个重要技术,因此聚类分析已经成为数据挖掘领域一个非常活跃的研究课题.针对空间数据库对聚类算法的特殊要求,分析了空间聚类算法的构造思想及其优缺点,探讨了空间聚类算法目前的工作、算法的一些开放性问题以及今后的研究方向.  相似文献   

17.
特征选取的好坏在文本聚类算法中起着举足轻重的作用,为了在文本预处理阶段更好地获得文本特征,这篇论文从文本语义关系的角度入手,研究了文本语义关系的数学表达方式,研究设计了更好的特征选择的算法,以此提高文本聚类的质量.  相似文献   

18.
传统的舆情分析多采用文本聚类和分类技术,但是由于自然语言自身表达的复杂性和灵活性,文本聚类和分类技术很难从根本上反映话题评论人员对待话题的真实态度。针对文本聚类和分类技术的局限性,设计了应用于公司舆情分析的改进概念图算法。改进的概念图能表示部分概念节点的倾向性,利用改进的概念图计算每条评论的健康度,可有效地从语义分析角度计算评论语句的健康度。研究结果表明,应用于公司舆情分析的改进概念图算法,其正确率普遍高于基于文本聚类和分类技术的舆情分析方法。  相似文献   

19.
伴随着互联网的飞速发展,网络上的信息资源呈现出井喷态势,如何从海量的信息中抽取出自己需要的信息已经变得越发的困难。在分析现有Web信息抽取技术现状及面临的挑战的基础上,设计了一种基于文本标签属性的Web新闻信息抽取模型。主要介绍了基于标签的Web信息抽取技术的算法,给出了信息抽取的具体实现过程,对基于DOM树节点遍历的文本标签过滤算法进行了描述,并选取了主流的新闻网站进行了抽取实验,验证了算法的可行性。  相似文献   

20.
在分析基于工艺元的典型工艺信息组织模式的基础上,提出一种基于数据挖掘技术的从工艺数据中获取工艺元知识的方法.该方法采用文本聚类的思想扫描工艺数据库,将数据库中工艺描述划分为不同的类提取出常用工艺语句并设计了相应的处理算法,通过改进Apriori方法设计的Apriori-seq算法用于对工艺规程序列进行挖掘获取工艺元.同时,开发出在制造工艺序列数据中进行知识发现的原型系统SCU-KDPS,应用表明本文的研究方法有较高的知识发现效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号