共查询到20条相似文献,搜索用时 171 毫秒
1.
2.
讨论了聚类分析及文本挖掘,分析了一种用模拟退火思想改进的K均值聚类算法在文本挖掘中的应用。传统的信息检索技术已经不适应日益增加的、大量文本数据处理的需求。如何从数据中分析和提取有用信息即文本挖掘已经成为数据挖掘中日益流行与重要的研究课题。 相似文献
3.
4.
宋瑞祺 《山西财经大学学报(高等教育版)》2007,10(Z1):95
Web挖掘采用数据挖掘信息处理技术,从Web信息资源中发掘用户所需信息。本文在分析Web文本信息特征的基础上,揭示了Web文本数据挖掘的目标样本的特征提取、分词处理与Web文本分类等关键技术,以Google为例讨论了该技术在网络信息检索中的应用。 相似文献
5.
随着SOA迅猛发展和互联网上服务数量俱增,服务发现成为极具挑战性的工作。传统的服务发现方法在语义稀疏情境下精准度不高,主要是缺乏有效信息对发现工作的支持,无法对服务进行准确的类别划分。针对此问题,提出一种基于BTM面向Web服务短文本描述的服务聚类方法S3C,该方法的主要思想是利用BTM在短文本聚类过程中使用Biterm(词对)优势对服务描述进行潜在特征表示,基于服务潜在特征使用Kmeans聚类方法进行服务聚类。BTM采用词对的主题建模方式,能够极大程度地扩展文本信息,解决短文本中的关键词稀疏问题。采用PWeb数据集进行大量对比实验可知,该方法与经典聚类方法相比,类簇的平均纯度提高30%,平均熵降低近50%。 相似文献
6.
7.
柴旭光 《邢台职业技术学院学报》2011,28(1):52-54
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类无论在商务领域,还是在生物学、Web文档分类、图像处理等其他领域都得到了有效的应用。本文主要研究的是基于迭代思想的聚类算法。 相似文献
8.
随着互联网的发展和Web2.0的应用,网络信息呈现出越来越明显的动态演化性,传统的静态文摘方法不能很好地反应文摘的动态变化和新颖性,难以满足人们对于摘要获取效率的要求,动态文摘技术成为新的研究热点。提出一种基于改进K means算法的动态文摘提取和更新方法。为了减小聚类结果对初值的依赖性,提高聚类的稳定性,采用聚类中心的搜索算法获得较优的初始聚类中心。它能解决使用传统聚类方法进行动态文摘提取中存在的重复计算问题,并能保持较高效率。在TAC2008上的实验证明,该方法生成的动态文摘效果较好、算法效率高。 相似文献
9.
对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。 相似文献
10.
高胜利 《廊坊师范学院学报(自然科学版)》2012,12(3):32-33,36
通过对Web数据的特点进行详细的分析,在基于传统的贝叶斯聚类算法基础上,采用网页标记形式来有效地弥补朴素贝叶斯算法的不足,并将改进的方法应用在文本分类中,是一种很好的改进思路。最后实验结果也表明,此方法能够有效地对文本进行分类。 相似文献
11.
12.
针对Web挖掘,首先论述了Web挖掘的基本理论,接着分析数据挖掘中的聚类算法,讨论了聚类分析的数据结构和数据类型,以及聚类算法的分类,详细介绍了数据挖掘中用到的主要聚类算法,最后对评价聚类结果的方法进行了分析。 相似文献
13.
在分析基于工艺元的典型工艺信息组织模式的基础上,提出一种基于数据挖掘技术的从工艺数据中获取工艺元知识的方法.该方法采用文本聚类的思想扫描工艺数据库,将数据库中工艺描述划分为不同的类提取出常用工艺语句并设计了相应的处理算法,通过改进Apriori方法设计的Apriori-seq算法用于对工艺规程序列进行挖掘获取工艺元.同时,开发出在制造工艺序列数据中进行知识发现的原型系统SCU-KDPS,应用表明本文的研究方法有较高的知识发现效率. 相似文献
14.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。 相似文献
15.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。 相似文献
16.
17.
叶飞 《赤峰学院学报(自然科学版)》2012,(12):35-37
特征选取的好坏在文本聚类算法中起着举足轻重的作用,为了在文本预处理阶段更好地获得文本特征,这篇论文从文本语义关系的角度入手,研究了文本语义关系的数学表达方式,研究设计了更好的特征选择的算法,以此提高文本聚类的质量. 相似文献
18.
19.
《武汉职业技术学院学报》2016,(1)
伴随着互联网的飞速发展,网络上的信息资源呈现出井喷态势,如何从海量的信息中抽取出自己需要的信息已经变得越发的困难。在分析现有Web信息抽取技术现状及面临的挑战的基础上,设计了一种基于文本标签属性的Web新闻信息抽取模型。主要介绍了基于标签的Web信息抽取技术的算法,给出了信息抽取的具体实现过程,对基于DOM树节点遍历的文本标签过滤算法进行了描述,并选取了主流的新闻网站进行了抽取实验,验证了算法的可行性。 相似文献
20.
在分析基于工艺元的典型工艺信息组织模式的基础上,提出一种基于数据挖掘技术的从工艺数据中获取工艺元知识的方法.该方法采用文本聚类的思想扫描工艺数据库,将数据库中工艺描述划分为不同的类提取出常用工艺语句并设计了相应的处理算法,通过改进Apriori方法设计的Apriori-seq算法用于对工艺规程序列进行挖掘获取工艺元.同时,开发出在制造工艺序列数据中进行知识发现的原型系统SCU-KDPS,应用表明本文的研究方法有较高的知识发现效率. 相似文献