首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 582 毫秒
1.
基于粒子群的模糊C均值文本聚类算法研究   总被引:1,自引:0,他引:1  
利用模糊C均值算法解决文本聚类问题时,随机选取的初始聚类中心和聚类数会导致不同的聚类结果,且容易陷入局部最优。提出利用粒子群优化算法确定模糊C均值的初始聚类中心,并通过向量空间模型和特征提取,再利用模糊C均值进行文档聚类。实验表明,这种基于粒子群的模糊C均值聚类算法迭代次数少,能解决经典模糊C均值算法对初始值敏感和易陷入局部极小的缺点,且聚类速度和效果得到明显提高。  相似文献   

2.
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。  相似文献   

3.
文本聚类结果描述研究综述   总被引:1,自引:0,他引:1  
首先对文本聚类结果描述的研究背景和相关的研究情况进行说明,分析自动标引、自动文摘、概念聚类与文本聚类结果描述的关系,定位文本聚类结果描述的研究内容;然后根据文本聚类结果描述的具体要求,对该问题进行形式化;最后给出文本聚类结果描述的评价方法。  相似文献   

4.
聚类有效性指标用于评价聚类质量和确定最佳聚类数,针对包含大小和密度差异性较大数据类的数据集,在分析了传统模糊聚类有效性指标不足的基础上,提出了一个同时考虑紧致性、重叠度和分离性的聚类有效性指标COS.类内紧致性用一定阈值内的隶属度之和与最大类内距离之比表示,一定阈值内各样本同属于两个类的隶属度差异反映了这两个类的重叠度,类间分离性的度量为最小类间距离,使COS指标值最大的聚类数即为最佳聚类数.在四个人工数据集和iris真实数据集上利用模糊C均值算法进行聚类实验的结果表明,COS指标可以有效发现小类和低密度类.  相似文献   

5.
从嵌入式NSTL文本推荐系统的检索词推荐需求入手,分析原有方法的不足,引入共词分析方法和分化理论,提出一种新的最佳聚类数确定方法,改进最小类间距离和平均类内距离的计算方法,强化聚类结果的推荐效果,同时使推荐效果可以随着样本数据的变化而动态调整。最后,运用实验验证该方法的有效性。
  相似文献   

6.
本文从信息论的角度考虑了聚类问题,将聚类看成是有损信息压缩的过程.首先运用率失真理论建立了模糊聚类的优化模型,与经典的模糊聚类模型相比,模型的目标函数中多了一个描述聚类过程复杂度的指标.同时为了估计聚类数目,还提出了一个新的聚类有效性指标.其次通过求解优化模型得到基于率失真理论的模糊聚类算法.最后将基于率失真理论的模糊聚类算法与经典模糊C均值算法进行了数值实验比较.数值实验结果表明基于率失真理论的模糊聚类算法能够自动确定聚类数目,在运行时间上比模糊C均值算法有一定减少,且最终的模糊划分矩阵与模糊C均值算法相比有较少的模糊性,因而聚类结果更加明确可靠.  相似文献   

7.
基于类的统计语言模型是目前解决计算语言学问题的一个重要方法。本文依据Sven Martin等人提出的词聚类方法,采用二元词聚类方式对给出的语料库进行词聚类,并对聚类的结果进行了多方面分析。  相似文献   

8.
XML文档自动聚类研究   总被引:6,自引:4,他引:6  
潘有能 《情报学报》2006,25(2):215-220
本文在文本聚类的基础上对XML文档自动聚类进行了研究,对划分聚类法和层次聚类法进行了改进,使之适合于XML文档聚类;给出了元素比较法、边集比较法和编辑距离法等三种计算文档间相似度的方法,并利用实际数据进行了测试和分析。  相似文献   

9.
文章在对DBSCN与K-means两种经典聚类算法分析研究基础上,结合中文文本数据的特点,对这两种方法进行结合与改进,提出了一种中文文本聚类方法:DKTC。该算法能自动产生簇的个数,且对“噪声”或异常数据不敏感,对数据的输入顺序不敏感,另外,与DBSCAN相比,该算法有更高的处理效率。实验表明,DKTC算法不仅能对中文文本进行聚类,且与传统DBSCN与K-means法相比,聚类效果都有一定程度的改善。  相似文献   

10.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法.  相似文献   

11.
为了满足检索用户对推荐服务日益迫切的需求,结合检索词推荐需求研究推荐理论。基于三种典型推荐方法:基于内容的过滤、基于规则的过滤和基于协作的过滤,提出一种检索词的混合推荐方法,并基于检索日志构建一种“脱机预处理和挖掘、联机推荐”的检索词推荐模型。最后,在NSTL嵌入式系统上进行实证研究。基于检索日志数据,以简单检索方式下的检索词推荐为突破口,设计一套原型系统,验证检索词的推荐效果并在原型系统上检验一种改进的BWP方法的效果。  相似文献   

12.
针对传统BP神经网络销售预测算法存在学习效率低、收敛速度慢、易陷于局部极小值等不足,提出改进措施:采用自适应学习效率提高算法的有效性和收敛性,采用附加动量法提高算法的适应性,采用改进的遗传算法优化神经网络的权值,利用改进遗传算法全局寻优的特性实现快速寻优及精确预测的目的。最后用实例计算验证本算法。  相似文献   

13.
针对粒子群优化算法早熟、易陷入局部收敛的问题,提出一种克服早熟的粒子群算法.该算法在标准粒子群算法基础上加入极值扰动和自适应调整系数,使其易于跳出局部最优.又分析了灰色GM(1,1)预测模型的局限性,提出了一种带极值扰动的自适应调整惯性权重的改进PSO优化灰色模型AdPSO-GM,并将此模型用于数据预测挖掘研究中.最后,通过一个实例对所提方法进行验证,结果表明,本文所给模型具有较高的预测挖掘精度.  相似文献   

14.
基于改进编辑距离的相似重复记录清理算法   总被引:1,自引:0,他引:1  
相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。  相似文献   

15.
基于Hadoop开源分布式计算框架和Mahout协同过滤推荐引擎技术构建图书推荐引擎系统,并利用云模型和Pearson系数对传统协同过滤推荐算法进行改进,改善传统单机推荐算法在高维稀疏矩阵上进行运算所导致的系统性能不佳及推荐结果不准确的问题。利用实验对分布式推荐平台的整体性能及改善后的协同过滤推荐算法进行测试评估,发现当虚拟机节点不断增加时,协同过滤推荐引擎的计算时间不断减少,这表明推荐引擎系统的总体性能较传统单机推荐引擎得到提升;利用MAE分别对原始协同过滤推荐效果和改进后的推荐算法进行测评,发现改进后的推荐引擎算法的推荐准确率较改进前提高13.1%。  相似文献   

16.
基于Apriori改进算法的局部反馈查询扩展   总被引:1,自引:0,他引:1  
提出面向查询扩展的Apriori改进算法,采用三种剪枝策略,极大提高挖掘效率;针对现有查询扩展存在的缺陷,提出基于Apriori改进算法的局部反馈查询扩展算法,该算法用Apriori改进算法对前列初检文档进行词间关联规则挖掘,提取含有原查询词的词间关联规则,构造规则库,从库中提取扩展词,实现查询扩展。实验结果表明该算法能够提高信息检索性能,与现有算法比较,在相同查全率水平级下其平均查准率有了明显提高。  相似文献   

17.
[目的/意义] 在大数据时代面对海量的数据用户有时会束手无策。因此,越来越多的学者们开始关注互联网热点话题发现的算法,帮助用户快速获取热点话题。[方法/过程] 基于DBSCAN算法,通过动态调整参数来优化算法,实现热点话题发现。根据句法结构与句间关系分析构建热点话题过滤模型,过滤包含热点词项的一般话题。[结果/结论] 采用主流网站新闻数据集进行实验,利用错检率、漏检率等评价指标对算法的有效性进行检验,实验结果证明改进算法性能有所提升,能够为信息用户提供科学研究网络数据的高效途径。  相似文献   

18.
改进TF-IDF算法的文本特征项权值计算方法   总被引:4,自引:0,他引:4  
首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(term frequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。  相似文献   

19.
单汉字标引技术的改进研究   总被引:10,自引:0,他引:10  
本文针对汉语构词的特殊性, 提出了一种单汉字标引的改进算法。该算法在标引上采用了对非检索词词首字的剔除标引, 在检索上, 采取检索词首字查找, 检索词直接匹配的算法。还提出了对检索结果的存储以及构筑后控词典, 以逐步完善单汉字检索系统。以上算法, 在SCIRS (Single Chinese Character Indexing and Retrieval System) 得到初步实现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号