首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
黄旭  马凯 《大众科技》2011,(2):65-66
传统的聚类算法在处理复杂特征数据时效果不理想,为此提出使用高斯径向基核函数将原空间上的数据映射到高维特征空间后,再用蚂蚁算法进行第一次聚类,针对第一次聚类结果得到较多簇等问题,提出再用马赛克算法进行二次聚类,得到较为接近真实情况的簇数目。  相似文献   

2.
郭伟光  汪本强  杨学春 《情报杂志》2015,(2):159-163,158
针对社会化标签语义模糊,传统K-medoids聚类算法对初始聚类中心敏感、收敛速度缓慢、只能将归类对象划入到单一类别的缺点,提出一种基于改进K-medoids的社会化标注资源两阶段聚类算法。算法应用一种简洁快速的初始聚类中心选取新规则以及改进的聚类准则函数,首先进行标签聚类,然后将同一标签簇中标签标注的网络资源初步划分到同一资源簇中,最后在这些资源簇中再次进行资源聚类。实验结果表明,提出的算法能自主、合理地确定初始聚类中心,聚类过程收敛速度快,聚类结果有更好的准确性。  相似文献   

3.
一种基于密度最大值的聚类算法   总被引:1,自引:0,他引:1  
提出了一种结合了基于密度聚类思想的划分聚类方法——"密度最大值聚类算法(MDCA)",以最大密度对象作为起始点,通过考察最大密度对象所处空间区域的密度分布情况来划分基本簇,并合并基本簇获得最终的簇划分.实验表明,MDCA能够自动确定簇数量,并有效发现任意形状的簇,对于未知数据集的处理能力和聚类准确度都优于传统的基于划分聚类算法.  相似文献   

4.
本文将数据挖掘算法应用干智能答疑系统中,提出了一套基于数据挖掘算法的答疑设计方案并加以改进,传统的K-均值算法聚类虽然速度快,在文本聚类中易于实现,但其同样依赖于所有变量,聚类效果往往不尽如人意.为了克服这一缺点,提出一种改进的K-均值文本聚类算法.它在K-均值聚类过程中,向每一个聚类簇中的关键词自动计算添加一个权重,重要的关键词赋予较大的权重.经过实验测试.获得了一种基于子空闻变量自动加权的适合文本数据聚类分析的改进算法,它不仅可以在大规模、高维和稀疏的文本数据上有效地进行聚类.还能够生成质量较高的聚类结果.实验结果表明基于子空闻变量自动加权的K-均值文本聚类算法是有效的大规模文本数据聚类算法.  相似文献   

5.
K-均值聚类算法是一种基于划分方法的聚类算法,本文通过对传统的K-均值聚类算法的分析,提出了一种改进的K-均值算法,并对该算法的时间复杂度和空间复杂度进行了分析。该算法在计算聚类中心点时采用了一种最近邻的思想,可以有效地去除"噪声"和"孤立点"对簇中平均值(聚类中心)的影响,从而使聚类结果更加合理。最后通过实验表明该算法的有效性和正确性。  相似文献   

6.
SA-DBSCAN:一种自适应基于密度聚类算法   总被引:10,自引:0,他引:10  
DBSCAN是一种经典的基于密度聚类算法,能够自动确定簇的数量,对任意形状的簇都能有效处理.DBSCAN算法需要人为确定Eps和minPts?2个参数,导致聚类过程需人工干预才能进行.在DBSCAN的基础上提出了SA-DBSCAN聚类算法,通过分析数据集统计特性来自动确定Eps和minPts参数,从而避免了聚类过程的人工干预,实现聚类过程的全自动化.实验表明,SA-DBSCAN能够选择合理的Eps和minPts参数并得到较高准确度的聚类结果.  相似文献   

7.
聂珍  王华秋 《现代情报》2012,32(7):112-116,121
本文采取了3种必要的措施提高了聚类质量:考虑到各维数据特征属性对聚类效果影响不同,采用了基于统计方法的维度加权的方法进行特征选择;对于和声搜索算法的调音概率进行了改进,将改进的和声搜索算法和模糊聚类相结合用于快速寻找最优的聚类中心;循环测试各种中心数情况下的聚类质量以获得最佳的类中心数。接着,该算法被应用于图书馆读者兴趣度建模中,用于识别图书馆日常运行时各读者借阅图书的类型,实验表明该算法较其它算法更优。这样的读者兴趣度聚类分析可以进行图书推荐,从而提高图书馆的运行效率。  相似文献   

8.
提出了一种特征选择和特征抽取相结合的特征降维方法.首先使用改进的k-means聚类算法对特征进行选择,然后使用SVD方法在基于语义层面上对特征空间进行压缩,试验结果表明,这种特征降维模式在文本分类的准确性方面效果较好.  相似文献   

9.
基于多因素方差分析的文本向量特征挖掘算法   总被引:2,自引:0,他引:2  
文本向量特征挖掘应用于信息资源组织和管理领域,在大数据挖掘领域具有较大应用价值,传统算法精度不好。提出一种基于多因素方差分析的文本向量特征挖掘算法。使用多因素方差分析方法得到多种语料库的特征挖掘规律,结合蚁群算法,根据蚁群适应度概率正则训练迁移法则,得到种群进化最近时刻获得的数据集有效特征概率最大值,基于最优划分的K-means初始聚类中心选取算法,先对数据样本进行划分,然后根据样本分布特点来确定初始聚类中心,提高文本特征挖掘性能。仿真结果表明,该算法提高了文本向量特征的聚类效果,进而提高了特征挖掘性能,具有较高的数据特征召回率和检测率,时间耗时较少,在数据挖掘等领域应用价值较大。  相似文献   

10.
需要对语义主题树特征进行聚类算法设计,提高对语义特征的搜索和语义泛化能力。传统的语义特征聚类算法采用基于本体映射的语义特征聚类算法,建立异构的本体模型之间的语义等价映射关系,导致聚类性能和语义泛化能力不好。提出一种基于语义覆盖度融合的I/O映射聚类算法,利用领域知识和模式匹配,建立本体之间语义映射关系,考虑三种与语义信息相关的学习知识,得到语义相似度函数,利用统计TF-IDF的方法计算词语的特征权值,通过语义主题树特征匹配,实现搜索引擎的覆盖度I/O映射聚类改进。仿真实验表明,采用该算法能提高对语义的覆盖度融合能力,具有更好的数据聚类性能,较好地完成语义映射任务,语义信息检索查准率提高为98.7%。  相似文献   

11.
张新颜  白桂梅 《科技通报》2012,28(10):186-187,190
图像分割技术一直是图像处理中最关键的技术之一.本文主要研究了加权聚类算法在图像分割中应用.算法采用Fisher线性判别率的方法对特征进行加权聚类,对比了传统的聚类算法.实验结果表明,本文提出的算法能够提高图像分割的准确度.  相似文献   

12.
针对大量不相关的冗余特征制约图像关键特征分类性,导致语义识别模型出现偏差的问题,提出一种混合约束的半监督图像语义特征选择方法。在半监督学习的基础上,算法采用成对约束和数据清洗相结合的特征评价方法快速去除不相关图像干扰特征,聚类过程中考虑可转换语义直接的特征相关性,保证语义特征正确。实验结果表明,与传统的语义特征识别方法相比,该方法能以更少的特征获得更好的语义特征分类性能,有更好的识别效果。  相似文献   

13.
倪现君 《中国科技信息》2008,(4):122-122,124
对个人网上银行数据仓库的数据处理中使用了Birch算法Birch算法充分考虑到数据分布的不均衡性,利用簇对数据对象进行划分,将对数据对象的聚类转变为对簇的聚类,给出了Birch算法的改进算法,井将其应用在个人网上银行数据仓库的数据处理中,论证了其在处理海量数据时显著的优越性。  相似文献   

14.
数据类间分布不均衡是不平衡数据集分类效果不好的主要原因,为了克服类间分布的不均衡,本文提出了一种基于邻近样本类别判断的不平衡数据分类算法。首先,对待判定样本,计算它的k个最邻近样本,然后将待判定样本的类别指派到它的k个最邻近中的多数类。由于本文所提出的不平衡数据分类算法在类别决策时,只考虑少量的邻近样本的类别,而不是考虑所有的训练样本,因此可以较好地克服类间不平衡对少数类分类结果的影响。在客户流失数据集上的仿真实验充分证明了本文算法能较好地处理不平衡数据分类问题。  相似文献   

15.
徐峰 《科协论坛》2008,(5):68-68
本文对个人网上银行数据仓库的数据处理中使用了Birch算法Birch算法充分考虑到数据分布的不均衡性.利用簇对数据对象进行划分,将对数据对象的聚类转变为对簇的聚类,给出了Birch算法的改进算法,并将其应用在个人网上银行数据仓库的数据处理中,论证了其在处理海量数据时显著的优越性.  相似文献   

16.
将嵌套圆融入可视化聚类方法之中,探讨和研究了基于嵌套圆的可视化聚类方法和主要算法,并选择情报学领域的数字资源进行实证分析。实证结果表明,该方法既能够在有限的可视化空间提供海量资源的整体描述和全局视图展示,又可以根据实际需要对重要聚类簇或核心节点进行深入挖掘和个性化展示,能够为海量信息资源的深度开发与利用提供技术支持。  相似文献   

17.
在对多层物联网下非法信息进行快速定位的过程中,容易出现实际问题中用户的行为模式存在多样性与不可预知性的情况,导致传统方法由于采用提前设定模式进行学习,无法有效实现非法信息的快速定位,提出一种基于K-均值聚类的多层物联网下非法信息快速定位方法,分析了多层物联网的结构,随机选择若干数据点作为初始簇中心,将集合中所有数据点分配至和其最近的簇中心所在的类簇中,形成初始分布。分配完成后对各簇中心进行更新,不断进行数据划分,直至簇中心不再发生改变,聚类准则函数收敛。通过评价指标获取合理的聚类结果,从而完成多层物联网下非法信息的快速定位。仿真实验表明,所提方法具有很高的准确性及高效性。  相似文献   

18.
基于改进特征提取及聚类的网络评论挖掘研究   总被引:1,自引:0,他引:1  
[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤。并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进K-means聚类算法对产品特征进行聚类。[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为92.64%,综合值达到79.07%。在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能。  相似文献   

19.
研究多源语义特征分层数据库中的大数据聚类方法,实现数据的分类识别。多源语义特征分层数据库中由于路由冲突,在链路负载较大的情况下,不能有效实现对大数据语义特征的并行搜索。提出一种基于增广链同态解析的链路分流方法避免路由冲突,实现增广链修复下大数据并行搜索聚类。构建大数据聚类的语义相似度融合模型,基于跨层链路分流算法实现增广链路分流,进行语义本体模型构建,选择采用高阶贝塞尔函数累积量作为增广链修复检验统计量,确定节点数据包的置信度,确立置信区间,在进行缓冲区溢出修复时,进行功率谱幅度特征提取,实现大数据的并行搜索聚类,进行语义本体模型构建,为离群点新建一个簇,依次对每个文档的主题词集进行处理,将每个主题词自动添加入形式背景的属性集中,采用并行搜索算法实现对语义大数据的优化聚类算法改进。仿真结果表明,采用该算法进行大数据聚类,契合度较高,误分率较低,性能优越。  相似文献   

20.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号