首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 660 毫秒
1.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性——网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集来源于同一个样本集而忽视了测试集中可能包含无类别样本的可能。基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度。实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法。  相似文献   

2.
王秀和 《科技通报》2015,(3):202-206
在对K均值算法和图像聚类的蚁群优化算法(ACO)进行对比分析后,本文提出了K均值ACO算法来解决K均值误分类和ACO慢聚敛的问题。K均值ACO算法将K均值的结果当成ACO的启发式信息,如此提高了ACO在蚁群寻找规则方面的光照概率和光照像素,允许蚁群根据信息素集中度而非概率来筛选节点,以致可以在不对ACO的随机搜索质量进行改变的情况下就可以完全获取到启发式信息。对模拟数据和真实数据进行验证后,K均值ACO算法证实可以改善K均值误分类的聚类精确度并提高ACO的收率速度。  相似文献   

3.
李建军  宋志章 《科技通报》2012,28(6):152-154
网页文本特征数常高达上万个,无用和冗余特征相当多,为提高网页文本分类精度,提出一种混合智能算法的网页文本分类方法。首先采用遗传算法对网页文本特征初步选择,然后采用蚁群算法对初步选择特征进行精细选择,最后采用K近邻算法建立文本分类器。结果表明,混合智能算法很好消除无用和冗余特征,提高了网页文本分类的精度,加快分类速度。  相似文献   

4.
黄静  薛书田  肖进 《软科学》2017,(7):131-134
将半监督学习技术与多分类器集成模型Bagging相结合,构建类别分布不平衡环境下基于Bagging的半监督集成模型(SSEBI),综合利用有、无类别标签的样本来提高模型的性能.该模型主要包括三个阶段:(1)从无类别标签数据集中选择性标记一部分样本并训练若干个基本分类器;(2)使用训练好的基本分类器对测试集样本进行分类;(3)对分类结果进行集成得到最终分类结果.在五个客户信用评估数据集上进行实证分析,结果表明本研究提出的SSEBI模型的有效性.  相似文献   

5.
目前储量的分类标准要求所有指标值符合既定的指标范围,否则难以划分储量类别.为克服这一问题,结合模糊C均值法和Fisher判别分析法实现难采储量的分类.首先基于效益指标运用模糊C均值算法自动搜索储量的最佳类别,再利用Fisher判别分析法建立储量效益指标类别与储量属性指标的关系式.在已知储量指标值的情况下,通过此关系式即可判别储量的类别.最后以大庆某油田为实例,对其难采储量进行分类,有效指导难采储量滚动开发决策.  相似文献   

6.
在K均值算法基础上,提出了改进的K均值算法(K+均值)。此方法计算每个数据对象所在区域的密度选择相互距离,最远的k个处于高密度区域的点作为初始聚类中心。将K均值算法和K+均值算法分别应用于入侵检测,试验结果表明:K+均值算法能够避免K均值算法固有的缺点,并且有比较高的检测性能。  相似文献   

7.
根据领域文本数据自身的特点,首先对领域文本样本建立文本向量空间模型,使用词频与DF相结合的方法,缩小特征词候选集,再依据基于图的半监督学习算法,迭代地学习一个基于领域特征关联度的图的半监督分类器,利用少量的标记数据,获得更好的领域文本特征信息抽取。在机械制造等多个领域的语料集上进行测试,对实验结果进行分析,实验证明,该方法是可行的。  相似文献   

8.
基于E-Learning随机场学习的信任节点定位算法   总被引:1,自引:0,他引:1  
提出一种基于E-Learning随机场学习的信任节点定位算法,采用SVM监督学习辅助策略降低新标记样例中可能的误标记样例数以减少新训练集的噪声,设计富信息策略训练学习器,基于KKT原理,把训练ELM的过程等同于解决下面的对偶优化问题。通过E-Learning随机场学习,充分利用算法对噪声具有鲁棒性,实现对了个性化推荐网络信任节点的定位算法改进。仿真结果表明,该算法能准确定位到个性化推荐网络的信任节点,为P2P商家推荐和信任评估提供数据基础,信任节点定位的准确性优越于传统算法。算法采用E-Learning随机场学习,学习过程中不需要调整大量参数,所以算法学习速度快,尤其适合处理大规模的不平衡数据集分类问题,提高了个性化推荐网络信任节点的定位准确性。  相似文献   

9.
张冰波 《大众科技》2010,(10):43-45
为了能在海量的文本中及时准确地获得有效的知识和信息,文章表示技术以及文本自动分类技术受到了广泛的关注。文章介绍了文本分类的过程和相关的技术,利用向量空间模型构建文本表示模型,介绍了常用的文本分类算法,由于传统类中心分类算法训练文档分散,不能准确的表示各类别的中心向量,提出了优化算法,从而提高了分类准确度。  相似文献   

10.
本文提出了一种免疫克隆选择算法与模糊C-均值聚类算法相结合的混合聚类算法。首先用克隆选择算法对模糊聚类中心的个数和聚类中心的选取进行指导,然后进行聚类,是一种有监督学习和无监督学习结合的一种算法,将该算法用于汽轮机的故障诊断中,诊断结果表明,该方法能够正确地诊断出存在的故障,具有实用价值。  相似文献   

11.
一种基于聚类的云计算任务调度算法   总被引:1,自引:0,他引:1  
任务调度是云计算中的一个关键问题.针对 Min-Min 算法负载不平衡的缺点,引入 K-means 聚类,提出一种基于 K-means 聚类和 Min-Min 的云计算任务调度的新算法.该算法采用 K-means 聚类方法依据任务长度对任务聚类进行预处理,然后根据 Min-Min 算法的机制进行任务调度.仿真结果表明,该算法具有较好的负载均衡性和系统性能.  相似文献   

12.
基于优化初始类中心点的K-means改进算法   总被引:2,自引:0,他引:2  
K-means算法是一种重要的聚类算法,在网络信息处理领域有着广泛的应用。由于K-means算法终止于一个局部最优状态,所以初始类中心点的选择会在很大程度上影响其聚类效果。本文提出了一种K-means算法的改进算法,首先探测数据集中的相对密集区域,再利用这些密集区域生成初始类中心点。该方法能够很好地排除类边缘点和噪声点的影响,并且能够适应数据集中各个实际类别密度分布不平衡的情况,最终获得较好的聚类效果。  相似文献   

13.
本文将数据挖掘算法应用干智能答疑系统中,提出了一套基于数据挖掘算法的答疑设计方案并加以改进,传统的K-均值算法聚类虽然速度快,在文本聚类中易于实现,但其同样依赖于所有变量,聚类效果往往不尽如人意.为了克服这一缺点,提出一种改进的K-均值文本聚类算法.它在K-均值聚类过程中,向每一个聚类簇中的关键词自动计算添加一个权重,重要的关键词赋予较大的权重.经过实验测试.获得了一种基于子空闻变量自动加权的适合文本数据聚类分析的改进算法,它不仅可以在大规模、高维和稀疏的文本数据上有效地进行聚类.还能够生成质量较高的聚类结果.实验结果表明基于子空闻变量自动加权的K-均值文本聚类算法是有效的大规模文本数据聚类算法.  相似文献   

14.
孟婷 《情报探索》2021,(1):47-55
[目的/意义]使用K-means聚类分析方法,对外交机构遭受的恐怖主义袭击进行定量、客观的评估。[方法/过程]构造K-means聚类方法风险评估模型,对1970—2018年外交机构遭遇恐怖袭击事件进行分析,客观地计算出几类袭击方式、袭击目标和不同国家的风险,其中重点分析了该外交机构政治隶属和该外交机构地理位置所在国家的恐怖主义风险评估。[结果/结论]K-means算法能减少主观性和人为误差。根据足够规模的数据库,对不同风险等级进行分类,便于直观分析不同风险等级的国家,得到切实可行的反恐对策。  相似文献   

15.
[目的/意义]为弥补现有作者影响力评价指标缺乏内容信息的不足,发现不同研究主题下高影响力的作者,文章给出一种基于主题内容的作者影响力评价方法。[方法/过程]以情报学领域近5年核心期刊的文献为样本,首先利用CTM模型提取样本文献的主题,获得文献作者对不同主题的贡献值;再利用K-means算法对样本文献分类,由此将文献对应的作者划分到特定主题类别下;然后,将作者在某特定主题类别的贡献值与作者发表文献的平均被引频次相结合,设计特定主题类别下作者影响力指标(Author Influence Index in Specific Topic,AII-ST);最后,根据AII-ST值对作者进行影响力排序。[结果/结论]本研究在方法上,通过CTM模型与K-means算法的结合实现了K-means算法初始聚类中心与聚类数目的双重优化;在应用中,作者评价指标AII-ST值能有效限定作者的比较范围,较好地反映作者的研究方向;新指标评价视角新颖、评价结果可靠。  相似文献   

16.
聚类算法通常用于数据的聚类。除此,它还可以用于异常数据的检测。首先介绍了基于划分的聚类算法K-means,然后给出改进算法I-K-means的算法描述,最后通过实例进行异常分析。  相似文献   

17.
文献著者消歧是人名消歧的一种,近年来引起了学术界的广泛关注。其中,文献聚类方法是文献著者消歧的重要方法,但其实验效果往往不佳。基于此,对文本聚类K—means方法进行改进,并在此基础上来实现文献著者消歧。实验结果表明,改进的K—means算法能有效提高文献著者消歧的实验效果。  相似文献   

18.
构建医药制造业竞争力评价指标体系,运用数据挖掘技术(K-均值聚类算法)定量评价竞争力,得出相应结论,为政府和企业决策提供参考。  相似文献   

19.
张菊 《科技通报》2012,28(6):47-48
图像边缘检测一直是图像处理领域研究的重点问题。边缘是图像最基本的特征,本文采用了模糊K-均值聚类算法对图像进行边缘检测。该方法针对不同的图像找到相对比较有效的边缘检测算法,进而大幅度地减少了数据量,保留了图像重要的结构属性。通过mat lab实验,证明了该方法可以有效提取图像的边缘信息。  相似文献   

20.
综合用户背景与资源特点,基于用户的协同过滤更适合高校图书馆在信息推荐中的应用。对其由于馆藏数字资源空间增大而导致推荐系统性能下降以及数据稀疏性问题,提出一种用户意图聚类的方法。通过运用K—means算法,对资源类别的意图特征值相似用户进行聚类,来提高推荐的实时性,降低数据稀疏性对信息推荐造成的影响。实验结果表明,基于用户意图聚类的协同过滤算法能有效提高推荐质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号