共查询到20条相似文献,搜索用时 31 毫秒
1.
Web数据挖掘是将数据挖掘技术和理论应用于对互联网资源挖掘的一门新兴研究领域.本文介绍了Web数据挖掘的基本概念,基本原理和实施步骤,分类,常用技术以及带来的负面影响. 相似文献
2.
本文介绍了Web数据挖掘的基本概念、原理和实现步骤,并对Web数据挖掘的分类和使用技术等相关内容进行了说明。 相似文献
3.
4.
个性推荐系统在数字图书馆中具有良好的发展和应用前景,逐渐成为电子资源智能处理的一个重要研究内容。提出了一种基于遗传算法的改进WEB数据挖掘方法,同时将该方法应用到数字图书馆中电子资源的个性化推荐中。实验结果表明,本文方法适用于大规模文本数据集;该方法提取规则的分类正确率较高,分类速度较快;本文方法极大地提高了文本挖掘系统的分类效率。 相似文献
5.
6.
提出基于半监督混合模型的海量入侵数据检测方法。利用蚁群算法进行入侵数据的特征选择,在结合半监督的混合模型分类方法进行入侵数据的分类,利用混合模型对数据样本空间的聚类分布进行描述,利用数据函数将聚类的信息与分类算法相结合,进行数据分类时对没有标示的数据样本进行考虑,对入侵数据进行检测。克服传统方法存在的弊端,提高了分类器的泛化能力,保证数据分类的效果,提高了入侵数据检测的准确性,完成对大数据环境下网络主动入侵海量数据检测的研究。实验的结果表明,利用本文方法能有效地提高入侵数据检测的准确性。 相似文献
7.
8.
9.
10.
从提高Web用法挖掘系统整体运行效率的角度出发,优化设计Web用法挖掘数据方案;通过细化采集工作,实施简化待采集信息元集合,扩展信息元标识功能,在信息抽象基础上对信息进行分类提交和存储,进行分布式数据预处理等策略,使得在高质量完成数据采集工作的基础上,系统的存储效率、性能平衡、解析与转储效率也得到明显提升。 相似文献
11.
在当前的复杂数据挖掘方法中,多是基于关联规则进行关联挖掘,一旦数据之间的关联性被大量的冗余关联打破,形成数据的无序性,就会出现挖掘耗时,挖掘错误较多的问题.为了解决这一问题,本文提出一种基于信誉兴趣区间划分的数据优化查询算法.在海量的数据中,针对错综复杂的数据关系,通过信誉兴趣函数对数据进行较为清晰地划分.尤其在关联规则较为混乱的情况下,这种方法能够得到更为准确的数据分类区间.实验结果表明,这种数据挖掘方法针对大型数据库中的海量数据挖掘效果更佳,且挖掘算法速度更快,效率更高. 相似文献
12.
【目的/意义】数据分类是数据挖掘研究的重要内容之一。数据分类时,由于单一分类算法分类性能的差异 性,使其不能很好地解决大部分的分类问题,探讨一种基于多类型分类器装袋技术的数据分类方法具有重要理论 意义和应用价值。【方法/过程】基于分类性能评价的准确率,使用五种不同类型的分类算法作为分类器,随机抽取 训练集后分别训练得到若干个弱分类器,然后采用自动优化加权方式,组合构建一个强的分类器。通过实验对五 种分类算法和装袋算法的分类准确率均值和标准差分别进行对比,得出各分类算法在四种数据集上分类性能的优 劣和稳定性。【结果/结论】在四个UCI数据集上的实验结果表明,与五种不同类型的分类算法相比,装袋算法不仅 在大部分数据集上都表现出很好的稳定性,而且具有更好的泛化能力。 相似文献
13.
随着互联网时代的不断发展,大数据呈爆发式增长,急剧增加的大数据为社会发展提供便利的同时也带来了挑战.大数据的存储、分析与深度挖掘直接影响到数据的利用价值,因此云计算应运而生.云计算具有较高的服务性,通过云计算技术可以将大数据进行分类及有效提取,过滤掉无用信息,并拥有巨大的空间对数据进行储存.云计算对数据的处理运用为决策者提供有效的数据支持,决策者根据数据分布与走势预测事物未来的发展方向,提高决策的正确率.在云计算的基础上,各类具有专业性与个性化的数据处理工具相继出现,其中数据立方的开发与运用提高了数据处理的效率与实效性,为用户提供更加优质的服务,促进云计算技术的进一步发展. 相似文献
14.
主要研究了文本分类精度问题。介绍了文本分类的基本过程,提出了一种改进的支持向量机文本分类技术,设计并实现了一个开放的中文文档自动分类系统。实验结果表明,提出的方法不仅具有较高的训练效率,同时也能得到很高的分类准确率和查全率。 相似文献
15.
对大数据的频繁项集挖掘是关联规则挖掘的关键步骤,通过有效的频繁项挖掘提高大数据量数据库的访问效率。传统方法中对大数据的频繁项集挖掘采用FP-Growth的粗糙集挖掘算法,扩展性和容错性不好。提出一种基于贝叶斯粗糙集的大数据频繁项挖掘技术,引入后缀项表的概念,通过后缀项表的构建,保留频繁项集的完整信息。构建FP-Tree,生成闭频繁项集,计算样本的密度,并抽取高密度区域的点集作为聚类中心集合,进行后缀项表的构造,按支持度分成若干集合,对各约简集内的属性集合进行融合,用变精度粗糙集的贝叶斯粗糙进行数据挖掘算法改进,仿真结果表明,算法不受可变参数的影响,鲁棒性较高,数据挖掘的准确度较高,运行时间较短。算法将在人工智能和数据挖掘领域具有更广的应用前景。 相似文献
16.
传统方法对中密度纤维板施胶系统数据进行分类时,需要依据已知类别的数据进行划分,数据分类的范围和效率较低。为解决这一问题,提出一种基于模糊支持向量机的数据分类方法,依据模糊算法对未知类别数据进行划分,通过支持向量机对划分后的数据进行训练,提高了中密度纤维板施胶系统数据分类的效率。通过最终的仿真实验结果表明,本文方法模型能够快速、准确地对中密度纤维板施胶系统中的数据进行分类,取得了令人满意的效果。 相似文献
17.
简要介绍了Web挖掘的概念以及功能,阐述数据挖掘系统结构,并对其体子框架及实现方法进行了探讨,最后给出基于分布计算J2EE平台的Web挖掘系统逻辑结构。从而系统将打破制约信息系统开发的瓶颈,提高客户数据挖掘的效率。 相似文献
18.
为了提高用户需求数据挖掘的时效性及准确性,提出基于径向基函数神经网络的数据关联挖掘算法。在对数据频繁项集约束性关联规则研究的条件下,通过约简计算,得到满足约束条件的候选数据集,并对用户需求数据频繁项集更新;利用径向基函数神经网络对候选数据集进行训练优化,通过上界剪枝法,获取用户需求数据,并实现其实时挖掘。实验结果表明,所提数据挖掘算法执行效率受数据规模变化的影响较小,挖掘效率更高,扩展性更好。 相似文献
19.
传统的关联规则挖掘技术过于依赖数据之间的关联属性,造成挖掘算法在高冗余知识空间关联规则不明显或者较弱的情况下挖掘耗时。本文提出一种应用与高冗余知识空间的优化数据挖掘算法。该算法首先找出最大频繁项集和频繁1-项集进行区域分类,然后利用已有频繁项集找出所有的其它频繁项集,去除冗余关联环境,节省了计算频繁项集的时间,节约了存储空间,使算法的效率得到提高。仿真实验结果证明了改进算法的可行性和有效性。 相似文献
20.
基于抽样策略的关联规则算法 总被引:1,自引:0,他引:1
在数据挖掘中应用抽样技术,可以显著提高数据挖掘任务的效率。文章通过研究关联规则挖掘任务的特点,提出了一种新的基于抽样技术的关联规则挖掘算法。 相似文献