首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 93 毫秒
1.
联规则挖掘是数据挖掘和知识发现领域的重要课题,但就判定关联规则是否成立的依据,即兴趣度的度量方法问题,学术界没有一致的标准.既有的兴趣度度量方法包括支持度-置信度方法,提升度方法,卡方分析方法等.这些传统的兴趣度度量方法存在各自的局限,表现为缺乏客观标准,缺少统计依据,只能度量正向关系等方面.为了克服这些问题,本文提出了一种基于统计推断的新的兴趣度度量方法,并对该方法与传统的方法进行了比较,证明了该度量公式的渐进分布形式,指出了新方法的优点,实证了新方法的特征属性.该方法用于关联规则挖掘,在判断规则成立的标准上是客观的,可以判定正负关联两种类型,在实际应用上是方便的,具有可操作性,较之原有方法有一定的优势.  相似文献   

2.
关联规则兴趣度度量方法的比较研究   总被引:1,自引:1,他引:1  
关联规则挖掘是数据挖掘中重要的研究课题,已有许多有效的实现算法。然而,这些算法找到的关联规则数目太多,用户无法对其进行分析。为了克服这个问题,出现了一些关联规则衡量标准来分析规则的有趣性,在本文里我们在给出的实例上比较分析了一些关联规则客观兴趣度度量指标,提出了使用关联规则客观兴趣度度量指标的一些建议。  相似文献   

3.
关联规则兴趣度的度量   总被引:16,自引:2,他引:14  
本文对PS公式(关联规则兴趣度的一种度量公式,简单有效)的数学特性进行了深入的讨论,指出了它的优点和不足,并在此基础之上提出了一个新的度量规则兴趣度的方法.这种度量方法综合考虑了用户主观偏好、规则准确度、规则相关度对规则兴趣度的影响,克服了支持度-可信度框架的缺陷,可以用来简化寻找令人感兴趣规则的过程,优化现有的关联规则挖掘算法,因此,具有很好的应用前景.  相似文献   

4.
关联规则挖掘算法通常生成大量的规则,但由于资源的限制,只有少量规则可能被筛选出来使用。因此关联规则的兴趣度评价成为数据挖掘领域中的一个重要问题。考虑到关联规则兴趣度评价本质上是一个多属性决策问题,本文首先基于关联规则的客观兴趣度度量和用户的主观偏好,建立了关联规则评价指标体系;然后提出一种基于组合评价方法的关联规则评价的框架及其具体实现步骤,以解决多种评价方法评价结果不一致的问题;最后以某超市购物篮数据分析为例,基于整体差异的组合评价方法实现了关联规则的组合评价以验证所提评价方法的可行性和有效性。  相似文献   

5.
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性。本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法。本文中的计算方法都用python语言实现。通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的文本信息比较的不足,使得网页信息提取更加准确,更加迅速。  相似文献   

6.
黄名选 《图书情报工作》2011,55(15):110-113
针对情报检索系统中存在的词不匹配问题,提出一种基于相关性-兴趣度架构的关联规则挖掘的局部反馈查询扩展算法,并论述查询扩展基本思想、扩展算法模型以及扩展词权值的计算方法。该算法主要特点是采用支持度-置信度-相关性-兴趣度框架衡量关联规则,避免产生负相关的、虚假的和无兴趣的规则,提高来自于关联规则的扩展词的质量。实验结果表明,该算法能有效地改善和提高信息检索性能, 有很高的实际应用价值和推广前景。  相似文献   

7.
关联规则挖掘是解决电子商务推荐问题的重要方法之一.针对传统关联规则挖掘算法在解决移动电子商务环境个性化推荐问题时反复扫描数据库,频繁项挖掘效率低,关联规则挖掘准确率低以及规则大量冗余等不足,提出一个基于事务矩阵和用户兴趣度的关联规则挖掘算法(Matrix-and-Interestingness-based Association Rules Mining,MIbARM).该算法仅需扫描一次数据库,并在挖掘过程中不断缩小算法搜索空间以避免生成冗余候选项,同时避免了冗余规则挖掘,从而提高了挖掘效率.最后,在四组人工数据和160种参数组合的数值实验环境下,引入Apriori、CBAR 及BitTableFI算法对MIbARM进行对比验证.结果表明,在不减少有趣规则的前提下,MIbARM不但可有效避免冗余候选项集的产生,而且大幅减少了冗余规则数量,极大提高了算法的搜索效率,同时提升了个性化推荐的质量,更适用于移动电子商务环境下的个性化推荐问题.  相似文献   

8.
肖强  钱晓东 《图书情报工作》2011,55(16):136-139
针对传统关联规则算法中事务扫描的重复性以及最小支持度设定的不确定性,导致关联规则挖掘算法扫描事务数据库运行效率低下的问题,提出一种基于K-means的Web访问用户关联规则挖掘算法,该算法利用K-means算法聚类的效果,将Web访问用户数据集聚类为不同的小数据集,采用不同的最小支持度,分别对Web访问用户聚类小数据集进行关联规则挖掘。分析和实验结果证明,该算法可有效提高传统关联规则挖掘算法的效率,同时也可有效避免传统关联算法中扫描中的重复性。  相似文献   

9.
大多网页都是基于服务器端模板生成的,所以在同一个站点经常看到很多外观相同内容相似的网页.HTML是一种半结构化的标记语言,每个HTML网页都对应一个DOM树结构.网页的相似性表现结构上就是结构相似性.研究网页结构相似性的方法有很多,本文从DOM树中的链路结构的角度来研究不同网页间的相似性,并提出了基于链路压缩树的结构相似度度量模型.本文中的计算方法都用Python语言实现.通过实验,本文使用多种方法对不同网页间的相似度进行了计算和分析,实验数据表明,基于链路压缩树的结构相似度度量模型具有较好的适用性,其速度是传统方法不可比拟的.  相似文献   

10.
阮光册 《图书情报工作》2011,55(11):121-124
网络用户行为研究大多采用Web用户日志挖掘,首先介绍Web关联规则应用的传统方法,并指出传统方法中忽略了用户兴趣这一因素研究,更多的是以网页高频出现为挖掘结果进行聚类。针对这一问题,提出一种基于Web关联规则挖掘、页面内容和会话相似度相结合的研究方法,聚类出用户频繁访问的页面组,以发现网络用户行为的规律。在案例应用中,以上海某高校学生网络行为研究为例,得出相关结论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号