首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
设计并采用Java语言实现基于事务数据库标识列表的频繁项集的产生算法——TidlistApriori。通过与采用Hash-Tree的Apriori算法进行比较,表明TidlistApriori能够提高频繁项集的产生效率,可以成为主题关联挖掘的有效算法工具。  相似文献   

2.
面向查询扩展的特征词频繁项集挖掘算法   总被引:1,自引:0,他引:1  
为了获取高质量的扩展词,提出一种面向查询扩展的基于文本数据库的特征词频繁项集挖掘算法。该算法采用支持度衡量特征词频繁项集,给出新的剪枝策略,并结合原始查询,挖掘同时含有查询词项和非查询词项的特征词频繁项集,以提高挖掘效率。实验表明,与传统的挖掘算法相比,本算法更有效、更合理。  相似文献   

3.
提出一种新的基于负关联规则与频繁项集挖掘的信息检索系统模型,详细阐述系统模型的设计思想、各模块的功能,以及检索系统实现的三种关键技术(即频繁项集挖掘技术、负关联规则挖掘技术和查询优化扩充技术)及其检索算法。实验结果表明,该检索系统能有效提高和改善信息检索性能。  相似文献   

4.
挖掘最大频繁项集的优势在于得到的项目数量较少.相比频繁项集和频繁闭合项集挖掘算法,此类算法具有较高的时间和空间效率.根据数据流的特点,结合滑动窗口,提出一种基于有序复合策略的数据流最大频繁项集挖掘算法(E-FPMFI).当数据流流过时,以基本窗口为单位,更新获取数据流片段信息,单遍扫描片段信息得到频繁项目并存储于频繁项目列表内.算法的核心思想:构建有序FP-tree,采用混合子集剪枝技术削减搜索空间,合并同一分支中支持数相等的邻接结点,压缩生成有序复合FP-tree,挖掘最大频繁项集时避免超集检验.经实验验证, E-FPMFI算法具有较好的时空效率和良好的可扩展性.  相似文献   

5.
已有的频繁模式挖掘算法难以适应像生物信息数据挖掘、图模式挖掘等频繁巨模式挖掘应用.提出一种频繁巨模式挖掘算法,即基于核模式合成的频繁巨模式挖掘算法(Core Pattern Fusion Based Colossal Frequent Pattern Mining Algorithm,CPFCFPA),通过将各较小的核模式进行一步合成,寻求一个对频繁巨模式完整集的蕴含集.引入项集编辑距离概念,提出一种新颖的评价频繁巨模式挖掘结果质量的评测模型.实时数据集实验显示,CPFCFPA具有较好的可扩展性和挖掘性能,且对当前频繁模式挖掘算法难以或不能实现的挖掘任务,其挖掘结果能做到对频繁巨模式完整挖掘集的较好近似.  相似文献   

6.
[目的/意义] 将闭频繁项集挖掘技术应用于专利文本,进而分析技术的演化发展趋势,从微观层次描绘既定领域中主要的技术发展脉络。[方法/过程] 在进行闭频繁项集挖掘过程中,以专利文本的术语为事务、术语中的单词作为项,继而使用闭频繁项集之间的关联规则建立起术语层次网络,最后以术语层次网络为依托创建技术路线图。[结果/结论] 实证结果表明,该方法应用于硬盘驱动器磁头领域,能够刻画出不同术语的融合、派生过程,从而描绘出更加符合技术演化真实情况的技术路线图。  相似文献   

7.
本文应用粗糙集理论中等价关系的概念,结合知识系统细化和泛化的思想以及Apriori算法中逐层搜索迭代求取频繁项集的思想,对数据挖掘中的多值属性关联规则问题进行研究,提出一种新的多值属性关联规则挖掘算法Mqars.Mqars的主要特点是无需将多值属性转化为布尔型属性,可以尽早地约简非候选的频繁项集,方便快捷地计算出项集支持度,提高多值属性关联规则挖掘效率.论文给出了Mqars算法详细描述、具体实现过程和算法实例及分析.最后设计实验环节对Mqars算法与传统的Maqa算法在时间复杂度和算法效率方面进行比对和分析,分析与比对的实验结果表明了该算法的有效性.  相似文献   

8.
本文以专利中的技术术语作为事务、以术语中的词汇作为项,通过闭频繁项集挖掘方法,对专利文献中的技术术语的结构变化情况进行时序分析,以从新的角度来研究技术演化趋势,之后以硬盘驱动器磁头技术为例进行实证分析,实证结果表明,该方法能够对技术演化过程中所产生的技术变化进行有效识别。  相似文献   

9.
基于Apriori改进算法的局部反馈查询扩展   总被引:1,自引:0,他引:1  
提出面向查询扩展的Apriori改进算法,采用三种剪枝策略,极大提高挖掘效率;针对现有查询扩展存在的缺陷,提出基于Apriori改进算法的局部反馈查询扩展算法,该算法用Apriori改进算法对前列初检文档进行词间关联规则挖掘,提取含有原查询词的词间关联规则,构造规则库,从库中提取扩展词,实现查询扩展。实验结果表明该算法能够提高信息检索性能,与现有算法比较,在相同查全率水平级下其平均查准率有了明显提高。  相似文献   

10.
针对某一领域的文献,如果两个研究对象同现的频率越高,则通常假设二者存在联系的可能性越大,从而促使共词分析、文献共引分析以及文献作者共著分析等共现分析方法的流行.然而,传统共现分析三个阶段中的前两个阶段存在一定的缺陷,从而导致最后得到的共现聚类分析的结果可能存在一定的误导性.为克服该缺陷,本文从关联规则挖掘领域引入了一种新的共现聚类分析方法--最大频繁项集挖掘,它将传统共现分析法的三个阶段压缩为一个阶段,充分利用了可以利用的各种信息,克服了传统方法的缺陷.通过实验分析发现,设置合适的最小支持度阈值,基本上可以得到比较满意的结果.  相似文献   

11.
吕娜 《图书情报工作》2007,51(5):138-141
数字图书馆网站服务系统中存有大量有关用户访问信息的日志文件,通过对这些日志文件的挖掘可以得到有关数字图书馆资源利用情况和用户兴趣的信息。但实际上,这些日志文件很少被利用。针对这一现状,作者对日志文件进行挖掘试验分析,得出用户的频繁下载集合,以用于推荐链接和评价数据库资源。  相似文献   

12.
基于XML的Web日志挖掘研究*   总被引:2,自引:0,他引:2  
设计一个基于XML的Web日志挖掘体系结构,简要介绍XGMML和LOGML,并在此基础上讨论LOGML文档的生成方法及利用Apriori算法对日志文档进行频繁集、频繁序列和频繁子图挖掘。  相似文献   

13.
数据挖掘技术的改进在图书馆个性化服务中的应用   总被引:8,自引:0,他引:8  
Apriori 算法是关联规则挖掘的一个经典算法,在分析关联规则挖掘算法的基础上,提出利用HASH表技术及减少生成候选集的数量对经典Apriori 算法进行改进,从而提高图书馆数据资源的利用率,加强图书馆个性化服务。  相似文献   

14.
为探寻当前刑事案件的发案规律与特点,以便及时预防和打击刑事犯罪,本文研究提出了刑事案件的多层关联分析模型。首先提出了刑事案件的多层关联规则挖掘的模型框架,依据所建立的刑事案件多维多层数据立方体模型,设计了层间递减支持度策略。基于经典的Apriori算法,提出了适于多层频繁谓词集搜索的改进Apriori算法,按照最小支持度与最小置信度的要求产生强关联规则。由于多层挖掘产生的规则可能存在祖孙关系,本文设计了结果分析中的减少冗余规则。最后,利用大连公安局提供的甘井子区1999~2006年的18 629条刑事案件的真实数据,验证了模型的正确性与有效性。  相似文献   

15.
分析多媒体数据挖掘的需求,介绍常见的多媒体数据挖掘形式及存在问题,针对此类问题探讨基于网格环境下多媒体关联规则数据挖掘方法,该方法是Apriori算法在网格环境下的具体应用。通过实例证明该方法不仅具有经典Apriori算法的准确性,还具备网格的并行挖掘特性,可大大提高数据挖掘的速度及运算效率。  相似文献   

16.
运用图示法自动提取中文专利文本的语义信息   总被引:1,自引:0,他引:1  
姜春涛 《图书情报工作》2015,59(21):115-122
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。  相似文献   

17.
针对面向结构特性的科技文献分类问题,通过关联规则的分类方法将科技文献划分为不同的类型:综述型、理论型和应用型。首先对科技文献数据分词等进行预处理;然后通过PredictiveApriori关联算法挖掘关于类别特征项的频繁项集,构造科技文献分类的分类器;接着对分类科技文献进行分类规则匹配,判定所属类别;最后通过实验对分类性能进行评估,并通过对比证明了本方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号