首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 765 毫秒
1.
特征词抽取和相关性融合的伪相关反馈查询扩展   总被引:2,自引:0,他引:2  
针对现有信息检索系统中存在的词不匹配问题,提出一种基于特征词抽取和相关性融合的伪相关反馈查询扩展算法以及新的扩展词权重计算方法。该算法从前列n篇初检局部文档中抽取与原查询相关的特征词,根据特征词在初检文档集中出现的频度以及与原查询的相关度,将特征词确定为最终的扩展词实现查询扩展。实验结果表明,该方法有效,并能提高和改善信息检索性能。  相似文献   

2.
针对现有信息检索系统中存在的词不匹配问题,提出一种基于词间关联规则的查询扩展算法,该算法利用现有挖掘算法自动对前列初检文档进行词间关联挖掘,提取含有原查询词的词间关联规则,从中提取扩展词,实现查询扩展。实验结果表明,该算法能改善和提高信息检索系统的查全率和查准率,具有很高的应用价值,与未进行查询扩展时相比,采用本文查询扩展算法后,平均准确率提高了13.34%,与传统的局部上下文分析查询扩展算法比较,其平均准确率提高了4.87%。  相似文献   

3.
提出一种新的基于负关联规则与频繁项集挖掘的信息检索系统模型,详细阐述系统模型的设计思想、各模块的功能,以及检索系统实现的三种关键技术(即频繁项集挖掘技术、负关联规则挖掘技术和查询优化扩充技术)及其检索算法。实验结果表明,该检索系统能有效提高和改善信息检索性能。  相似文献   

4.
基于Apriori改进算法的局部反馈查询扩展   总被引:1,自引:0,他引:1  
提出面向查询扩展的Apriori改进算法,采用三种剪枝策略,极大提高挖掘效率;针对现有查询扩展存在的缺陷,提出基于Apriori改进算法的局部反馈查询扩展算法,该算法用Apriori改进算法对前列初检文档进行词间关联规则挖掘,提取含有原查询词的词间关联规则,构造规则库,从库中提取扩展词,实现查询扩展。实验结果表明该算法能够提高信息检索性能,与现有算法比较,在相同查全率水平级下其平均查准率有了明显提高。  相似文献   

5.
挖掘最大频繁项集的优势在于得到的项目数量较少.相比频繁项集和频繁闭合项集挖掘算法,此类算法具有较高的时间和空间效率.根据数据流的特点,结合滑动窗口,提出一种基于有序复合策略的数据流最大频繁项集挖掘算法(E-FPMFI).当数据流流过时,以基本窗口为单位,更新获取数据流片段信息,单遍扫描片段信息得到频繁项目并存储于频繁项目列表内.算法的核心思想:构建有序FP-tree,采用混合子集剪枝技术削减搜索空间,合并同一分支中支持数相等的邻接结点,压缩生成有序复合FP-tree,挖掘最大频繁项集时避免超集检验.经实验验证, E-FPMFI算法具有较好的时空效率和良好的可扩展性.  相似文献   

6.
设计并采用Java语言实现基于事务数据库标识列表的频繁项集的产生算法——TidlistApriori。通过与采用Hash-Tree的Apriori算法进行比较,表明TidlistApriori能够提高频繁项集的产生效率,可以成为主题关联挖掘的有效算法工具。  相似文献   

7.
介绍一种Apriori的改进算法,该算法通过寻找大于最小支持计数的最大频繁项集,可以直接得到最终频繁项集,将改进算法应用到图书馆书目推荐服务中,并对改进算法与Apriori算法进行算法的性能分析及实验数据的运行时间对比,实验证明改进算法在运行速度和挖掘性能上较经典Apriori算法有显著提高。  相似文献   

8.
黄名选 《图书情报工作》2011,55(15):110-113
针对情报检索系统中存在的词不匹配问题,提出一种基于相关性-兴趣度架构的关联规则挖掘的局部反馈查询扩展算法,并论述查询扩展基本思想、扩展算法模型以及扩展词权值的计算方法。该算法主要特点是采用支持度-置信度-相关性-兴趣度框架衡量关联规则,避免产生负相关的、虚假的和无兴趣的规则,提高来自于关联规则的扩展词的质量。实验结果表明,该算法能有效地改善和提高信息检索性能, 有很高的实际应用价值和推广前景。  相似文献   

9.
查询扩展是信息检索领域中的一个热门话题,其目标是将与初始查询词相关的其他单词添加到初始查询请求中,以更详细地描述用户的信息需求.本文将查询过程视为特殊的问答过程,并基于此思想提出一种新的查询扩展方法.本文的贡献主要有以下几点:① 借助统计语言模型从大规模问答对数据中挖掘单词之间的扩展关系,并根据单词间的扩展关系对候选扩展词进行评级;② 提出一个新的查询扩展词选取策略,以克服已有查询扩展方法仅依赖评级的扩展词选取策略的不足.通过在真实数据集合上的实验,证明本文提出的查询扩展方法可以取得优于传统方法的性能,具有一定的实用性.  相似文献   

10.
已有的频繁模式挖掘算法难以适应像生物信息数据挖掘、图模式挖掘等频繁巨模式挖掘应用.提出一种频繁巨模式挖掘算法,即基于核模式合成的频繁巨模式挖掘算法(Core Pattern Fusion Based Colossal Frequent Pattern Mining Algorithm,CPFCFPA),通过将各较小的核模式进行一步合成,寻求一个对频繁巨模式完整集的蕴含集.引入项集编辑距离概念,提出一种新颖的评价频繁巨模式挖掘结果质量的评测模型.实时数据集实验显示,CPFCFPA具有较好的可扩展性和挖掘性能,且对当前频繁模式挖掘算法难以或不能实现的挖掘任务,其挖掘结果能做到对频繁巨模式完整挖掘集的较好近似.  相似文献   

11.
[目的/意义] 将闭频繁项集挖掘技术应用于专利文本,进而分析技术的演化发展趋势,从微观层次描绘既定领域中主要的技术发展脉络。[方法/过程] 在进行闭频繁项集挖掘过程中,以专利文本的术语为事务、术语中的单词作为项,继而使用闭频繁项集之间的关联规则建立起术语层次网络,最后以术语层次网络为依托创建技术路线图。[结果/结论] 实证结果表明,该方法应用于硬盘驱动器磁头领域,能够刻画出不同术语的融合、派生过程,从而描绘出更加符合技术演化真实情况的技术路线图。  相似文献   

12.
Exploring criteria for successful query expansion in the genomic domain   总被引:1,自引:0,他引:1  
Query Expansion is commonly used in Information Retrieval to overcome vocabulary mismatch issues, such as synonymy between the original query terms and a relevant document. In general, query expansion experiments exhibit mixed results. Overall TREC Genomics Track results are also mixed; however, results from the top performing systems provide strong evidence supporting the need for expansion. In this paper, we examine the conditions necessary for optimal query expansion performance with respect to two system design issues: IR framework and knowledge source used for expansion. We present a query expansion framework that improves Okapi baseline passage MAP performance by 185%. Using this framework, we compare and contrast the effectiveness of a variety of biomedical knowledge sources used by TREC 2006 Genomics Track participants for expansion. Based on the outcome of these experiments, we discuss the success factors required for effective query expansion with respect to various sources of term expansion, such as corpus-based cooccurrence statistics, pseudo-relevance feedback methods, and domain-specific and domain-independent ontologies and databases. Our results show that choice of document ranking algorithm is the most important factor affecting retrieval performance on this dataset. In addition, when an appropriate ranking algorithm is used, we find that query expansion with domain-specific knowledge sources provides an equally substantive gain in performance over a baseline system.
Nicola StokesEmail: Email:
  相似文献   

13.
In the patent domain significant efforts are invested to assist researchers in formulating better queries, preferably via automated query expansion. Currently, automatic query expansion in patent search is mostly limited to computing co-occurring terms for the searchable features of the invention. Additional query terms are extracted automatically from patent documents based on entropy measures. Learning synonyms in the patent domain for automatic query expansion has been a difficult task. No dedicated sources providing synonyms for the patent domain, such as patent domain specific lexica or thesauri, are available. In this paper we focus on the highly professional search setting of patent examiners. In particular, we use query logs to learn synonyms for the patent domain. For automatic query expansion, we create term networks based on the query logs specifically for several USPTO patent classes. Experiments show good performance in automatic query expansion using these automatically generated term networks. Specifically, with a larger number of query logs for a specific patent US class available the performance of the learned term networks increases.  相似文献   

14.
检索词自动扩展词库构建方法的基本思路是:根据语料是否规范化处理进行词库分类建设,优化了系统的检索性能;结合学科类别,对词库语料进行领域划分,引导科技人员对技术领域的准确把握;建设以本体库为基础,将与规范词具有关联性、相似性的语料通过关系表与关联库关联,把科技文献中的关键词组成一个有序的关系网,解决了传统检索系统中检索词无关联的不足;通过对检索词出现频率进行统计分析,进而更新词库,保证本体库、关联库语料的时效性,突破了人工对词库更新管理的受限性。  相似文献   

15.
基于句模分析的自然语言处理能识别面向搜索引擎应用的自然语言检索句中的核心检索项.在此基础上,本文通过定义产生式规则和使用归约算法,对常见自然语言提问中蕴含的核心检索项间的逻辑关系进行识别与处理,对自然语言提问中可能蕴含的概念间的逻辑关系进行识别,把概念间可能存在的逻辑关系转化为必要的逻辑运算并确定逻辑优先级.通过在开发的教育资讯搜索引擎与新闻搜索引擎系统上的使用与性能对比分析,该算法能提升自然语言提问的理解能力,提高搜索引擎的智能性.文中亦对其不足进行了说明,并指出在此基础上进一步的研究内容.  相似文献   

16.
一种面向用户兴趣的个性化语义查询扩展方法   总被引:1,自引:0,他引:1  
在基于本体的语义查询扩展研究的基础上,结合用户模型的研究,提出要将用户的兴趣模型与查询扩展相结合,实现个性化的语义查询扩展,并把个性化的语义查询扩展过程分为两个阶段——检索关键词向用户模型中的个性化领域本体概念的映射以及在本体层次对映射概念的语义扩展,给出每一阶段的实现算法。实验表明该方法能够提高信息检索的查准率和查全率,在一定程度上满足个性化的查询需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号