首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于AOL查询日志数据集,在不给定查询意图类目体系情况下,尝试利用查询重构来识别用户查询意图。主要探讨如何识别出能表达原查询用户意图的查询重构以及如何对识别的查询意图进行聚类两个问题。人工评测结果表明,该方法能够取得较好的实验效果。  相似文献   

2.
查询背后的信息需求被定义为查询意图,搜索引擎可以根据不同的查询意图,提供多样性的服务,优化检索效果.查询意图的识别多被看成是一种分类问题,现有的大多数方法都基于查询串文本本身的特征和查询的用户点击数据特征.这两种方法存在如下的困难:对于查询串的文本特征,查询比较短,特征比较稀疏,要进行比较准确的理解会比较困难;对于用户点击特征,由于用户提交查询的长尾性分布,大多数查询的提交次数都是较少的,对于这些查询,要判别它们的意图是比较困难的.为了克服长尾查询上查询意图判断的不可靠问题,本文提出利用查询结果的相关性分数的分布作为特征来判断查询意图的方法.这种方法依赖查询结果的特征,比查询串本身的特征更加丰富;同时不依赖于用户的点击数据,因此可以克服长尾查询上的困难.结果表明,使用结果分数分布,可以提高意图判别的准确程度.  相似文献   

3.
[目的/意义]了解、分析和识别用户学术搜索时所表达的信息需求是优化查询结果、提高学术搜索引擎用户体验的首要步骤,而用户进行学术搜索时通过查询表达式所表达的用户表意信息需求及潜在信息需求可称之为学术查询意图。本文总结学术查询意图类目体系有助于学术查询意图识别和检索结果页面的呈现。[方法/过程]在A.Broder的查询意图类目体系的基础上,结合百度学术搜索查询日志中查询表达式实例,构建学术查询意图的类目体系。以此为基础,总结不同类别的学术查询意图,并分析不同类别学术查询意图下查询表达式的特点。[结果/结论]学术查询意图主要分为学术文献类、学术实体类、学术探索类、知识问答类和非学术文献类五大类;得出不同类别学术查询意图在学术搜索中的大致比例;给出每类学术查询意图的查询表达式特征、查询情景和查询结果页。  相似文献   

4.
[目的/意义]实现学术查询意图的自动识别,提高学术搜索引擎的效率。[方法/过程]结合已有查询意图特征和学术搜索特点,从基本信息、特定关键词、实体和出现频率4个层面对查询表达式进行特征构造,运用Naive Bayes、Logistic回归、SVM、Random Forest四种分类算法进行查询意图自动识别的预实验,计算不同方法的准确率、召回率和F值。提出了一种将Logistic回归算法所预测的识别结果扩展到大规模数据集、提取"关键词类"特征的方法构建学术查询意图识别的深度学习两层分类器。[结果/结论]两层分类器的宏平均F1值为0.651,优于其他算法,能够有效平衡不同学术查询意图的类别准确率与召回率效果。两层分类器在学术探索类的效果最好,F1值为0.783。  相似文献   

5.
从Sogou查询日志中选取样本查询且进行人工标注,通过对标注后新闻查询的分析,提出能用于识别新闻意图的新特征,即查询表达式特征、查询随时间分布特征以及点击结果特征。根据这3个特征,利用决策树分类器实现查询中新闻意图的自动识别,结果发现:①新闻类查询的查询目标主要集中在特定主题信息以及娱乐类信息方面,其查询主题大多为娱乐、政治、体育与经济类信息;②相对非新闻查询,新闻查询具有更可能包含实体、随时间分布波动较大、点击结果之间相似度更高的特点;③本方法对查询中新闻意图的识别效果较好,其宏平均准确率、召回率、F值分别为 0.76、0.73、0、74。  相似文献   

6.
查询分类是近年来信息检索领域的研究热点,并且在很多领域得到了广泛的关注.文章首先介绍了查询分类的概念和一些相关知识,然后主要讨论根据查询的意图进行分类的研究工作,从查询分类的诞生背景、关键技术、所使用的分类方法和评价方法方面进行综述评论,提出了查询意图分类面临的问题和挑战.该文为2008年第七期本期话题<用户查询的理解>的文章之一.  相似文献   

7.
基于搜索引擎分类信息的用户查询歧义消减   总被引:1,自引:1,他引:0  
用户在利用搜索引擎进行信息检索时,查询条件往往存在歧义,这导致搜索结果的多样性和冗余性.传统的方法主要是基于语义分析或构建知识库,此类方法在实际应用中的可行性不高.本文基于搜索引擎的分类信息,实现了一个简单有效的分类搜索系统.它首先根据用户的查询条件,将返回的搜索结果进行分类,并以树形目录的形式展示给用户,而后根据用户的点击数据,逐步确定用户的搜索意图,从而达到了查询歧义消减的目的.论文详细介绍了系统的设计思想、架构和工作流程.测试实例表明,该系统可以在一定程度上确定用户的查询意图,为用户返回更加准确的搜索结果.  相似文献   

8.
王晓艳  林昌意 《图书情报工作》2015,59(1):113-118,126
[目的/意义] 通过网页分类提高搜索引擎及内容网站的检索性能,根据查询意图分类更精确地满足用户需求。[方法/过程] 以信息类中文网页为研究对象,采用人工归纳的方法构建信息类查询意图类目体系,提出根据该类目体系对信息类网页进行分类的方法,并通过实验进行验证。[结果/结论] 实验结果表明,所提出的方法具有较强的可行性,有助于精确地满足用户信息需求,提高搜索引擎及内容网站的检索性能。  相似文献   

9.
基于Sogou实验室提供的查询日志数据和新闻数据,探讨潜在时间意图查询的判断及其相关时间属性识别,构建潜在时间意图查询的检索排序模型。实验结果表明,时间属性识别的准确率为85%,且构建的检索模型能有效提高排序效果。  相似文献   

10.
在问答系统中用户的查询是以自然语言问句的形式出现的,查询分类对生成合适的答案有着重要的指导性作用.现有文献大多基于SVM统计学习模型实现查询分类.文章详细分析了中文查询分类的典型特征及其编码过程,并给出了LibSVM分类器的参数优化及核函数选取方法.比较了词袋特征(bag-of-word)和词性与词袋绑定特征(bag-of-word/pos)在LibSVM(RBF)、LibSVM(Linear)和Liblinear三个分类器上的分类精度.实验结果表明,在问题训练集规模较大、特征维数较高的情况下,Liblinear分类器具有更好的性能.同时,得出一个结论:bag-of-word/pos特征对英文查询分类有一定的贡献;对于中文查询分类,虽然理论上增加特征有利于提高SVM分类器的精度,但由于绑定词性特征后可能会引入噪声,进而降低查询分类的精度.  相似文献   

11.
论个性化信息服务Web数据挖掘技术的实践环境   总被引:2,自引:0,他引:2  
基于网络用户个性化信息提取的要求 ,探讨了应用 Web信息挖掘技术的实践环境 ,并认为应关注 Web数据挖掘技术的四个应用领域  相似文献   

12.
基于本体的查询扩展与规范   总被引:9,自引:0,他引:9  
研究本体支持下的智能检索问题。利用语义的层次结构和蕴涵关联量化领域概念的关联程度实现查询扩展,并采用RDF的三元组方式规范检索关键词,依据本体中的关联重构用户查询需求,以匹配策略实现智能检索。经过实例计算与分析,验证该方法的合理性,可行性及特点。  相似文献   

13.
一种面向用户兴趣的个性化语义查询扩展方法   总被引:1,自引:0,他引:1  
在基于本体的语义查询扩展研究的基础上,结合用户模型的研究,提出要将用户的兴趣模型与查询扩展相结合,实现个性化的语义查询扩展,并把个性化的语义查询扩展过程分为两个阶段——检索关键词向用户模型中的个性化领域本体概念的映射以及在本体层次对映射概念的语义扩展,给出每一阶段的实现算法。实验表明该方法能够提高信息检索的查准率和查全率,在一定程度上满足个性化的查询需求。  相似文献   

14.
Transaction logs from online search engines are valuable for two reasons: First, they provide insight into human information-seeking behavior. Second, log data can be used to train user models, which can then be applied to improve retrieval systems. This article presents a study of logs from PubMed®, the public gateway to the MEDLINE® database of bibliographic records from the medical and biomedical primary literature. Unlike most previous studies on general Web search, our work examines user activities with a highly-specialized search engine. We encode user actions as string sequences and model these sequences using n-gram language models. The models are evaluated in terms of perplexity and in a sequence prediction task. They help us better understand how PubMed users search for information and provide an enabler for improving users’ search experience.  相似文献   

15.
Zusammenfassung In diesem Artikel wird MINERVA pr?sentiert, eine prototypische Implementierung einer verteilten Suchmaschine basierend auf einer Peer-to-Peer (P2P)-Architektur. MINERVA setzt auf die in der P2P-Welt verbreitete Technik verteilter Hash-Tabellen auf und benutzt diese zum Aufbau eines verteilten Verzeichnisses. Peers in unserem Ansatz entsprechen v?llig autonomen Benutzern mit ihren lokalen Suchm"oglichkeiten, die bereit sind, ihr lokales Wissen und ihre lokalen Suchm?glichkeiten im Rahmen einer Kollaboration zur Verfügung zu stellen. Wir formalisieren unsere Systemarchitektur und beschreiben das zentrale Problem einer effizienten Suche nach vielversprechenden Peers für eine konkrete Anfrage innerhalb des Verbundes. Wir greifen dabei auf existierende Methoden zurück and passen diese an unseren Systemkontext an. Wir pr?sentieren Experimente auf realen Daten, die verschiedene dieser Ans?tze vergleichen. Diese Experimente zeigen, dass die Qualit?t der Ans?tze variiert und untermauern damit die Wichtigkeit und den Einfluss einer leistungsstarken Methode zur Auswahl guter Datenbanken. Unsere Experimente deuten an, dass eine geringe Anzahl sorgf?ltig ausgew?hlter Datenbanken typischerweise bereits einen Gro?teil aller relevanten Ergebnisse des Gesamtsystems liefert.
This paper presents the MINERVA project that protoypes a distributed search engine based on P2P techniques. MINERVA is layered on top of a Chord-style overlay network and uses a powerful crawling, indexing, and search engine on every autonomous peer. We formalize our system model and identify the problem of efficiently selecting promising peers for a query as a pivotal issue. We revisit existing approaches to the database selection problem and adapt them to our system environment. Measurements are performed to compare different selection strategies using real-world data. The experiments show significant performance differences between the strategies and prove the importance of a judicious peer selection strategy. The experiments also present first evidence that a small number of carefully selected peers already provide the vast majority of all relevant results.
CR Subject Classification H.4,H.3.3,H3.4  相似文献   

16.
视频数据库及其应用   总被引:1,自引:0,他引:1  
视频数据库是多媒体数据库研究的继承和深入。本文阐述了视频数据库研究的主要问题,介绍了视频数据库系统的发展,并通过Hampapur提出的视频数据库的框架,旨在向读者展示视频数据库的优越性以及在各方面的应用。  相似文献   

17.
个性化信息检索中的相关反馈技术研究   总被引:3,自引:0,他引:3  
简要介绍了相关反馈的研究现状及基本思想,在深入分析相关反馈的实现策略和在不同系统中设计的差别后,提出了相关反馈技术和个性化信息检索结合的模型,最后讨论引入数据融合的思想来进一步改善反馈效果。  相似文献   

18.
面向查询扩展的特征词频繁项集挖掘算法   总被引:1,自引:0,他引:1  
为了获取高质量的扩展词,提出一种面向查询扩展的基于文本数据库的特征词频繁项集挖掘算法。该算法采用支持度衡量特征词频繁项集,给出新的剪枝策略,并结合原始查询,挖掘同时含有查询词项和非查询词项的特征词频繁项集,以提高挖掘效率。实验表明,与传统的挖掘算法相比,本算法更有效、更合理。  相似文献   

19.
基于Apriori改进算法的局部反馈查询扩展   总被引:1,自引:0,他引:1  
提出面向查询扩展的Apriori改进算法,采用三种剪枝策略,极大提高挖掘效率;针对现有查询扩展存在的缺陷,提出基于Apriori改进算法的局部反馈查询扩展算法,该算法用Apriori改进算法对前列初检文档进行词间关联规则挖掘,提取含有原查询词的词间关联规则,构造规则库,从库中提取扩展词,实现查询扩展。实验结果表明该算法能够提高信息检索性能,与现有算法比较,在相同查全率水平级下其平均查准率有了明显提高。  相似文献   

20.
Precision prediction based on ranked list coherence   总被引:1,自引:0,他引:1  
We introduce a statistical measure of the coherence of a list of documents called the clarity score. Starting with a document list ranked by the query-likelihood retrieval model, we demonstrate the score's relationship to query ambiguity with respect to the collection. We also show that the clarity score is correlated with the average precision of a query and lay the groundwork for useful predictions by discussing a method of setting decision thresholds automatically. We then show that passage-based clarity scores correlate with average-precision measures of ranked lists of passages, where a passage is judged relevant if it contains correct answer text, which extends the basic method to passage-based systems. Next, we introduce variants of document-based clarity scores to improve the robustness, applicability, and predictive ability of clarity scores. In particular, we introduce the ranked list clarity score that can be computed with only a ranked list of documents, and the weighted clarity score where query terms contribute more than other terms. Finally, we show an approach to predicting queries that perform poorly on query expansion that uses techniques expanding on the ideas presented earlier.
W. Bruce CroftEmail:
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号