首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 197 毫秒
1.
任辉 《图书情报工作》2009,53(9):105-107
详细介绍一种生物主题爬虫的设计及实现方案, 通过优化初始种子模块、主题相关度分析模块、排序模块等四个模块的共同运行实现对网页信息的处理。用高效的主题爬虫取代传统搜索引擎中的普通爬虫, 为实现更准确的信息采集提供良好基础。  相似文献   

2.
国外搜索引擎检索效能研究述评   总被引:2,自引:0,他引:2  
在网络搜索引擎的使用中,搜索引擎的检索效能成为影响用户信息获取效果和搜索引擎服务质量的重要因素.目前,国外的相关研究主要采取实验的方法,从用户体验角度出发评价搜索引擎的检索效能,主要步骤包括确定信息需求、选择搜索引擎、评价结果文档相关度以及确定测度指标.最常用的测度指标是查全率和查准率.此外,影响用户检索效能的指标还有搜索引擎返回结果文档的排序质量、重复度,而索引的数量、用户满意度等指标都会影响用户使用的效果.无论是从搜索引擎的用户使用角度,还是用户评价角度,"用户参与"的模式是最贴近检索现实的.  相似文献   

3.
在分析主题搜索引擎体系结构之后,提出基于OSS的系统实现策略,重点讨论主题建模方法、主题相关度算法以及基于相同代码规范、基于Web Service接口规范、基于JNI接口规范的开源系统集成实现技术。  相似文献   

4.
万维网信息检索系统开发技术   总被引:7,自引:0,他引:7  
当前搜索引擎技术有很大的局限性 ,本文首先分析了当前搜索引擎的若干缺陷 ,然后深入探讨在检索服务器端的若干处理技术 ,包括了Robot技术、索引技术、数据库技术、检索技术和相关度排序技术 ,同时还介绍了智能浏览器和智能体等客户端技术 ;最后文中还提出了综合运用这些技术的一个万维网信息智能检索系统的原型设想  相似文献   

5.
针对通用搜索引擎存在搜索不够快速、不够深入、不够准确的缺点,本文设计并实现了旅游信息搜索网络蜘蛛,给出了该网络蜘蛛对旅游网页的主题相关度进行预测和判断的算法.该算法保证了网络蜘蛛只采集旅游主题相关的网页,使得垂直搜索引擎在查询的准确率和效率上都有显著地提高.最后通过实现一个旅游信息垂直搜索系统,给出了其信息搜集模块、信息处理模块和信息搜索模块的设计与实现.  相似文献   

6.
乔林  糜仲春  刘亮  张群 《情报学报》2006,25(4):420-427
在进行文献检索特别是多关键词文献检索时,现有科学搜索引擎的检索结果排序存在一些问题。本文推导了两关键词加权文献检索的相关度计算公式,在此基础上提出了多关键词组合加权文献检索方法,并与文献年平均被引频次指标相结合,确定综合考虑文献相关度和文献质量的排序分数。最后,通过实例分析验证了该方法的有效性。  相似文献   

7.
多相关主题的主题文本资源相关度算法研究   总被引:1,自引:0,他引:1  
主题图作为一种新型的信息资源整合工具,在数字资源整合领域有着广泛的应用前景.主题图中资源与主题间的相关度在一定程度上反映了资源与用户查询需求间的相关程度.基于此,本文提出了一种主题文本资源间相关度算法,主要从资源本身及用户动态使用行为两方面深入分析.相关算例试验结果表明,该算法相对稳定,整体上对文本资源排序的效果较好.  相似文献   

8.
针对目前搜索引擎返回结果的海量性,构建一个元搜索引擎,旨在高效利用多个成员搜索引擎返回的结果。介绍元搜索引擎的基本架构及当前结果融合的主要方法,应用统计学方法研究网页标题、网页摘要与网页文本之间的相关性关系,从而确定相关度权值进行结果相关性判断。实验证明,元搜索引擎搜索结果的平均准确率比各个成员引擎的搜索结果平均准确率都有较大提高。  相似文献   

9.
糜仲春  乔林  王宏宇  刘亮 《情报学报》2007,26(1):111-115
本文针对现有的文献搜索引擎检索结果不全面的问题,提出了多关键词组合加权检索及其结果集成方法。通过计算不同文献搜索引擎检索结果和多关键词组合的相关度,综合应用规范分数集成法和加权分数集成法,实现了不同文献搜索引擎检索结果的集成和综合排序。最后,通过实例分析验证了该方法的有效性。  相似文献   

10.
为提高医学文献检索的效率和检索结果输出的有效性,快速客观地为科研人员提供高信度、低冗余的参考文献,实现检索结果按相关度排序输出,就基于向量空间模型的文献相关度计算方案进行探讨,提出基于相关度的医学文献聚类分析和相关度排序。  相似文献   

11.
本文以PageRank算法和HITS算法为例,对基于超链接分析技术的搜索引擎排序算法进行分析,并总结了超链接分析技术应用于搜索引擎结果排序的局限性。  相似文献   

12.
While past research has shown that learning outcomes can be influenced by the amount of effort students invest during the learning process, there has been little research into this question for scenarios where people use search engines to learn. In fact, learning-related tasks represent a significant fraction of the time users spend using Web search, so methods for evaluating and optimizing search engines to maximize learning are likely to have broad impact. Thus, we introduce and evaluate a retrieval algorithm designed to maximize educational utility for a vocabulary learning task, in which users learn a set of important keywords for a given topic by reading representative documents on diverse aspects of the topic. Using a crowdsourced pilot study, we compare the learning outcomes of users across four conditions corresponding to rankings that optimize for different levels of keyword density. We find that adding keyword density to the retrieval objective gave significant learning gains on some topics, with higher levels of keyword density generally corresponding to more time spent reading per word, and stronger learning gains per word read. We conclude that our approach to optimizing search ranking for educational utility leads to retrieved document sets that ultimately may result in more efficient learning of important concepts.  相似文献   

13.
基于用户查询关键词的网页去重方法研究   总被引:2,自引:0,他引:2  
在研究传统的基于特征码去重算法的基础上,针对元搜索引擎中网页重复现象,提出一种基于用户查询关键词的网页去重方法,提高元搜索引擎检索质量,并且介绍算法的实现过程,通过实验验证算法的有效性。  相似文献   

14.
面向主题的个人实时搜索引擎的设计与实现   总被引:2,自引:0,他引:2  
介绍一种专为个人用户量身订做的搜索引擎,它使用启发式实时搜索算法,为用户提供最新的主题相关信息。该系统能够结合用户需求,很好地解决综合性搜索引擎中普遍存在的主题固化、信息滞后等问题,同时为搜索引擎的个人化提供理论和实践依据。  相似文献   

15.
搜索引擎的排序技术研究   总被引:9,自引:1,他引:9  
提出按搜索引擎的排序技术把搜索引擎分为三代,介绍了主要的几种搜索引擎排序技术,并对第三代搜索引擎的发展进行了分析。  相似文献   

16.
基于HITS算法的期刊评价研究   总被引:1,自引:1,他引:0  
构建了适用于期刊引用网络的HITS(hypertext in-duced topic search)算法,利用2006年的中国科技论文与引文数据库(CSTPCD)分别计算所有及化学类统计源期刊的权威(authority)值与中心(hub)值,并与影响因子进行了对比研究,讨论了HITS算法用于期刊评价的优缺点以及适用范围。  相似文献   

17.
搜索引擎关键词和目录检索系统合并提高检索效率   总被引:3,自引:1,他引:2  
基于关键词搜索引擎和目录搜索引擎存在的不足,提出使两个搜索系统合并,开发网络书目控制搜索引擎的方案,提出构建纵横交错的网络信息知识链接地图的新观点,并例证说明关键词和目录检索系统合并如何提高检索效率。  相似文献   

18.
王建雄 《图书情报工作》2012,56(21):114-118
在传统PageRank算法的基础上进行一些优化与改进,提出一种新的主题敏感的PageRank算法,通过计算超链接与领域向量的相似度来区分超链接对网页的贡献度,从而有效抑制主题漂移;同时为PageRank算法加入时间因子来防止PageRank偏重旧网页的问题,加入站内外区分因子来防止针对PageRank算法作弊的行为.改进算法弥补了原算法的不足,提高了主题搜索的效率.  相似文献   

19.
主题爬行是专业搜索引擎的基础,爬行策略与爬行算法是主题爬行技术的核心,通过分析主题爬行的基本原理,对爬行策略与爬行算法进行分类比较,展示爬行策略与爬行算法的研究进展及当前研究热点,为主题爬行技术的进一步研究提供参考。  相似文献   

20.
一种基于网页分割的Web信息检索方法   总被引:2,自引:0,他引:2  
提出一种基于网页内容分割的Web信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用了的内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用了区域信息来对相关的检索结果进行排序。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号