共查询到20条相似文献,搜索用时 197 毫秒
1.
详细介绍一种生物主题爬虫的设计及实现方案, 通过优化初始种子模块、主题相关度分析模块、排序模块等四个模块的共同运行实现对网页信息的处理。用高效的主题爬虫取代传统搜索引擎中的普通爬虫, 为实现更准确的信息采集提供良好基础。 相似文献
2.
国外搜索引擎检索效能研究述评 总被引:2,自引:0,他引:2
在网络搜索引擎的使用中,搜索引擎的检索效能成为影响用户信息获取效果和搜索引擎服务质量的重要因素.目前,国外的相关研究主要采取实验的方法,从用户体验角度出发评价搜索引擎的检索效能,主要步骤包括确定信息需求、选择搜索引擎、评价结果文档相关度以及确定测度指标.最常用的测度指标是查全率和查准率.此外,影响用户检索效能的指标还有搜索引擎返回结果文档的排序质量、重复度,而索引的数量、用户满意度等指标都会影响用户使用的效果.无论是从搜索引擎的用户使用角度,还是用户评价角度,"用户参与"的模式是最贴近检索现实的. 相似文献
3.
李春旺 《现代图书情报技术》2007,2(1):49-52
在分析主题搜索引擎体系结构之后,提出基于OSS的系统实现策略,重点讨论主题建模方法、主题相关度算法以及基于相同代码规范、基于Web Service接口规范、基于JNI接口规范的开源系统集成实现技术。 相似文献
4.
万维网信息检索系统开发技术 总被引:7,自引:0,他引:7
当前搜索引擎技术有很大的局限性 ,本文首先分析了当前搜索引擎的若干缺陷 ,然后深入探讨在检索服务器端的若干处理技术 ,包括了Robot技术、索引技术、数据库技术、检索技术和相关度排序技术 ,同时还介绍了智能浏览器和智能体等客户端技术 ;最后文中还提出了综合运用这些技术的一个万维网信息智能检索系统的原型设想 相似文献
5.
6.
7.
8.
针对目前搜索引擎返回结果的海量性,构建一个元搜索引擎,旨在高效利用多个成员搜索引擎返回的结果。介绍元搜索引擎的基本架构及当前结果融合的主要方法,应用统计学方法研究网页标题、网页摘要与网页文本之间的相关性关系,从而确定相关度权值进行结果相关性判断。实验证明,元搜索引擎搜索结果的平均准确率比各个成员引擎的搜索结果平均准确率都有较大提高。 相似文献
9.
10.
为提高医学文献检索的效率和检索结果输出的有效性,快速客观地为科研人员提供高信度、低冗余的参考文献,实现检索结果按相关度排序输出,就基于向量空间模型的文献相关度计算方案进行探讨,提出基于相关度的医学文献聚类分析和相关度排序。 相似文献
11.
本文以PageRank算法和HITS算法为例,对基于超链接分析技术的搜索引擎排序算法进行分析,并总结了超链接分析技术应用于搜索引擎结果排序的局限性。 相似文献
12.
While past research has shown that learning outcomes can be influenced by the amount of effort students invest during the learning process, there has been little research into this question for scenarios where people use search engines to learn. In fact, learning-related tasks represent a significant fraction of the time users spend using Web search, so methods for evaluating and optimizing search engines to maximize learning are likely to have broad impact. Thus, we introduce and evaluate a retrieval algorithm designed to maximize educational utility for a vocabulary learning task, in which users learn a set of important keywords for a given topic by reading representative documents on diverse aspects of the topic. Using a crowdsourced pilot study, we compare the learning outcomes of users across four conditions corresponding to rankings that optimize for different levels of keyword density. We find that adding keyword density to the retrieval objective gave significant learning gains on some topics, with higher levels of keyword density generally corresponding to more time spent reading per word, and stronger learning gains per word read. We conclude that our approach to optimizing search ranking for educational utility leads to retrieved document sets that ultimately may result in more efficient learning of important concepts. 相似文献
13.
基于用户查询关键词的网页去重方法研究 总被引:2,自引:0,他引:2
在研究传统的基于特征码去重算法的基础上,针对元搜索引擎中网页重复现象,提出一种基于用户查询关键词的网页去重方法,提高元搜索引擎检索质量,并且介绍算法的实现过程,通过实验验证算法的有效性。 相似文献
14.
面向主题的个人实时搜索引擎的设计与实现 总被引:2,自引:0,他引:2
介绍一种专为个人用户量身订做的搜索引擎,它使用启发式实时搜索算法,为用户提供最新的主题相关信息。该系统能够结合用户需求,很好地解决综合性搜索引擎中普遍存在的主题固化、信息滞后等问题,同时为搜索引擎的个人化提供理论和实践依据。 相似文献
15.
搜索引擎的排序技术研究 总被引:9,自引:1,他引:9
杨思洛 《现代图书情报技术》2005,21(1):43-47
提出按搜索引擎的排序技术把搜索引擎分为三代,介绍了主要的几种搜索引擎排序技术,并对第三代搜索引擎的发展进行了分析。 相似文献
16.
17.
搜索引擎关键词和目录检索系统合并提高检索效率 总被引:3,自引:1,他引:2
基于关键词搜索引擎和目录搜索引擎存在的不足,提出使两个搜索系统合并,开发网络书目控制搜索引擎的方案,提出构建纵横交错的网络信息知识链接地图的新观点,并例证说明关键词和目录检索系统合并如何提高检索效率。 相似文献
18.
在传统PageRank算法的基础上进行一些优化与改进,提出一种新的主题敏感的PageRank算法,通过计算超链接与领域向量的相似度来区分超链接对网页的贡献度,从而有效抑制主题漂移;同时为PageRank算法加入时间因子来防止PageRank偏重旧网页的问题,加入站内外区分因子来防止针对PageRank算法作弊的行为.改进算法弥补了原算法的不足,提高了主题搜索的效率. 相似文献
19.
20.
一种基于网页分割的Web信息检索方法 总被引:2,自引:0,他引:2
提出一种基于网页内容分割的Web信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用了的内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用了区域信息来对相关的检索结果进行排序。 相似文献