共查询到18条相似文献,搜索用时 814 毫秒
1.
基于用户查询关键词的网页去重方法研究 总被引:2,自引:0,他引:2
在研究传统的基于特征码去重算法的基础上,针对元搜索引擎中网页重复现象,提出一种基于用户查询关键词的网页去重方法,提高元搜索引擎检索质量,并且介绍算法的实现过程,通过实验验证算法的有效性。 相似文献
2.
针对目前搜索引擎返回结果的海量性,构建一个元搜索引擎,旨在高效利用多个成员搜索引擎返回的结果。介绍元搜索引擎的基本架构及当前结果融合的主要方法,应用统计学方法研究网页标题、网页摘要与网页文本之间的相关性关系,从而确定相关度权值进行结果相关性判断。实验证明,元搜索引擎搜索结果的平均准确率比各个成员引擎的搜索结果平均准确率都有较大提高。 相似文献
3.
4.
基于本体进行自动分类的元搜索引擎的设计与实现 总被引:1,自引:0,他引:1
王梅文 《现代图书情报技术》2008,24(9):58-63
研究基于本体对元搜索引擎查询结果进行自动分类的方法,依据事先构建的药学本体,实现基于本体对元搜索引擎的网页结果进行自动分类的实验系统,形成层次清晰、逻辑合理的分类显示结果界面。最后对实验系统的准确度进行评价,网页分类基本取得预期的效果。 相似文献
5.
殷波 《现代图书情报技术》2008,(Z1)
以去除冗余网页为目标,分析搜索引擎工作原理,讨论现有的去重算法,并提出基于Suffix Tree的倒排索引改进算法.实验表明该算法有着优秀的判断文档相似度的特性.最后对现有去重算法进行分析总结并提出网页去重新思路,以便进行下一步研究. 相似文献
6.
搜索引擎中Robot搜索算法的优化 总被引:15,自引:0,他引:15
目前的搜索引擎越来越暴露出不足之处 ,当用户使用搜索引擎时输入特定关键词之后 ,返回的查询结果往往有数千甚至几百万之多 ,而且其中包含大量的重复信息与垃圾信息 ,用户从中筛选出自己感兴趣的网页仍然需要耗费很长的时间。另外一种情况就是 ,Web上明明存在某些重要网页 ,却没有被搜索引擎的robot发现。本文针对这种现象 ,重点讨论搜索引擎中的搜索策略 ,改善搜索算法 ,使Robot在搜索阶段就能够充分处理与Robot频繁交互的URL列表。根据网页的内容、HTML结构以及其中包含的超链信息计算网页的PageRank ,使URL列表能够根据重要性调整排列顺序。初步的试验结果表明 ,本文的优化算法可以较大程度地改进搜索引擎的整体性能 相似文献
7.
SE4SEE是一种提供个性化用户需求、针对特定国家、基于分类、面向社会文化的网络搜索引擎。其组成部件包括网络入口、网络爬虫、文本分类器。在搜索过程中,SE4sEE利用的是网上的原始页面、网格的计算能力和较高的带宽以及本质上的地理分布所提供的网络爬行和分类的搜索工具,解决了网络爬行中网页更新问题,是目前一个较为成熟的网络搜索引擎。 相似文献
8.
个性化跨语言学术搜索技术研究 总被引:1,自引:0,他引:1
学术搜索引擎是一种行业化的搜索引擎,但因其缺乏个性化的服务,使得用户的学术文献检索效率低下,海量的数字学术资源得不到充分利用.本文使用Google翻译,研究基于机器翻译的中、英、俄、法和西班牙等五个语种跨语言学术检索.在跨语言学术搜索的基础上研究个性化检索技术,提出一种基于聚类的个性化信息检索方法:通过观察用户对搜索结果聚类的点击行为,生成并更新用户实时兴趣模型,采用余弦夹角公式计算用户实时兴趣模型与搜索返回结果的相似度,根据相似度大小,为用户提供个性化重排序的搜索返回结果.实验结果证明了提出方法的有效性. 相似文献
9.
如何查找隐形网页资源 总被引:2,自引:0,他引:2
王丹 《中国科技资源导刊 (中国信息导报)》2005,(4):55-57
众所周知,互联网是各类信息的存储器,是一本包罗万象的百科全书。为了使每一个用户都能更有效地获取其所需要的信息,大量的搜索引擎在网上涌现,其中包括Google、Yahoo、Infoseek等。一般来说,这些搜索引擎用URL和关键词来标引和存储其数据库中的网页,当用户提出查询请求时,搜索引擎首先根据数据库中所存储的网页的URL来搜索网页,并返回相关的结果。然而,这些搜索引擎并不能搜索互联网上的所有信息。最近人们注意到一种叫"invisibleweb"的网页,这种网页又被称为"deep"或隐形网页。简单地说,就是那些因为各种原因不能被普通搜索引擎如Google、Yahoo等搜索到的网页。据 相似文献
10.
基于XML的智能元搜索引擎研究 总被引:1,自引:0,他引:1
介绍一种基于XML和Agent技术的智能元搜索引擎系统。该系统采用元搜索引擎的结构,以Agent作为架构系统的基本组件,利用Agent的自治性和协作性来完成用户个性化信息的搜索;利用XML和XSL分别在结构化信息表达方面,在信息显示、转换方面的优点,来实现元搜索引擎的扩展性以及搜索结果的个性化输出。最后探讨XML和XSL在查询请求和搜索结果转换上的应用以及基于XML的Agent通信。 相似文献
11.
一种基于网页分割的Web信息检索方法 总被引:2,自引:0,他引:2
提出一种基于网页内容分割的Web信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用了的内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用了区域信息来对相关的检索结果进行排序。 相似文献
12.
基于领域本体实现Web文本挖掘研究 总被引:1,自引:0,他引:1
13.
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性。本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法。本文中的计算方法都用python语言实现。通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的文本信息比较的不足,使得网页信息提取更加准确,更加迅速。 相似文献
14.
本文重点探讨基于编辑距离的网页相似度算法在Web 抽取系统中的应用与实现.通过结合基于URL 及编辑距离的网页结构相似度的计算方法,抽取系统在抽取过程中能够检测网页结构的变化,从而主动做出判断,选择适应规则进行抽取或通过主动学习自动扩展规则库.结构相似度计算赋予系统感知网页结构变化的能力,系统通过主动自我更新与调整,能更好地适应面向实际应用的异构资源的获取.算法的可行性和效率在原型系统中得以验证. 相似文献
15.
针对多媒体链接在网页中分布的特点,对PageRank、Shark-Search两种典型的主题搜索算法进行相关参数的改进,采用改进后的两种算法从网页内容和网页网页的角度计算多媒体网页与主题的相似度。实验结果表明,改进的Shark-Search多媒体主题搜索算法比改进后的PageRank搜索算法更能有效地提高多媒体主题搜索的效率,同时也更适合网络多媒体资源的主题搜索。 相似文献
16.
基于知识库的网页自动标引和自动分类系统的设计 总被引:15,自引:0,他引:15
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 相似文献
17.
基于GATE语义标注的Web信息的自动抽取 总被引:1,自引:0,他引:1
18.
Midori Kanazawa 《Public Library Quarterly》2014,33(4):279-295
This study is the first investigation into the types of contents in young adult (YA) web pages in public library websites in Japan. The study reveals that YA web pages, in general, place more emphasis on providing guidance on YA services, on helping young adults with regular learning, on the use of information resources for reference services, and on improving the communication abilities for young adults, rather than on providing research assistance to adults on YA services. Furthermore, an IRIS (Information Reference Instructional Sharing) Contents Model is proposed for YA web pages, whereas an IRIR (Information Reference Instructional Research) Contents Model is presented for children’s web pages, based on the differences between the contents of YA web pages and those of children’s web pages. 相似文献