首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 656 毫秒
1.
搜索引擎中Robot搜索算法的优化   总被引:15,自引:0,他引:15  
目前的搜索引擎越来越暴露出不足之处 ,当用户使用搜索引擎时输入特定关键词之后 ,返回的查询结果往往有数千甚至几百万之多 ,而且其中包含大量的重复信息与垃圾信息 ,用户从中筛选出自己感兴趣的网页仍然需要耗费很长的时间。另外一种情况就是 ,Web上明明存在某些重要网页 ,却没有被搜索引擎的robot发现。本文针对这种现象 ,重点讨论搜索引擎中的搜索策略 ,改善搜索算法 ,使Robot在搜索阶段就能够充分处理与Robot频繁交互的URL列表。根据网页的内容、HTML结构以及其中包含的超链信息计算网页的PageRank ,使URL列表能够根据重要性调整排列顺序。初步的试验结果表明 ,本文的优化算法可以较大程度地改进搜索引擎的整体性能  相似文献   

2.
3.
随着互联网络的发展,网上的资源越来越多,各开放式的数据库也不断出现,为使用户能更好地使用网络资源,有几百个搜索引擎在Internet上服务于用户。然而,搜索引擎只能实现对页面的搜索,不能实现对数据库内部的搜索,而后者又是目前人们关注的问题。另外,Internet的用户遍布全世界,所使用的语言各不相同,实现对多语种数据的检索亦是IT界人士研究的问题。本文以中草药数据为基础,通过建立一个多语种的词表实现多语种的检索,以及建立一套URL命令集实现了对多个风格不同的数据库进行检索、连接的问题。  相似文献   

4.
倒排文档是信息检索系统中最普遍使用的索引机制,而索引文件的压缩能大大提高检索速度和节约磁盘空间。倒排文件压缩的传统做法是文档(标识号)间距法(d-gaps)。然而,剧烈变化的间距值并不能被著名的前缀自由代码有效编码压缩。为了使间距值得到有效的压缩,本文设计了一个文档标识号重置法。模拟试验表明能更有效压缩d-gaps倒排文档。  相似文献   

5.
认为国外持久标识符的研究存在研究对象过于具体、应用范围有限等不足,很大程度上是由于没有在一个整体框架指导下来开展研究所致,鉴于此,提出一个持久标识符互操作参考模型,模型主要组成部分是持久标识符域,包括登记机构、内容提供商以及解析器等,对三类数字资源实体(数字对象、作者、机构)和持久标识符之间的关系进行标准化,便于管理、表示和呈现数字资源,并可为实现正确的互操作解决方案和交换奠定基础。最后,指出本模型在安全性、可伸缩性等方面有待进一步完善和改良。  相似文献   

6.
互联网第一代搜索引擎是以雅虎为代表的人工分类检索的搜索方式,第二代大规模的网页搜索则以关键词和特殊算法制胜。当前正孕育着第三代搜索引擎的革命,无线搜索引擎即是这次革命的先锋。它涵盖了人工智能、无线通信和搜索引擎等多个方面的技术。本文对无线互联网搜索引擎现状、问题和发展趋势进行了探讨。  相似文献   

7.
网络信息资源揭示及其优化研究   总被引:5,自引:0,他引:5  
本文通过对目录的作用与用户检索行为、搜索引擎工作方式的分析,探讨了网络信息资源描述的必要性,全面回顾了网络信息资源揭示的现状,提出了应用与借鉴目录学方法、普及与推广中文元数据标签在搜索引擎与网页描述的应用、加强对网络资源描述的权威控制、及时更新文献鳊目课程教学内容、实现标准化与兼容化以及广泛开展合作编目等网络信息资源揭示的优化措施。  相似文献   

8.
URI和数字对象唯一标识符*   总被引:10,自引:0,他引:10  
数字对象唯一标识符作为数字图书馆的基础设施,具备网络环境下数字对象的标识、定位、管理等多种职能。本文分析了唯一标识符的类型、组成和构造原则,从逻辑标识、命名域相关、复杂性、完整性和互操作等角度论述唯一标识符的需求。在W3C提供的URI背景下,比较URI、URL和URN,并分析了相关命名语法和标识框架。最后介绍了COOL URL的概念和命名需求。  相似文献   

9.
网络百科全书是传统百科全书以互联网为载体并与计算机技术相结合的百科工具书,它仍不能离开百科全书的原本性质,而成为信息搜索引擎一类的工具。网络百科全书的最大优势是借助互联网和IT技术可以实时修订,随时更新和能创造出知识的多样表达方式。交互式多媒体百科全书,可能是创制网络百科全书的重要参考。  相似文献   

10.
文献传递解决了用户对于一次文献的需求。当前在国内普遍存在四种文献传递的模式。随着数字图书馆解决方案的成熟,通过各情报机构及商业机构的协调,将最终实现方便快捷的传递模式。  相似文献   

11.
XML搜索引擎研究   总被引:1,自引:0,他引:1  
首先分析传统搜索引擎查准率不高的原因,然后介绍XML以及XML搜索引擎研究现状,并对XML搜索引擎所涉及的文档存储、索引、查询等关键技术进行详尽探讨。在此基础上,设计现行网络环境下的XML搜索引擎模型。认为该模型可充分利用XML文档的DTD模式信息,并能大幅度提高查询的准确率。  相似文献   

12.
中国人类遗传资源平台是我国人类遗传资源的整合与共享平台,其服务于民族种群结构研究、健康与疾病 研究等人类学、民族学、医学、生理学的学科研究,提供相应的遗传信息资源。从情报学的角度开展中国人类遗传资 源平台样本信息的统一资源标识符版本管理研究,旨在提供一种即便于快捷资源管理,又能够实现对资源信息标识可 追溯性的解决方案。收集整理了近年来同领域的研究成果,分析现有问题和不足,创新性地提出基于DOI协议和SVN 溯源管理思想的标识符版本管理策略,并对研究者资源查找方法进行简要描述,为情报管理研究领域资源唯一标识的 可追溯性理论完善提供借鉴。  相似文献   

13.
This study examined ten, selected word pairs, each containing a word's full spelling and its abbreviation, to determine which form search engine users preferred in searching. Using seven search logs gathered from several Internet search engines with approximately 608 MB of data, the study measured the occurrences of the twenty terms. The selected words are important in library cataloging, for some are prescribed abbreviations in metadata content standards. The study found that in eight of the ten word pairs users preferred to search words’ full spellings over the abbreviations, often by a high margin.  相似文献   

14.
Wolfram Alpha是一个全新的、基于计算的知识搜索引擎,它将其创始人史蒂芬.沃尔弗拉姆开发的Mathematica和NKS技术应用到了互联网搜索中,为互联网用户提供了一种与传统搜索引擎截然不同的知识搜索和发现方式。凭借着独特的知识检索机制,它被《大众科学杂志》评为计算领域的2009年度最佳创新。本文介绍了Wolfram Alpha的一些基本情况,阐述了其理论背景和技术手段,并探讨了其知识检索机制和存在的一些问题。  相似文献   

15.
因特网上信息搜集初探   总被引:15,自引:0,他引:15  
在网上信息搜集中, 要善于利用文献数据库、搜索引擎等网上数据库信息服务功能, 开展网络调查, 并通过扩检、缩检和智能检索途经提高信息搜集的效率。  相似文献   

16.
宋振晖 《情报学报》2008,27(2):308-314
互联网正在成为越来越重要的竞争情报源,但目前互联网上借助于浏览器或搜索引擎的竞争情报使用方式并不能满足互联网竞争情报的需求,本文将介绍我们设计与实现的竞争情报系统监控引擎,它是一个基于互联网的、可以进行持续情报搜索的、推式范式的智能代理系统,可以提供竞争情报从情报规划、到情报采集、再到情报分析、直到情报分发的全生命周期的竞争情报支持.本文首先介绍了竞争情报系统监控引擎的应用背景,然后从技术与产品两个角度对国内外的相关研究进行分析,接下来说明了监控引擎的工作原理,最后对监控引擎的各项功能及其实现进行了介绍.  相似文献   

17.
存档资源键(A R K)是一种面向数字资源长期保存的资源永久标识符系统,由图书馆等公益保存机构开发,申请与使用简单,并且可以免费使用,适合有长期保存需求的保存机构。ARK可以通过同一个标识符的不同参数指向资源的三种信息,即资源本身、资源的元数据和提供者有关声明。ARK通过它的限定符系统为资源提供方的多种服务提供了最大的支持,也为用户访问资源带来了方便。ARK已经在欧美的学术机构图书馆中获得了较多的应用,值得进行研究。  相似文献   

18.
19.
一种基于SOM的中文Web文档层次聚类方法   总被引:10,自引:0,他引:10  
陈福集  杨善林 《情报学报》2002,21(2):173-176
近年来Internet迅猛发展 ,网上的信息急剧膨胀 ,如何高效、高质量地检索到用户所感兴趣的中文信息资源 ,是当前我国Internet资源发现的热点问题之一。本文将神经网络聚类方法之一SOM(Self OrganizingMap ,自组织特征映射 )的思想和方法引入中文Web搜索引擎 ,首先探讨了其网络模型和算法 ,而后提出一种聚类用户所感兴趣的中文Web文档的层次聚类方法 ,从而提高中文Web文档的检索质量  相似文献   

20.
数字对象的唯一标识符技术   总被引:21,自引:5,他引:16  
在数字信息环境中, 唯一标识符承担着唯一地和永久地确认数字对象、并将它们与其它数字对象或服务系统连接起来的功能。本文简要介绍唯一标识符的功能、要求和基本框架, 以及主要的唯一标识符系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号