首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
提出一种以动态知识库为指导的主题爬虫的设计方法,目的是克服传统的基于本体的主题爬虫的领域局限性和缺乏指导用户功能的不足;通过知识库的不断完善更好地指导爬虫找到相关网页.其中涉及的主要问题:构建动态知识库、计算网页相关度和判断相关链接.  相似文献   

2.
主题网络爬虫是针对某一特定领域进行信息采集的网络爬虫,本文提出将主题网络爬虫应用于数字档案馆的信息采集,以档案采集系统的设计目标为出发点,阐述了基于主题网络爬虫的档案信息采集系统的设计方案和该系统实现的相关技术。  相似文献   

3.
文阳  陈文宇  袁野  朱建 《图书情报工作》2014,58(20):125-130
认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。  相似文献   

4.
基于本体的网络爬虫技术研究   总被引:1,自引:0,他引:1  
杨学明  刘柏嵩 《情报学报》2007,26(5):723-727
互联网已经成为最大的非结构化数据库,极大方便了信息访问.然而,网络上的信息大多都是无组织的,由于网络的分布式特性,很难对它进行信息和知识管理.因此,如何建立一个智能的信息发现机制很有必要.本文在分析了爬虫工作原理和传统算法后,提出了一种基于本体的网络爬虫的信息发现框架.该框架包含了预处理模块和本体管理模块,定义了网页相关度计算策略,最后通过实验对该框架进行了评估.  相似文献   

5.
通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息内容,并对信息主体进行了结构化存储。  相似文献   

6.
通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息内容,并对信息主体进行了结构化存储。  相似文献   

7.
从主题爬虫角度看数字资源建设   总被引:2,自引:0,他引:2  
宋宇 《中国索引》2010,8(1):47-51
数字资源建设是图书馆的一个重要研究领域,通过主题爬虫自动收集网络数字资源是数字资源建设的一种重要途径;主题爬虫是主题搜索引擎的重要组成部分,主题搜索算法是主题爬虫的核心;按照评价链接价值方式的不同,对现有的主题搜索算法进行分类,系统分析、比较了每类算法的特点和优缺点。  相似文献   

8.
面向主题的个人实时搜索引擎的设计与实现   总被引:2,自引:0,他引:2  
介绍一种专为个人用户量身订做的搜索引擎,它使用启发式实时搜索算法,为用户提供最新的主题相关信息。该系统能够结合用户需求,很好地解决综合性搜索引擎中普遍存在的主题固化、信息滞后等问题,同时为搜索引擎的个人化提供理论和实践依据。  相似文献   

9.
基于ID3分类算法的深度网络爬虫设计   总被引:1,自引:0,他引:1  
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。  相似文献   

10.
针对分布式合作数字参考咨询知识库建设存在的资源分布异构、可扩展和知识管理等问题,在深入分析P2P、主题图和OAI等技术的基础上,提出一种基于P2P和主题图的合作数字参考咨询的知识库建设方法,以有效解决以上问题。  相似文献   

11.
如何利用具有本体标注的结构化文档中的语义信息组织P2P网络,提供对基于语义的信息共享与查询的P2P网络支持,是当前P2P网络的研究热点之一.本文提出采用Peer所存储文档中的加权本体概念向量作为Peer的特征向量,通过相似度计算将Peer聚成Peer组,从而构造基于语义的半结构化P2P网络.用户的查询请求由各Peer组内的组服务器负责路由转发,组服务器计算查询请求与各路由表项之间的相似度,将查询向最有可能包含查询目标的Peer组转发.文中较全面地阐述了本体概念局部和全局权重的计算方法.由于P2P网络拓扑的建立过程和查询路由过程均基于语义信息,使得网络的各项性能与基于关键字处理的P2P网络相比,得到了较大的提高.  相似文献   

12.
基于P2P技术的信息网络   总被引:2,自引:0,他引:2  
信息网络的基本结构在信息发布与接收架构方面,经常采用的有传统的客户/服务器2层结构(即C/S结构)和Web浏览器/Web服务器/数据库(DB)服务器3层结构(即B/S结构)。这2种结构中后者是从前者发展而来的,它们的本质都是C/S,数据库服务的核心也是一致的,只是由于结构的不同,两者适宜的用户对象不同。但是2层结构C/S模式存在诸多问题,例如开发和维护成本高,客户端负载重,灵活性差,缺乏开放性,难以与Internet/Intranet接轨等,造成系统使用和维护中的许多难题。P2P技术及其前景P2P,英文Peer-to-peer的缩写,中译为对等互联或点对点技术。在国…  相似文献   

13.
P2P作为Web2.0的重要分支,在信息搜索方面有优势。本文讨论了P2P搜索技术的优点、网络拓扑结构和搜索结构,并介绍P2P相关的算法和分析了主要算法的优缺点。  相似文献   

14.
在分析当前云存储系统所面临的问题的基础上,提出一种基于P2P技术的云存储模型。此模型应用Chord算法来组织节点并分发用户的请求,解决集中式云存储系统的中心节点瓶颈问题,实现系统的负载均衡;使用存储簇来完成数据的存储和管理,简化系统管理的难度;并提出模型的副本管理策略,使云存储系统具有良好的可扩展性、容错性和高性能。  相似文献   

15.
赵辉 《报林求索》2009,(9):85-87
民间借贷需求渐增、互联网普及率和业务使用率的不断上升,使网络借贷这一民间草根金融被越来越多人看好。  相似文献   

16.
以1969-2006年间LISA数据库收录的关于p2p (对等网) 的文献为研究对象,运用文献计量学方法,分别进行载文分析、著者分析、期刊分析和主题分析。基于这些分析,结合p2p产生的历史和发展的现状,提出在该领域研究的核心地区、核心作者和核心期刊,指出目前的研究重点,进而探讨未来该领域研究的发展方向,以期对国内的p2p研究提供借鉴。  相似文献   

17.
基于JXTA的P2P图书馆信息平台的设计   总被引:1,自引:0,他引:1  
图书馆信息平台的构建,为求知者提供了一种新的信息交流方式.本文设计了基于JXTA平台的P2P信息平台的体系结构,介绍了系统中的三个主要功能模块.  相似文献   

18.
基于P2P的分布式检索模式的研究   总被引:7,自引:0,他引:7  
董华山  孙济庆 《情报学报》2004,23(6):683-688
在开发数据检索系统中,检索的模式是系统的关键 .本文运用P2P(Peer to Peer)技术设计了一种分布式检索模式NSDSM(NetShot Data sea rches mode),并详细设计了模式的体系结构和模式参考实现.最后,给出了模式的应用和进一步工作的展望.  相似文献   

19.
基于本体的对等网语义检索系统   总被引:2,自引:0,他引:2  
针对目前采用关键字匹配实现信息检索的不足,借鉴利用本体进行信息集成的方法提出非结构化对等网的语义检索系统架构,描述各模块的功能,并深入讨论实现语义检索需解决的关键技术——资源描述与提问处理、资源搜索和本体映射等。  相似文献   

20.
P2P网络信息检索的研究进展   总被引:2,自引:0,他引:2  
在分析P2P网络概念和P2P网络信息检索的基本机制的基础上,基于信息检索的一般原理给出P2P网络信息检索的研究模型,并基于该模型从资源定位、检索模型及用户模型3个方面讨论当前P2P网络信息检索的研究现状,展望P2P网络信息检索的发展趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号