基于P2P的分布式主题爬虫系统的设计与实现 |
| |
引用本文: | 朱学芳,韩占校.基于P2P的分布式主题爬虫系统的设计与实现[J].情报学报,2010,29(3). |
| |
作者姓名: | 朱学芳 韩占校 |
| |
作者单位: | 南京大学信息管理系、多媒体信息处理研究所,南京,210093 |
| |
摘 要: | 本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程.系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求.实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息.
|
关 键 词: | 网络爬虫 对等网络 分布式计算 信息检索 主题爬虫 |
Design and Implementation of Distributed Topic Crawler Based on P2P for Image Retrieval |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 万方数据 等数据库收录! |
|