首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例
引用本文:孙庚,冯艳红,于红,史鹏辉.一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例[J].人天科学研究,2010(5).
作者姓名:孙庚  冯艳红  于红  史鹏辉
作者单位:大连水产学院信息与计算机工程学院
摘    要:以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。

关 键 词:定题爬虫  搜索引擎  Heritrix
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号