首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例
引用本文:何瑾,吴晓宁,刘玲.一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例[J].教育技术导刊,2010,9(5):47-49.
作者姓名:何瑾  吴晓宁  刘玲
作者单位:大连水产学院信息与计算机工程学院;
摘    要:以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。

关 键 词:定题爬虫  搜索引擎  Heritrix  
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《教育技术导刊》浏览原始摘要信息
点击此处可从《教育技术导刊》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号