一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例 |
| |
引用本文: | 何瑾,吴晓宁,刘玲.一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例[J].教育技术导刊,2010,9(5):47-49. |
| |
作者姓名: | 何瑾 吴晓宁 刘玲 |
| |
作者单位: | 大连水产学院信息与计算机工程学院; |
| |
摘 要: | 以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。
|
关 键 词: | 定题爬虫 搜索引擎 Heritrix |
本文献已被 维普 万方数据 等数据库收录! |
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|