首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Heritrix的网络爬虫研究与应用
引用本文:刘高军,夏景隆.基于Heritrix的网络爬虫研究与应用[J].教育技术导刊,2013,12(5):123-125.
作者姓名:刘高军  夏景隆
作者单位:北方工业大学;
基金项目:北京市教委科技发展计划项目,国家科技支撑项目
摘    要:主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。

关 键 词:网络爬虫  主题搜索引擎  Heritrix  URL地址去重  BKDRHash算法  

Design and Implementation Based on Heritrix Spider
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
点击此处可从《教育技术导刊》浏览原始摘要信息
点击此处可从《教育技术导刊》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号