首页
|
本学科首页
官方微博
|
高级检索
全部专业
教育
科学、科学研究
世界各国文化与文化事业
体育
文化理论
信息与知识传播
学报及综合类
按
中文标题
英文标题
中文关键词
英文关键词
中文摘要
英文摘要
作者中文名
作者英文名
单位中文名
单位英文名
基金中文名
基金英文名
杂志中文名
杂志英文名
栏目英文名
栏目英文名
DOI
责任编辑
分类号
杂志ISSN号
检索
基于Heritrix的网络爬虫研究与应用
引用本文:
刘高军,夏景隆.基于Heritrix的网络爬虫研究与应用[J].教育技术导刊,2013,12(5):123-125.
作者姓名:
刘高军
夏景隆
作者单位:
北方工业大学;
基金项目:
北京市教委科技发展计划项目,国家科技支撑项目
摘 要:
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。
关 键 词:
网络爬虫
主题搜索引擎
Heritrix
URL地址去重
BKDRHash算法
Design and Implementation Based on Heritrix Spider
Abstract:
Keywords:
本文献已被
万方数据
等数据库收录!
点击此处可从《教育技术导刊》浏览原始摘要信息
点击此处可从《教育技术导刊》下载
免费
的PDF全文
设为首页
|
免责声明
|
关于勤云
|
加入收藏
Copyright
©
北京勤云科技发展有限公司
京ICP备09084417号