首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Heritrix的主题网络爬虫设计与实现
引用本文:高伟锋.基于Heritrix的主题网络爬虫设计与实现[J].南宁职业技术学院学报,2011,16(1):97-100.
作者姓名:高伟锋
作者单位:广西大学,计算机与电子信息学院,广西,南宁,530004
摘    要:通过介绍主题网络爬虫,以及使用Java开发的开源网络爬虫Heritrix的系统构架,设计基于遗传算法的主题网络爬虫算法,并使用Heritrix构造基于遗传算法的主题网络爬虫。实验结果表明,采用Heritrix实现的基于遗传算法的主题网络爬虫,能取得不错的效果。

关 键 词:Heritrix  主题网络爬虫  遗传算法  搜索引擎

The Design and Implementation of the Heritrix-based Topic Web Crawlers
GAO Wei-feng.The Design and Implementation of the Heritrix-based Topic Web Crawlers[J].Journal of Nanning Polytechnic,2011,16(1):97-100.
Authors:GAO Wei-feng
Institution:GAO Wei-feng(School of Information Engineering,Nanning College for Vocational Technology,Nanning 530008,Guangxi,China)
Abstract:Based on the introduction of the principles for implementing the topic Web crawlers as well as Heritrix,the Internet Archive's open-source web crawler project developed by Java,the article probes into the application of the topic Web crawlers based on genetic algorithm.
Keywords:Heritrix
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号