首页 | 本学科首页   官方微博 | 高级检索  
     检索      

网络爬虫的优化策略探略
引用本文:李志义.网络爬虫的优化策略探略[J].现代情报,2011,31(10):31-35.
作者姓名:李志义
作者单位:华南师范大学经济与管理学院,广东广州 510631
摘    要:网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。

关 键 词:网络爬虫  优化策略  搜索引擎

Discussion on the Optimization Strategy of Web Crawlers
Authors:Li Zhiyi
Institution:School of Economic and Management,South China Normal University,Guangzhou 510631,China
Abstract:Web crawlers for collecting web pages and its optimization strategies affected directly on the breadth,depth of Web crawling,and also on web-page preprocessing and the search engine quality.Search engine should be designed taking full account of web traversal strategy and the web crawler optimization strategy.In this paper,the theme collection strategy,priority acquisition strategy,not to repeat the acquisition strategy,website re-visit strategies,distributed capture strategy for the five major optimization...
Keywords:web crawler  optimization strategy  search engine  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《现代情报》浏览原始摘要信息
点击此处可从《现代情报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号