首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于ID3分类算法的深度网络爬虫设计
引用本文:王舜燕,李蕾,吴兵华.基于ID3分类算法的深度网络爬虫设计[J].现代图书情报技术,2008,3(6):41-45.
作者姓名:王舜燕  李蕾  吴兵华
作者单位:武汉理工大学计算机科学与技术学院,武汉,430070
摘    要:针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。

关 键 词:网络爬虫  深度网络  ID3算法
收稿时间:2008-03-14
修稿时间:2008-03-24

Design of Web Crawler for Deep Web Based on ID3 Algorithm
Wang Shunyan,Li Lei,Wu Binghua.Design of Web Crawler for Deep Web Based on ID3 Algorithm[J].New Technology of Library and Information Service,2008,3(6):41-45.
Authors:Wang Shunyan  Li Lei  Wu Binghua
Institution:(Department of Computer Science & Technology, Wuhan University of Technology, Wuhan 430070, China)
Abstract:Considering the problem of poor information coverage in Web data mining,this paper proposes a configurable Web crawling method for deep Web which can improve the results performance of a general search engine significantly.It classifies Web pages and manipulates key information of page content in order to make sensible queries.The experiment results also show it.
Keywords:Web crawler Deep Web ID3 algorithm
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《现代图书情报技术》浏览原始摘要信息
点击此处可从《现代图书情报技术》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号