首页 | 本学科首页   官方微博 | 高级检索  
     检索      

网络爬虫软件的研究与开发
引用本文:李琳琢.网络爬虫软件的研究与开发[J].教育技术导刊,2011,10(5).
作者姓名:李琳琢
作者单位:大连大窑湾边防检查站,辽宁大连,116610
摘    要:作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱.然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求.基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生.主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用.首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等.其次,提出使用向量空间模型进行主题相关度计算.为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术.最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫.

关 键 词:主题爬虫  向量空间模型  主题相关度  爬虫阻止协议

Research and Development of Web Crawlers Software
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号