网络爬虫软件的研究与开发 |
| |
引用本文: | 李琳琢.网络爬虫软件的研究与开发[J].教育技术导刊,2011,10(5). |
| |
作者姓名: | 李琳琢 |
| |
作者单位: | 大连大窑湾边防检查站,辽宁大连,116610 |
| |
摘 要: | 作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱.然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求.基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生.主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用.首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等.其次,提出使用向量空间模型进行主题相关度计算.为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术.最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫.
|
关 键 词: | 主题爬虫 向量空间模型 主题相关度 爬虫阻止协议 |
Research and Development of Web Crawlers Software |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 万方数据 等数据库收录! |
|