首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确、搜索信息量更大的爬虫显得十分迫切.本文实现了一种基于多个分类器的分布式主题爬虫方法.实验结果表明,该爬虫的速度和精度均较为良好,特别适合于对大数据量的特定主题信息的抓取.  相似文献   

2.
主题网络爬虫采用集中式体系结构,具有对单台服务器性能要求高、可扩展性差等缺点。提出了一种基于Hadoop的分布式主题网络爬虫架构,通过将主题网络爬虫部署在分布式集群中的不同机器,运用MapReduce编程模型对数据进行抓取分析,使不同机器共同完成对指定任务的抓取工作。实验证明,采用分布式架构,通过动态调节分布式集群中的节点个数,能够明显改善主题网络爬虫的抓取效果。  相似文献   

3.
随着人们对信息资源的个性化需求不断加大,主题网络爬虫应时而生。阐述主题网络爬虫定义及工作原理;介绍了主题网络爬虫研究进展,对主题网络爬虫爬行策略、网页抓取优先级以及系统设计实现进行阐述;总结当前研究的不足,对未来研究方向进行了展望。  相似文献   

4.
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱.然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求.基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生.主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用.首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等.其次,提出使用向量空间模型进行主题相关度计算.为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术.最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫.  相似文献   

5.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。  相似文献   

6.
针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。  相似文献   

7.
《宜宾学院学报》2017,(12):61-65
提出一种基于KNN算法进行主题分类的方法,研究了主题网络爬虫的系统结构和所涉及的关键技术,包括URL管理器、页面下载器、页面解析器、主题识别模块以及内容存储模块,重点介绍了基于KNN的分类器的主题相关度算法.使用IKAnalyzer实现网页内容的中文分词,通过TF-IDF算法实现网页内容的特征提取,并利用KNN分类器计算网页的主题相关度.  相似文献   

8.
介绍了网络爬虫的工作原理,分析了传统的两种启发式算法——基于有限空间的A*搜索算法和局部搜索的爬山算法在网络爬虫中应用的可行性及局限性。并详细阐述了应用了模拟退火算法的网络爬虫网页搜索的过程,并结合一个搜索实验说明了基于模拟退火算法的网络爬虫搜索性能的优越性。  相似文献   

9.
针对主题搜索引擎反馈信息主题相关度低的问题,提出了将遗传算法与基于内容的空间向量模型相结合的搜索策略。利用空间向量模型确定网页与主题的相关度,并将遗传算法应用于相关度判别,提高主题信息搜索的准确率和查全率。在Heritrix框架基础上,利用Eclipse 3.3实现了相应功能。实验结果表明,搜索策略改进后的系统抓取主题页面所占比例与原系统相比提高了约30%。  相似文献   

10.
通过介绍主题网络爬虫,以及使用Java开发的开源网络爬虫Heritrix的系统构架,设计基于遗传算法的主题网络爬虫算法,并使用Heritrix构造基于遗传算法的主题网络爬虫。实验结果表明,采用Heritrix实现的基于遗传算法的主题网络爬虫,能取得不错的效果。  相似文献   

11.
在网络健康资讯研究中,数据获取是首先要解决的问题,但传统抓取工具无法满足多变的数据源,研究高效爬取健康资讯内容新方法迫在眉睫。基于Python的网络健康资讯抓取方案,整合多个数据源,抓取内容更为全面;利用WebDriver和Python的Selenium库,能够较好地应对复杂网络状况,通过多线程技术极大提高爬虫效率。对抓取的癌症数据进行统计分析,对多线程效率进行对比分析,显示爬虫具有良好的适应性。基于Python的网络健康咨询抓取方案能快速抓取网络资讯,为后续科研打下基础。  相似文献   

12.
张皓  周学广 《教育技术导刊》2013,12(11):135-137
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。  相似文献   

13.
针对页面中的大量动态链接,提出了模拟浏览器的解析方式进行页面链接的提取,并设计实现了基于JaveScript等多链接分析的主题爬虫系统.  相似文献   

14.
由于通用搜索引擎返回的信息过多且主题相关性不强,使部分企业未能及时获取高校招标公告,错失中标机会。针对这种情况,提出了高校招投标公告主题爬虫的设计方法。爬虫首先通过主题确立、网页聚类,将高校招投标公告聚集页面存储起来,然后爬虫每日从高校招投标聚集页面采集最新公告。实验结果表明,该爬虫能及时更新高校招投标公告且准确率较高,较好地为高校招投标信息网站建设提供数据来源。  相似文献   

15.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

16.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

17.
随着就业压力日渐增加,准确全面地获取数据可以帮助高校学生规避就业风险、正确认识自身价值,具有相当重要的研究价值。基于Python的网络动态招聘数据抓取方案利用requests库抓取Ajax异步请求多页数据源,抓取的内容更为全面;对抓取到的招聘数据进行统计分析,对多线程效率进行对比分析,显示爬虫具有良好的适应性。该方案抓取的网络资讯在科研、求职等方面具有一定实用价值。  相似文献   

18.
网络舆情具有自由发布、传播和隐蔽等特点,这使得传统的信息检索技术很难直接应用到网络舆情监测系统中。通过深入研究网络舆情的相关技术,提出了网络舆情监测系统框架。围绕着论坛爬虫这一核心技术,分析了论坛网站的结构特点,并构建了论坛网站的层次模型,实现了对不同论坛网站的抓取。这种基于层次模型的爬虫技术兼顾了舆情信息采集的广泛性与特殊性,实验结果表明,该方法能够提高论坛爬虫的效率。  相似文献   

19.
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。  相似文献   

20.
利用Python编程语言的Scrapy框架,为猫眼网站设计一个网络爬虫程序,对猫眼网页中《复仇者联盟4》的用户评论进行抓取。对抓取下来的网页信息进行信息提取,并将有用信息转换为dataframe格式存储到csv文件中;再将csv文件中的数据通过Pandas库进行提取排列,并利用Pyecharts库生成可视化图表的html页面;最后修改url中的setoff属性,通过改变starTtime的值,成功获取了更多评论。结果表明,比正常获取评论数的最大值990条多了16倍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号