首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
网络爬虫软件的研究与开发   总被引:1,自引:0,他引:1  
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。  相似文献   

2.
网络和各种新媒体、自媒体的快速发展使得各种地震不良言论散布的更加快速和隐蔽,极易造成社会群体性恐慌,严重影响了社会的正常生产生活秩序。本文通过基于主题爬虫的网络地震谣言源信息获取研究,对通用爬虫和主题爬虫进行了比较,简要叙述了主题爬虫的模块结构和几种算法,最后以地震谣言主题为例进行了应用研究。结果表明,地震谣言主题爬虫具有较好的信息采集和数据挖掘效率,为及时制止地震谣言的散播并采取相关决策提供了数据理论基础。  相似文献   

3.
首先给出了主题网络爬虫的定叉和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BFO算法。对BFO算法进行性能评价,发现应用此算法搜索不但“召回率”和“收获率”有所提高,还能在一定程度上找到全局围内的最优解。最后对未来的研究方向进行了展望。  相似文献   

4.
以何种策略访问网络,提高搜索效率,是近年来主题搜索引擎研究的主要问题之一。本文对主题爬虫常用搜索策略进行了简单分析,提出了实用性较强的基于SAGA的主题爬虫搜索策略。  相似文献   

5.
面对数据大爆炸,人们很难获取有用的信息。网络爬虫技术成为了搜索引擎中最为重要的部分,能够有效的在海量数据中找到有价值的信息。首先介绍网络爬虫的抓取对象和抓取策略,然后介绍最常见的网页分析算法——Pagerank算法,最后通过实例实现网络爬虫。实例结果表明,网络爬虫能够准确的从海量数据中抓取有用信息。  相似文献   

6.
基于主题爬虫的个性化搜索引擎技术,借鉴Web个性化推荐服务思路,改善了以搜索引擎为代表的Web信息检索系统服务方式,有效地解决了Internet上"资源过载"和"信息迷失"的问题,相对满足了用户的需求。概述了网络爬虫和个性化搜索引擎,并对基于主题爬虫的个性化搜索引擎技术进行了介绍研究。  相似文献   

7.
赵哲  马晓珺 《科技通报》2014,(4):206-208
利用Web页面的采集序位和被检索页面的相关信息和主题,使得以主题为分块的网络爬虫算法,能够尽可能多地把整个Web按照主题为依据进行分块整合,可以采用对URL定位信息,提高了页面的高效检索能力。仿真实验中表明,提出的主题相关爬虫算法能够跨越BBS中URL网页中的断裂带,提高了URL网页的召回率,也不至于因为网页的断裂而中止检索。算法精度分析表明,误判点都在等分线附近徘徊,偏差不大,表明算法精度较高。  相似文献   

8.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

9.
本文首先对Python与网络爬虫的概念进行了简要阐释,并分析了基于Python的网络爬虫系统的基本原理;其后从关键设计原则与模块结构设计角度入手,提出了基于Python的网络爬虫系统的设计思路;最后对基于Python的网络爬虫系统的编程实现进行了研究。  相似文献   

10.
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。  相似文献   

11.
基于遗传算法的主题信息搜索系统研究   总被引:1,自引:0,他引:1  
罗长寿  康丽  刘国靖 《现代情报》2009,29(3):176-178
针对网络信息资源“迷向”与“过载”的现象,本文通过对遗传算法的分析应用,构建了由基于遗传算法的主题爬虫、信息处理和查询服务三部分组成的主题信息搜索系统。实验结果表明,应用该系统可以获取与主题相关度高的网页信息。  相似文献   

12.
李志义 《现代情报》2011,31(10):31-35
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。  相似文献   

13.
提出一种基于协方差特征爬虫的网页语义概念树构建方法,引入语义概念决策树算法进行主特征建模,根据语义三叉特征决策树概率正则训练迁移法则,得到决策树网络节点最近时刻获得的数据集有效特征概率,采用协方差特征网页爬虫进行网页语义概念树构建算法的改进。通过协方差特征爬虫,进行自相关成分的独立快速分离,得到语义自相关检索编码,实现网页语义概念树构建指导信息检索。仿真结果表明,该算法能有效进行数据挖掘和网页语义概念树的构建,为信息定位提供了最优分叉路径,从而实现对主题热点信息的准确检索和定位,算法具有较好的网页召回和定位检索性能,数据召回率提高明显,展示了较好的应用价值。  相似文献   

14.
随着互联网的发展,当今网络的规模变得十分庞大,网络数据呈现海量发展趋势,获取互联网中各类型的信息数据,来作为当前互联网舆情信息监测和分析的原始依据,已经成为该领域的热点话题.因此本文设计一种基于云计算平台的主题网络爬虫,来对庞大互联网海量数据的采集、主题识别有着重要的意义.  相似文献   

15.
在物联网技术迅速发展的背景下,网络数据呈现出爆炸式增长,对数据的应用需要在大量数据中记性挖掘搜索,搜索引擎结合这一需求就应运而生,不只是搜索数据信息,还要帮助人们找到需要的结果被人们所应用。信息数据的处理就需要爬虫技术加以应用来收集网络信息,基于此,本文先就爬虫技术的类型和发展趋势加以阐述,然后就大数据领域中爬虫技术实际应用方法详细探究,希望能从理论的研究下,为爬虫技术的应用推广起到促进作用。  相似文献   

16.
随着信息技术的不断发展,互联网上的数据类型越来越多,信息量以几何级增长,庞大的数据给人们的生活带来便利的同时也给信息的查找带来了巨大的挑战。搜索引擎的通用网络爬虫越来越难以胜任越来越大规模的数据抓取任务。本文设计了一个分布式架构的主题网络爬虫,能快速、准确、稳定的抓取特定领域的信息。  相似文献   

17.
<正>网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,其又被称为网页蜘蛛。由于万维网的快速发展以及数据的爆炸式增长,对大规模数据的网络进行数据爬取是在2001年进行的,使用了网络爬虫并采用广度优先策略对万维网3.28亿个网页进行研究。而伴随着万维网网络爬虫技术的快速发展,与网络爬虫技术相关的专利申请也与之对应进入了快速的发展阶段。本文的数据是基于网络爬虫相关中英文关键词在智慧芽数据库进行检索后获取到的数据,本文的分析是基于上述获取的数据进行的。  相似文献   

18.
采用网络协议爬虫方法对Web网页跨站脚本的动态污点Bug进行检测和数据补齐,根本上保证Web安全。传统方法采用主成分分析和驱动爬虫方法进行Bug数据补齐,当用户提交的数据没有经过严格的过滤和验证的时,Bug漏洞不能得到有效检测。提出一种基于向量空间动态污点传播模型的Web协议爬虫算法,实现对动态污点Bug检测与数据补齐,构建向量空间模型,计算Bug数据和漏洞检测中的模糊关系的隶属度,提取动态污点Bug数据模态特征进行网络爬虫,优化对动态污点数据的检测性能。仿真实验结果表明,该算法能提高数据补齐的准确性,聚类性好,收敛性提高,保证了系统安全防御的实时性,在Web程序安全设计中应用前景广阔。  相似文献   

19.
藏语文信息监测与发布关键技术难点主要包括网络爬虫算法设计、藏文自动分词及词性标注和藏文命名实体识别。文章围绕以上三个方面分别探索了网络爬虫技术、藏文自动分词及词性标注规则算法和藏文命名实体识别构思,致力于形成与舆情、安全相关的藏语文信息监测技术方案。  相似文献   

20.
提出基于集成学习的项目绩效预测方法,利用多分类集成监督学习算法,对网络爬虫得到的已结题项目数据中隐含的关于项目绩效的信息进行有效挖掘,形成项目绩效预测模型.基于国家自然科学基金项目数据,利用多种指标对模型的性能进行评估,将模型对项目的绩效预测结果与专家的评估结果进行比较,结果显示模型的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号