首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且无法有效实现路径损耗误差有效估计。提出一种基于叠加编码特征统计的Web网页抓取路径损耗误差估计算法。构建Web网页文本特征抓取的目标函数,进行Web网络路径损耗模型构建,设计叠加编码算法进行特征统计,得到Web网页抓取路径概念格。仿真实验表明,该算法能有效提高Web网页抓取路径损耗误差估计精度,进而提高了Web网页文本数据抓取的查准率和文本特征数据的挖掘性能。  相似文献   

2.
李志义 《现代情报》2011,31(10):31-35
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。  相似文献   

3.
翟东升  余旸 《情报杂志》2005,24(8):33-35
提出了一个应用于国际贸易技术壁垒预警系统中的网页表格信息抽取的可行性方案。数据抓取从对Web页的HTML源代码分析入手,采取基于Ontology的抽取方法,结合一系列成熟模型,进而建立网页信息采集系统并且通过测试。实验结果表明该方案切实可行,且抓取具有较快的速率和较高的准确性。  相似文献   

4.
基于Python的网络爬虫可以方便地抓取网页信息,以豆瓣网站为例,实现了基于Python网络爬虫抓取豆瓣影视信息的过程。  相似文献   

5.
随着互联网的快速发展,大数据时代的来临,网络上的数据和信息呈爆炸性增长,网络爬虫技术越来越受欢迎。本文通过以抓取二手房出售数据为例,探索R语言爬虫技术的网页信息抓取方法,发现基于R语言的rvest函数包与Selector Gadget工具实现的网页信息爬取方法比传统方法更加简单快捷。  相似文献   

6.
本文介绍了网络爬虫的基本架构、工作原理,设计了网络视频爬虫网络视频爬虫的基本架构、详细讨论了如何有效的避免重复遍历网页和如何快速的更新网站新内容的两个关键问题和网络视频爬虫下载视频和抓取网页的工作方式。  相似文献   

7.
被盗还能导致亡国?这岂不是太荒唐了?荒唐是荒唐,但这种荒唐剧已经在中华蜜蜂种群中上演100多年了. 我国研究人员证实,自我国引进两方蜜蜂一百多年来,我国本土蜜蜂--中华蜜蜂深受其害,它们目前已经在新疆和大兴安岭地区相继灭绝,而在东北平原、华北平原现在也将要绝迹.目前,西方蜜蜂在全国分布的总群数约500万群,而被饲养的中华蜜蜂则不足100万群,山林中也已很难找到野生中华蜜蜂群了.  相似文献   

8.
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。  相似文献   

9.
面对数据大爆炸,人们很难获取有用的信息。网络爬虫技术成为了搜索引擎中最为重要的部分,能够有效的在海量数据中找到有价值的信息。首先介绍网络爬虫的抓取对象和抓取策略,然后介绍最常见的网页分析算法——Pagerank算法,最后通过实例实现网络爬虫。实例结果表明,网络爬虫能够准确的从海量数据中抓取有用信息。  相似文献   

10.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

11.
《科技风》2017,(3)
本文主要介绍_View State属性值的动态获取方法,并通过教师课程表介绍它在ASP.NET网页抓取中的应用方法及注意事项。  相似文献   

12.
网络爬虫软件的研究与开发   总被引:1,自引:0,他引:1  
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。  相似文献   

13.
高校网站群使用部门众多,热点网页容易重复,这对于信息抽取来说,容易造成重复提取。本文对高校网站群近似镜像网页的检测进行了分析,比较了常用的几种检测算法,根据高校网站群的特点,选择了合适的算法。本系统可以运行在校园网站群之上,自动对各种近似镜像网页进行检测与去重。测试证明,这种方法完全满足高校网站群的需求。  相似文献   

14.
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。  相似文献   

15.
正本设计实现了一种基于web爬虫的网页信息获取系统,通过构造虚拟HTTP请求头部,模拟浏览器行为发送虚拟请求获取需要的web页面,实现了流量包抓取、微信公众号内容抓取。通过实验结果和原网址信息进行比对,表明了网页信息获取系统的正确性。urllib2与Beautiful Soup简介urllib2在python3中即为urllib.request。由于urllib2  相似文献   

16.
蜜蜂的语言     
每当百花盛开时节,我们经常可以见到一群群的蜜蜂在花间熙来攘往,忙碌地采集着花蜜和花粉。猛一看,每只蜜蜂都是单独行动的。但仔细观察就可发现,它们是作为集体在工作着。如果把一只盛有糖水的碟子放在蜂箱附近,只要有一只蜜蜂发现了糖水,它就会返回巢去叫来一大批蜜蜂。同样地,一只蜜蜂发现天然蜜源——花丛后,也能回家招呼同伴,大伙儿一起  相似文献   

17.
本文分析了正方法,查询修正中的用户信息行为,吸收网页抓取、检索与浏览并重的思想,综合考虑用户Web搜索过程中的行为特点、查询修正所用词汇的可用来源,给出一个新的面向Web搜索的查询修正解决方案.  相似文献   

18.
从认知障碍角度探讨无障碍网络信息环境的设计   总被引:1,自引:0,他引:1  
本文从构建和谐信息社会目的出发,分析了认知障碍人群的认知特征及网络需求,并把他们纳入网页设计目标群中,推荐一系列无障碍网页开发流程和无障碍的网页设计,为认知障碍人群创造一个信息公平的无障碍网络环境。  相似文献   

19.
人工蜂群算法是一种新型的元启发式仿生算法。算法中每个蜜蜂都可以看作一个智能体,通过蜂群个体间协同作用达到群体智能的效果。在分析蜜蜂群采蜜原理的基础上,将求解函数优化问题的过程转化为蜜蜂群寻找优良蜜源的过程,对函数进行求解。文中采用了13种不同维数和多样复杂的测试函数来验证此算法,再与其他几种算法进行比较,实验结果表明此方法寻优效果最好,能够更好的得到函数最优值。  相似文献   

20.
蜂群有一群蜜蜂,一部分飞进了杞拘丛里,其只数等于全群总数的一半的平方根,还有全群的8/9留在后面。此外,在这群里面还有一只小蜜蜂在莲花旁徘徊着,它被一个坠入香花陷阱里的同伴的呻吟声所吸引。试问全群蜜蜂有多少只? (次博)  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号