共查询到20条相似文献,搜索用时 31 毫秒
1.
对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且无法有效实现路径损耗误差有效估计。提出一种基于叠加编码特征统计的Web网页抓取路径损耗误差估计算法。构建Web网页文本特征抓取的目标函数,进行Web网络路径损耗模型构建,设计叠加编码算法进行特征统计,得到Web网页抓取路径概念格。仿真实验表明,该算法能有效提高Web网页抓取路径损耗误差估计精度,进而提高了Web网页文本数据抓取的查准率和文本特征数据的挖掘性能。 相似文献
2.
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。 相似文献
3.
提出了一个应用于国际贸易技术壁垒预警系统中的网页表格信息抽取的可行性方案。数据抓取从对Web页的HTML源代码分析入手,采取基于Ontology的抽取方法,结合一系列成熟模型,进而建立网页信息采集系统并且通过测试。实验结果表明该方案切实可行,且抓取具有较快的速率和较高的准确性。 相似文献
5.
随着互联网的快速发展,大数据时代的来临,网络上的数据和信息呈爆炸性增长,网络爬虫技术越来越受欢迎。本文通过以抓取二手房出售数据为例,探索R语言爬虫技术的网页信息抓取方法,发现基于R语言的rvest函数包与Selector Gadget工具实现的网页信息爬取方法比传统方法更加简单快捷。 相似文献
6.
本文介绍了网络爬虫的基本架构、工作原理,设计了网络视频爬虫网络视频爬虫的基本架构、详细讨论了如何有效的避免重复遍历网页和如何快速的更新网站新内容的两个关键问题和网络视频爬虫下载视频和抓取网页的工作方式。 相似文献
7.
赵尚泉 《大科技.科学之谜》2009,(9):43-43
被盗还能导致亡国?这岂不是太荒唐了?荒唐是荒唐,但这种荒唐剧已经在中华蜜蜂种群中上演100多年了. 我国研究人员证实,自我国引进两方蜜蜂一百多年来,我国本土蜜蜂--中华蜜蜂深受其害,它们目前已经在新疆和大兴安岭地区相继灭绝,而在东北平原、华北平原现在也将要绝迹.目前,西方蜜蜂在全国分布的总群数约500万群,而被饲养的中华蜜蜂则不足100万群,山林中也已很难找到野生中华蜜蜂群了. 相似文献
8.
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。 相似文献
9.
10.
12.
网络爬虫软件的研究与开发 总被引:1,自引:0,他引:1
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。 相似文献
13.
高校网站群使用部门众多,热点网页容易重复,这对于信息抽取来说,容易造成重复提取。本文对高校网站群近似镜像网页的检测进行了分析,比较了常用的几种检测算法,根据高校网站群的特点,选择了合适的算法。本系统可以运行在校园网站群之上,自动对各种近似镜像网页进行检测与去重。测试证明,这种方法完全满足高校网站群的需求。 相似文献
14.
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。 相似文献
15.
16.
17.
本文分析了正方法,查询修正中的用户信息行为,吸收网页抓取、检索与浏览并重的思想,综合考虑用户Web搜索过程中的行为特点、查询修正所用词汇的可用来源,给出一个新的面向Web搜索的查询修正解决方案. 相似文献
18.
19.
人工蜂群算法是一种新型的元启发式仿生算法。算法中每个蜜蜂都可以看作一个智能体,通过蜂群个体间协同作用达到群体智能的效果。在分析蜜蜂群采蜜原理的基础上,将求解函数优化问题的过程转化为蜜蜂群寻找优良蜜源的过程,对函数进行求解。文中采用了13种不同维数和多样复杂的测试函数来验证此算法,再与其他几种算法进行比较,实验结果表明此方法寻优效果最好,能够更好的得到函数最优值。 相似文献