共查询到18条相似文献,搜索用时 261 毫秒
1.
2.
将叙词表同传统的信息检索技术相结合,提出用叙词表的族对爬虫的主题进行描述的方法并用该方法设计实现一主题爬虫。实验结果证明本文提出模型和算法的有效性。 相似文献
3.
从主题爬虫角度看数字资源建设 总被引:2,自引:0,他引:2
数字资源建设是图书馆的一个重要研究领域,通过主题爬虫自动收集网络数字资源是数字资源建设的一种重要途径;主题爬虫是主题搜索引擎的重要组成部分,主题搜索算法是主题爬虫的核心;按照评价链接价值方式的不同,对现有的主题搜索算法进行分类,系统分析、比较了每类算法的特点和优缺点。 相似文献
4.
5.
6.
乔建忠 《现代图书情报技术》2009,(Z1)
提出一种以动态知识库为指导的主题爬虫的设计方法,目的是克服传统的基于本体的主题爬虫的领域局限性和缺乏指导用户功能的不足;通过知识库的不断完善更好地指导爬虫找到相关网页.其中涉及的主要问题:构建动态知识库、计算网页相关度和判断相关链接. 相似文献
7.
基于P2P的分布式主题爬虫系统的设计与实现 总被引:1,自引:0,他引:1
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程.系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求.实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息. 相似文献
8.
基于语义爬虫的商品信息主题采集研究* 总被引:2,自引:0,他引:2
黄炜张李义 《现代图书情报技术》2010,26(1):3-8
结合网页主题链接分析和网页主题内容语义分析,提出一个以主题爬虫实现采集商品信息的方法。在爬行过程中通过对本体的统计学习,使主题本体参照物不断得到优化。实验结果表明,该方法较其他传统爬行算法更有效,并能防止主题漂移的发生,带来较高的主题收获率。 相似文献
9.
基于主题爬虫的本体非分类关系学习框架 总被引:1,自引:0,他引:1
10.
11.
在讨论主题搜索引擎发展缘起、基本原理及体系结构之后,对开源搜索引擎WebSPHINX的功能特点进行分析,并在此基础上自行设计一个基于WebSPHINX的主题搜索引擎。 相似文献
12.
相比于数字图书馆中的可控高质量文档信息,互联网上提供了大量非结构化信息,如何有效利用这些信息成为当前的研究热点。本文提出将基于本体的主题爬虫技术应用在数字图书馆中,作为数字图书馆和互联网间的桥梁和媒介,利用丰富的网络资源来扩展数字图书馆。 相似文献
13.
14.
[目的/意义]针对目前从开源网络信息中采集网络恐怖信息难、采集效率低的问题,提出一种回归分析法,以综合语义相关与网页重要性两个因素,从而提高网络恐怖信息的采集效率。[方法/过程]通过分析、比较主题爬虫的特性,结合网络恐怖信息的特点,找出PageRank算法和TF-IDF算法中适用于恐怖信息采集的优点,并结合回归分析法,将恐怖信息的采集策略进行相关度预测,用预测结果反馈调节信息的采集过程。[结果/结论]网络恐怖信息采集要兼顾采集的数量和质量,在传统主题爬虫算法的基础上进行改进,提出针对于开源网络恐怖信息采集的爬虫优化算法,可以提高信息采集效率。 相似文献
15.
16.
李春旺 《现代图书情报技术》2007,2(1):49-52
在分析主题搜索引擎体系结构之后,提出基于OSS的系统实现策略,重点讨论主题建模方法、主题相关度算法以及基于相同代码规范、基于Web Service接口规范、基于JNI接口规范的开源系统集成实现技术。 相似文献
17.
针对主题爬行技术中的单一分类算法在面对多主题Web抓取和分类需求时泛化能力不强的局限,设计一种利用多种强分类算法形成的分类器组合,主题爬行器根据当前主题任务在线评估并为分类器排名,从中选择最优分类器分类的策略,并开展在多个主题抓取任务下的分类实验,比较每种分类算法的准确率和组合后的平均分类准确率以及对分类效率等评价指标的综合分析,结果证明该策略对领域局域性有所克服,普适性较强。 相似文献
18.
黄艳玲 《中华医学图书馆杂志》2011,(1):60-62,66
基于医药科技获奖成果系统需求分析,介绍了广东省利用ASP.NET AJAX等技术构建的医药科技获奖成果信息平台的系统架构与系统设计过程,详细描述了系统用户管理模块、数据管理模块、信息发布模块、数据分析模块、数据决策模块的具体功能。 相似文献