首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 261 毫秒
1.
主题网络爬虫是针对某一特定领域进行信息采集的网络爬虫,本文提出将主题网络爬虫应用于数字档案馆的信息采集,以档案采集系统的设计目标为出发点,阐述了基于主题网络爬虫的档案信息采集系统的设计方案和该系统实现的相关技术。  相似文献   

2.
将叙词表同传统的信息检索技术相结合,提出用叙词表的族对爬虫的主题进行描述的方法并用该方法设计实现一主题爬虫。实验结果证明本文提出模型和算法的有效性。  相似文献   

3.
从主题爬虫角度看数字资源建设   总被引:2,自引:0,他引:2  
宋宇 《中国索引》2010,8(1):47-51
数字资源建设是图书馆的一个重要研究领域,通过主题爬虫自动收集网络数字资源是数字资源建设的一种重要途径;主题爬虫是主题搜索引擎的重要组成部分,主题搜索算法是主题爬虫的核心;按照评价链接价值方式的不同,对现有的主题搜索算法进行分类,系统分析、比较了每类算法的特点和优缺点。  相似文献   

4.
通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息内容,并对信息主体进行了结构化存储。  相似文献   

5.
通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息内容,并对信息主体进行了结构化存储。  相似文献   

6.
提出一种以动态知识库为指导的主题爬虫的设计方法,目的是克服传统的基于本体的主题爬虫的领域局限性和缺乏指导用户功能的不足;通过知识库的不断完善更好地指导爬虫找到相关网页.其中涉及的主要问题:构建动态知识库、计算网页相关度和判断相关链接.  相似文献   

7.
基于P2P的分布式主题爬虫系统的设计与实现   总被引:1,自引:0,他引:1  
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程.系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求.实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息.  相似文献   

8.
基于语义爬虫的商品信息主题采集研究*   总被引:2,自引:0,他引:2  
结合网页主题链接分析和网页主题内容语义分析,提出一个以主题爬虫实现采集商品信息的方法。在爬行过程中通过对本体的统计学习,使主题本体参照物不断得到优化。实验结果表明,该方法较其他传统爬行算法更有效,并能防止主题漂移的发生,带来较高的主题收获率。  相似文献   

9.
基于主题爬虫的本体非分类关系学习框架   总被引:1,自引:0,他引:1  
乔建忠 《图书情报工作》2010,54(18):120-129
提出一种借助主题爬虫自动从返回的相关网页进行本体非分类关系学习的框架与方法。针对利用互联网进行本体学习的特点,所用到的主要方法是词频、共现统计和分割聚类算法KMeans,并没有采用复杂的语法结构分析和半指导聚类算法如EM、BIRCH和SOM,因此自动化程度和效率较高。学习结果将用于指导主题爬虫进行网页相关性的判断。这种非分类关系的学习质量将由主题爬虫在实际应用中的表现来客观评价。  相似文献   

10.
通过Python网络爬虫获取IMDB网站美剧《权力的游戏》影评并进行数据清洗,利用自然语言处理(NLP)对数据进行文本规范化、TF-IDF特征提取。采用有监督机器学习技术对模型进行训练、测试、评估,并用经过训练的模型分析规范化处理的影评文本,得到该剧影评的正负情感,并对其进行可视化处理与分析。运用隐含语义索引技术对标记过情感极性的影评文本进行主题建模,分别提取评论主题。展开爬虫分析影评对涉军舆情监控的启示。  相似文献   

11.
在讨论主题搜索引擎发展缘起、基本原理及体系结构之后,对开源搜索引擎WebSPHINX的功能特点进行分析,并在此基础上自行设计一个基于WebSPHINX的主题搜索引擎。  相似文献   

12.
相比于数字图书馆中的可控高质量文档信息,互联网上提供了大量非结构化信息,如何有效利用这些信息成为当前的研究热点。本文提出将基于本体的主题爬虫技术应用在数字图书馆中,作为数字图书馆和互联网间的桥梁和媒介,利用丰富的网络资源来扩展数字图书馆。  相似文献   

13.
谷俊  翁佳  许鑫 《图书情报工作》2014,58(20):91-99
面向互联网的主题采集是情报获取的重要手段,面对爆发式增长的互联网信息资源,设计并实现一套由采集准备、URL分析及提取、模板学习、正文抽取等几阶段组成的主题采集工具,其中URL分析与提取采用基于链接类型的URL筛选方法,实现正文网页URL的筛选;模板学习和正文抽取部分采用基于DOM树的节点比对方法,完成模板的构建与正文抽取。实验结果表明,本文所提出的主题采集工具采集准确率较高,能够适应目前情报信息采集的需求。  相似文献   

14.
[目的/意义]针对目前从开源网络信息中采集网络恐怖信息难、采集效率低的问题,提出一种回归分析法,以综合语义相关与网页重要性两个因素,从而提高网络恐怖信息的采集效率。[方法/过程]通过分析、比较主题爬虫的特性,结合网络恐怖信息的特点,找出PageRank算法和TF-IDF算法中适用于恐怖信息采集的优点,并结合回归分析法,将恐怖信息的采集策略进行相关度预测,用预测结果反馈调节信息的采集过程。[结果/结论]网络恐怖信息采集要兼顾采集的数量和质量,在传统主题爬虫算法的基础上进行改进,提出针对于开源网络恐怖信息采集的爬虫优化算法,可以提高信息采集效率。  相似文献   

15.
文阳  陈文宇  袁野  朱建 《图书情报工作》2014,58(20):125-130
认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。  相似文献   

16.
在分析主题搜索引擎体系结构之后,提出基于OSS的系统实现策略,重点讨论主题建模方法、主题相关度算法以及基于相同代码规范、基于Web Service接口规范、基于JNI接口规范的开源系统集成实现技术。  相似文献   

17.
乔建忠 《图书情报工作》2013,57(14):114-120
针对主题爬行技术中的单一分类算法在面对多主题Web抓取和分类需求时泛化能力不强的局限,设计一种利用多种强分类算法形成的分类器组合,主题爬行器根据当前主题任务在线评估并为分类器排名,从中选择最优分类器分类的策略,并开展在多个主题抓取任务下的分类实验,比较每种分类算法的准确率和组合后的平均分类准确率以及对分类效率等评价指标的综合分析,结果证明该策略对领域局域性有所克服,普适性较强。  相似文献   

18.
基于医药科技获奖成果系统需求分析,介绍了广东省利用ASP.NET AJAX等技术构建的医药科技获奖成果信息平台的系统架构与系统设计过程,详细描述了系统用户管理模块、数据管理模块、信息发布模块、数据分析模块、数据决策模块的具体功能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号