首页 | 本学科首页   官方微博 | 高级检索  
     检索      

Web信息主题采集技术研究
引用本文:李春旺.Web信息主题采集技术研究[J].图书情报工作,2005,49(4):77-80,70.
作者姓名:李春旺
作者单位:中国科学院文献情报中心, 北京 100080
摘    要:简单介绍主题信息采集系统;从5个方面对其核心技术进行深入研究,包括种子页面生成、主题表示、相关度计算策略、爬行策略以及结束搜索策略等;详细讨论种子页面生成的人工方式、自动方式及混合方式,基于关键词的主题表示与基于Ontology的主题表示,多种相关度计算启发式策略比较,基本爬行策略与隧道技术以及结束爬行的多种情形等;在分析相关技术的算法、特点与应用情况的同时,针对主题信息采集特点提出相应的改进意见。

关 键 词:Web搜索引擎  主题采集  技术  
收稿时间:2004-07-12
修稿时间:2004-08-30

Technologies of Focused Web Crawling
Li Chunwang.Technologies of Focused Web Crawling[J].Library and Information Service,2005,49(4):77-80,70.
Authors:Li Chunwang
Institution:Library of Chinese Academy of Sciences, Beijing 100080
Abstract:
Keywords:Web search engine focused crawling technology
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《图书情报工作》浏览原始摘要信息
点击此处可从《图书情报工作》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号