首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于RSS的博客采集系统的设计与实现*
引用本文:刘莉,肖诗斌,王涛,施水才.基于RSS的博客采集系统的设计与实现*[J].现代图书情报技术,2007,2(11):45-48.
作者姓名:刘莉  肖诗斌  王涛  施水才
作者单位:1. 息科技大学中文信息处理研究中心,北京,100101
2. 拓尔思信息技术有限公司,北京,100101
基金项目:国家高技术研究发展计划(863计划)
摘    要:提出一种基于RSS的博客采集系统实现方案。设计两个爬虫,一个负责广度优先遍历互联网,获取每个用户对应的RSS地址;另一个负责对每个RSS地址垂直搜索,跟踪检测是否有更新的博客文章,以增量方式将更新文章装入数据库。并为算法设计实现一个模型系统。

关 键 词:RSS  博客  信息采集
收稿时间:2007-09-14
修稿时间:2007-09-14

Design and Realization of Weblog Gathering System Based on RSS
Liu Li,Xiao Shibin,Wang Tao,Shi Shuicai.Design and Realization of Weblog Gathering System Based on RSS[J].New Technology of Library and Information Service,2007,2(11):45-48.
Authors:Liu Li  Xiao Shibin  Wang Tao  Shi Shuicai
Institution:1.Chinese Information Processing Research Center, Beijing Information Science and Technology University, Beijing 100101, China;2.Beijing TRS Information Technology Ltd, Beijing 100101, China
Abstract:This paper focuses on how to crawl Weblogs effectively in some sections of Web,and brings forward an arithmetic of the Weblog gathering based on RSS.The authors design two crawlers,one of which is responsible for gathering RSS by performing a breadth-first traversal of the Web,and the other tracks updated Weblogs automatically by performing a vertical search of every RSS.Also A model system is implemented.
Keywords:RSS
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《现代图书情报技术》浏览原始摘要信息
点击此处可从《现代图书情报技术》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号