首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于关键词过滤与结构化输出的网络爬虫系统设
引用本文:金鲁峰,邰剑秋,张旭.基于关键词过滤与结构化输出的网络爬虫系统设[J].中国传媒科技,2012(4):54-56.
作者姓名:金鲁峰  邰剑秋  张旭
作者单位:新华社技术局
摘    要:通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息内容,并对信息主体进行了结构化存储。

关 键 词:网络爬虫  系统构架  结构化  关键词  过滤  信息内容  信息主体
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号