基于关键词过滤与结构化输出的网络爬虫系统设 |
| |
引用本文: | 金鲁峰,邰剑秋,张旭.基于关键词过滤与结构化输出的网络爬虫系统设[J].中国传媒科技,2012(7):54-56. |
| |
作者姓名: | 金鲁峰 邰剑秋 张旭 |
| |
作者单位: | 新华社技术局 |
| |
摘 要: | 通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息内容,并对信息主体进行了结构化存储。
|
关 键 词: | 网络爬虫 结构化 关键词 过滤规则 输出 实验结果 抽取 配置策略 信息采集 文本内容 |
本文献已被 CNKI 等数据库收录! |
|