基于Heritrix的面向电子商务网站增量爬虫研究 |
| |
引用本文: | 杨颂,欧阳柳波.基于Heritrix的面向电子商务网站增量爬虫研究[J].教育技术导刊,2010,9(7):38-39. |
| |
作者姓名: | 杨颂 欧阳柳波 |
| |
作者单位: | 湖南大学软件学院; |
| |
摘 要: | 针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。
|
关 键 词: | Heritrix 增量抓取 爬行策略 电子商务 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|