基于JerichoHTMLParser的html信息抽取 |
| |
引用本文: | 王鸿伟.基于JerichoHTMLParser的html信息抽取[J].赤峰学院学报(自然科学版),2010,26(10). |
| |
作者姓名: | 王鸿伟 |
| |
摘 要: | 对web页面上的信息抽取,一般采基于DOM或SAX的解析方式对信息进行解析.面对非结构化的html,无论使用DOM或SAX,都有其不足之处.本文对比DOM、SAX的解析方式,介绍一种开源的JerichoHTMLParser解析方式,其在时html页面信息进行直接解析时.可以获得一个比较好的解析效果.最后,用实验证明基于JerichoHTMLParser解析方式,对html页面信息解析的可靠性和有效性.
|
关 键 词: | DOM SAX JerichoHTMLParser 信息抽取 |
本文献已被 万方数据 等数据库收录! |
|