首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于JerichoHTMLParser的html信息抽取
引用本文:王鸿伟.基于JerichoHTMLParser的html信息抽取[J].赤峰学院学报(自然科学版),2010,26(10).
作者姓名:王鸿伟
摘    要:对web页面上的信息抽取,一般采基于DOM或SAX的解析方式对信息进行解析.面对非结构化的html,无论使用DOM或SAX,都有其不足之处.本文对比DOM、SAX的解析方式,介绍一种开源的JerichoHTMLParser解析方式,其在时html页面信息进行直接解析时.可以获得一个比较好的解析效果.最后,用实验证明基于JerichoHTMLParser解析方式,对html页面信息解析的可靠性和有效性.

关 键 词:DOM  SAX  JerichoHTMLParser  信息抽取
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号