首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于启发式规则的多记录页面分隔符识别方法
引用本文:胡大洋.基于启发式规则的多记录页面分隔符识别方法[J].人天科学研究,2009(9).
作者姓名:胡大洋
作者单位:盐城工学院计算机应用中心
摘    要:从半结构化或者非结构化的Web文档中提取信息时通常要求指定记录集的边界符,如果不根据记录边界符将包含多记录的页面分成单个记录块,那么记录的提取就不能成功。介绍了一种根据启发式的规则发现Web文档中的记录分隔符的方法,能够很好地解决多记录页面记录分割的问题。

关 键 词:信息提取  半结构化信息  非结构化信息  记录边界  记录分隔符
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号