基于启发式规则的多记录页面分隔符识别方法 |
| |
引用本文: | 胡大洋.基于启发式规则的多记录页面分隔符识别方法[J].人天科学研究,2009(9). |
| |
作者姓名: | 胡大洋 |
| |
作者单位: | 盐城工学院计算机应用中心 |
| |
摘 要: | 从半结构化或者非结构化的Web文档中提取信息时通常要求指定记录集的边界符,如果不根据记录边界符将包含多记录的页面分成单个记录块,那么记录的提取就不能成功。介绍了一种根据启发式的规则发现Web文档中的记录分隔符的方法,能够很好地解决多记录页面记录分割的问题。
|
关 键 词: | 信息提取 半结构化信息 非结构化信息 记录边界 记录分隔符 |
本文献已被 维普 等数据库收录! |
|