基于特征码的网页去重算法研究 |
| |
引用本文: | 王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1). |
| |
作者姓名: | 王哲 |
| |
作者单位: | 济南广播电视大学,山东,济南,250100
|
| |
摘 要: | 本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标,分析了搜索引擎工作原理,讨论了现有的去重算法。给出了一种基于特征码的网页去重算法,并采用二叉排序树实现了算法。实验证明算法有着较高的去重准确率、召回率,达到了对算法的预期。
|
关 键 词: | 数据挖掘 搜索引擎 网页去重 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|