首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于特征码的网页去重算法研究
引用本文:王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1).
作者姓名:王哲
作者单位:济南广播电视大学,山东,济南,250100  
摘    要:本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标,分析了搜索引擎工作原理,讨论了现有的去重算法。给出了一种基于特征码的网页去重算法,并采用二叉排序树实现了算法。实验证明算法有着较高的去重准确率、召回率,达到了对算法的预期。

关 键 词:数据挖掘  搜索引擎  网页去重
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号