首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一个基于特征向量的近似网页去重算法
引用本文:曹玉娟,牛振东,彭学平,江鹏.一个基于特征向量的近似网页去重算法[J].中国索引,2009,7(1).
作者姓名:曹玉娟  牛振东  彭学平  江鹏
作者单位:[1]北京理工大学计算机科学技术学院,100081 [2]北京航天飞行控制中心,100094
摘    要:在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near—Duplicate Web Pages)。试验证明,比起其他网页去重算法(I—Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。

关 键 词:网页去重算法  特征向量  近似网页  支持向量机
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号