一个基于特征向量的近似网页去重算法 |
| |
引用本文: | 曹玉娟,牛振东,彭学平,江鹏.一个基于特征向量的近似网页去重算法[J].中国索引,2009,7(1). |
| |
作者姓名: | 曹玉娟 牛振东 彭学平 江鹏 |
| |
作者单位: | [1]北京理工大学计算机科学技术学院,100081 [2]北京航天飞行控制中心,100094 |
| |
摘 要: | 在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near—Duplicate Web Pages)。试验证明,比起其他网页去重算法(I—Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。
|
关 键 词: | 网页去重算法 特征向量 近似网页 支持向量机 |
本文献已被 维普 等数据库收录! |
|