首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Bloom Filter的超大规模网页去重策略研究
引用本文:丁振国吴宝贵辛友强.基于Bloom Filter的超大规模网页去重策略研究[J].现代图书情报技术,2008,24(3):45-50.
作者姓名:丁振国吴宝贵辛友强
作者单位:西安电子科技大学网络教育学院 西安710071(丁振国),西安电子科技大学经济管理学院 西安710071(吴宝贵,辛友强)
摘    要:针对大规模信息采集,运用Bloom Filter及其改进算法,在误差允许的条件下,通过URL散列运算可以有效地对同源网页进行去重。实践证明,通过对其参数进行合理的调整,可以达到满意的结果。

关 键 词:布隆过滤器  散列函数  URL  网页去重
收稿时间:2007-12-06
修稿时间:2007-12-18

Research of large-scale URL Filter Base on Bloom Filter
Ding ZhenguoWu BaoguiXin Youqiang.Research of large-scale URL Filter Base on Bloom Filter[J].New Technology of Library and Information Service,2008,24(3):45-50.
Authors:Ding ZhenguoWu BaoguiXin Youqiang
Institution:(College of Networking Education, Xidian University,  Xi’an  710071,China) (Collegel of Economics and Management, Xidian University,  Xi’an  710071,China)
Abstract:On the condition of error allowing,the Bloom Filter and its improvable algorithm,can be used to filter the homology URL pages through URL Hashing.Experiment shows that it can achieve satisfactory results through reasonable adjustments of its parameter.
Keywords:Bloom filter Hash function URL URL filter
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《现代图书情报技术》浏览原始摘要信息
点击此处可从《现代图书情报技术》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号