首页 | 本学科首页   官方微博 | 高级检索  
     检索      

Web网页信息变化的时间局部性规律及其验证
引用本文:孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406.
作者姓名:孟涛  闫宏飞  王继民
作者单位:北京大学计算机科学技术系网络与分布式系统实验室,北京,100871
基金项目:国家自然科学基金重点项目基金(No.60435020),国家重点基础研究项目基金(No.G1999032706),教育部博士点基金项目基金(No.20030001076)资助。
摘    要:掌握Web网页信息变化的时间规律可以更有针对性的指导搜索引擎等Web应用系统更有效地进行搜集。本文旨在研究中国范围内Web网页变化的时间规律,针对网页变化的频率和间隔两项指标,随机选取数百万网页作为样本,设计试验在一个月内对上述两项指标进行考察。从结论中,我们发现网页变化的若干规律,并发现其中可能存在时间局部性规律。因此,我们引入了堆栈距离模型,在针对Web网页的变化特性和具体实验方法对其修正之后,再次设计实验对网页变化的时间局部性规律进行考察。结果表明,网页的变化存在明显的时间局部性。最后,介绍了这种时间局部性规律在网页搜集中的实际应用。

关 键 词:Web  网页  时间局部性  堆栈距离模型  变化次数  变化间隔
修稿时间:2004年10月15

Characterizing Temporal Locality in Changes of Web Documents
MENG Tao,Yan Hongfei,WANG Jimin.Characterizing Temporal Locality in Changes of Web Documents[J].Journal of the China Society for Scientific andTechnical Information,2005,24(4):398-406.
Authors:MENG Tao  Yan Hongfei  WANG Jimin
Abstract:In this paper we discover and characterize the temporal locality in changes of web documents. First, we sample the Chinese web and perform an experiment to record all the changes of each web page in the sample during a month. Our statistics shows the temporal correlation of these changes. Then we update the stack distance model to describe the changes of web pages and use a LRU stack to get the detailed parameters such as average stack distance, which proves the existence of the temporal locality. Finally we show how to use the temporal locality to enhance web applications such as spiders in search engines.
Keywords:web documents  temporal locality  stack distance model  change frequencies  change intervals  crawlers  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号