首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求.Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见.本文首先给出了结合Web内容和使用挖掘技术的用户浏览模式分类的原型系统框架.系统中主要的过程是:对数据集中原始的Web服务器日志进行清理,使用Web使用挖掘技术从用户浏览会话中挖掘出有代表性的用户浏览模式,根据模式中每一个相关的页面内容抽取出一个N-gram集合,构建基于N-gram的用户浏览模式简档.最后本文对用户浏览会话作了分类实验分析,实验结果表明这个方法在N-gram=6,df=10%的情况下取得了较高的分类精确度.  相似文献   

2.
本文结合个性化服务的思想,提出了一种新的基于Web挖掘的个性化远程教学模型。它能充分利用用户Web访问记录以及用户与站点的交互数据进行挖掘,以此来发现学习者的学习兴趣,从而改进页面设计,优化站点结构,更好地满足学习者的个性化需求,提升个性化远程教育的质量。  相似文献   

3.
在云图书馆环境下,网站可以通过关注用户访问路径、访问时间,利用Web挖掘的方法和技术对用户访问效益进行挖掘,以此来改进站点结构和内容,构建路径优化的模型,进一步实现个性化设计与服务,以提高用户访问效益和信息获取的整体效率.论文着重阐述站点优化模型和实现方法.  相似文献   

4.
线上购物相对线下购物的一个特点是可以将用户的购物过程记录到网站的Web日志中,为研究用户网上行为特征提供必要的数据支持.本文详细介绍了对Web日志数据进行预处理的一系列步骤和方法,并以某出版社网站18天的日志数据为实证,提取出用户的访问路径(访问页面的先后次序),分析路径信息得到用户在不同页面之间访问的转换概率,从而定量地衡量购物流程中各步骤之间的转换率和贡献率,提炼出用户最有可能的前向转换路径和后向转换路径,以期对网站流程优化和商品促销设置提供决策支持.  相似文献   

5.
基于Web日志和缓存数据挖掘的个性化推荐系统   总被引:8,自引:0,他引:8  
王勋  凌云  费玉莲 《情报学报》2005,24(3):324-328
针对当前推荐系统中存在的问题,提出一个基于Web日志和缓存数据挖掘的个性化推荐系统.系统依据Web日志挖掘用户兴趣页面时综合考虑了访问次数、浏览时间和页面长度.通过对Web日志和缓存数据挖掘得到的兴趣页面的有效分类,构造不同用户的兴趣模型.系统能依据用户兴趣模型实现内容过滤推荐,同时也能通过比较不同用户的兴趣模型实现协作过滤推荐.经模拟实验测试表明,本文提出的推荐方法是可行并且有效的.  相似文献   

6.
杨思 《图书馆界》2009,(1):64-67
由于网站的结构设计,对特定用户而言信息获取的代价与所经过的浏览路径长度成正比,这些位于路径中间的不必要的文档就无疑增加了用户获取信息的代价。本文利用Web挖掘的方法和技术对用户所访问的页面序列进行挖掘,构建路径优化的模型,实现对当前站点排序方式的优化,从而最大限度地优化用户访问体验,提高当前站点信息获取的整体效率。  相似文献   

7.
基于WEB日志挖掘的网站个性化服务研究   总被引:1,自引:0,他引:1  
论述了基于Web日志挖掘的网站个性化服务,提出了利用Web日志挖掘的个性化服务中频繁访问路径的挖掘及用户聚类和页面聚类。利用这些算法推动Web站点从“站点为中心”向“用户为中心”的发展,即站点不但要针对用户共同感兴趣的信息服务,更要有针对每个用户的个性化服务。  相似文献   

8.
Web挖掘技术在电子商务中的应用研究   总被引:16,自引:0,他引:16  
刘培刚 《情报学报》2002,21(6):680-685
本文基于国内外最新研究成果对电子商务中应用的Web挖掘技术进行了研究。对于个性化电子商务网站中难以发现用户行为特征问题 ,给出了基于Web日志的客户群体聚类算法及Web页面聚类算法。利用这些Web挖掘技术可有效挖掘用户个性特征 ,从而指导电子商务网站资源的组织和分配。  相似文献   

9.
数据预处理是Web日志挖掘的基础,而路径补充是数据预处理中一个关键环节。本文运用Petri网来描述Web站点结构,利用Petri网的可达性与关联矩阵等性质完成路径补充。提出了一种基于Petri网模型的路径补充算法,该方法不但可以高效地获得用户的访问路径,而且能够动态的反映用户的浏览行为。  相似文献   

10.
阮光册 《图书情报工作》2011,55(11):121-124
网络用户行为研究大多采用Web用户日志挖掘,首先介绍Web关联规则应用的传统方法,并指出传统方法中忽略了用户兴趣这一因素研究,更多的是以网页高频出现为挖掘结果进行聚类。针对这一问题,提出一种基于Web关联规则挖掘、页面内容和会话相似度相结合的研究方法,聚类出用户频繁访问的页面组,以发现网络用户行为的规律。在案例应用中,以上海某高校学生网络行为研究为例,得出相关结论。  相似文献   

11.
基于Web结构挖掘的网络动态竞争情报采集研究   总被引:2,自引:0,他引:2       下载免费PDF全文
通过挖掘蕴含在Web内部结构和网页中的关联信息与结构模式,Web结构挖掘为企业实现多维度和多层面的竞争情报采集提供了一种有效途径。基于Web结构挖掘的网络动态竞争情报采集方法有:URL挖掘、Web内部结构挖掘和超链接挖掘。图1。参考文献15。  相似文献   

12.
基于ID3分类算法的深度网络爬虫设计   总被引:1,自引:0,他引:1  
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。  相似文献   

13.
Web日志挖掘数据预处理方法研究     总被引:1,自引:0,他引:1  
Web日志挖掘技术是Web数据挖掘中最重要的应用。通过对挖掘服务器日志文件的分析和研究,可以对网站的组织结构及其性能进行改进,增加个性化服务,发现潜在的读者群体。数据预处理关系到Web日志挖掘的质量。数据预处理包括数据清理、识别用户、识别用户会话、格式化,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了算法实现。  相似文献   

14.
《Research Strategies》2001,18(1):85-93
Course-related library Web pages can be designed to introduce students to an academic library Web site and provide access to information relevant to specific courses. These pages are most often developed to support a library instruction session. The author's course-related pages are designed on a template that includes the main features of the library Web site (e.g., links to the online catalog, reference information, and interlibrary loan request forms), a list of pertinent online indexes and databases, links to electronic journals, and recommended Web sites. Technical and organizational issues related to creating and maintaining such pages are discussed, as are outreach efforts and faculty/student response to incorporating this type of Web page into library instruction. A sample evaluation form and a list of selected course-related library Web sites are included as appendices.  相似文献   

15.
文章主要分析了Web InfoMall和WICP的体系结构,并基于Web InfoMall提供的中文网页测试数据集,分析了中文网页、网站以及域名的规模,保存格式等。结果表明,中文网页、网站以及域名的分布与全球互联网都遵循近似相同的规律,同时也有其自身的特点。另外,中文网络资源归档在内容收集、长期保存的格式及实现等方面已经取得了实质性进展。  相似文献   

16.
应用正则式抽取Google网页内容   总被引:3,自引:0,他引:3  
正确、完整地抽取搜索网页的内容,是对检索到的信息进行处理的基本前提。本文分析了Google网页的结构特征,给出了一组匹配Google网页内容的正则式,并用Visual C# 实现了一个内容抽取器。对多个Google网页的实际应用表明,本文提出的正则式匹配方法可以抽取Google网页的全部主要内容。  相似文献   

17.
Web网页识别算法研究   总被引:7,自引:1,他引:6  
WWW上的文本信息挖掘工作是网络信息处理领域的新课题。本文研究了两种机器学习算法———Rocchio算法和Widrow Hoff算法在Web网页识别领域中的应用 ,并对几种网页识别算法进行了比较分析  相似文献   

18.
树编辑距离在Web信息抽取中的应用与实现*   总被引:1,自引:0,他引:1  
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。  相似文献   

19.
依据Web 页面和W eb 站点可以被搜集和分类, 文章探讨的主题是:WWW 构成图书馆。结论是:Web 不是数字化图书馆, 但是图书馆可以从Web 中选择搜集材料。Web 文献有两种变化形式。第一种变化形式是本文所谈论的“持续性”; 第二种变化形式是W eb 页面或Web 站点信息的变化。本文力求更进一步认识Web 页面和Web 站点的生存期, 生存期的变化会影响具有Web 信息的图书馆的完整性和有效性, 然而如果能够认识这些变化就可以进行控制和管理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号