共查询到19条相似文献,搜索用时 93 毫秒
1.
Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求.Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见.本文首先给出了结合Web内容和使用挖掘技术的用户浏览模式分类的原型系统框架.系统中主要的过程是:对数据集中原始的Web服务器日志进行清理,使用Web使用挖掘技术从用户浏览会话中挖掘出有代表性的用户浏览模式,根据模式中每一个相关的页面内容抽取出一个N-gram集合,构建基于N-gram的用户浏览模式简档.最后本文对用户浏览会话作了分类实验分析,实验结果表明这个方法在N-gram=6,df=10%的情况下取得了较高的分类精确度. 相似文献
2.
本文结合个性化服务的思想,提出了一种新的基于Web挖掘的个性化远程教学模型。它能充分利用用户Web访问记录以及用户与站点的交互数据进行挖掘,以此来发现学习者的学习兴趣,从而改进页面设计,优化站点结构,更好地满足学习者的个性化需求,提升个性化远程教育的质量。 相似文献
3.
在云图书馆环境下,网站可以通过关注用户访问路径、访问时间,利用Web挖掘的方法和技术对用户访问效益进行挖掘,以此来改进站点结构和内容,构建路径优化的模型,进一步实现个性化设计与服务,以提高用户访问效益和信息获取的整体效率.论文着重阐述站点优化模型和实现方法. 相似文献
4.
5.
6.
由于网站的结构设计,对特定用户而言信息获取的代价与所经过的浏览路径长度成正比,这些位于路径中间的不必要的文档就无疑增加了用户获取信息的代价。本文利用Web挖掘的方法和技术对用户所访问的页面序列进行挖掘,构建路径优化的模型,实现对当前站点排序方式的优化,从而最大限度地优化用户访问体验,提高当前站点信息获取的整体效率。 相似文献
7.
8.
Web挖掘技术在电子商务中的应用研究 总被引:16,自引:0,他引:16
本文基于国内外最新研究成果对电子商务中应用的Web挖掘技术进行了研究。对于个性化电子商务网站中难以发现用户行为特征问题 ,给出了基于Web日志的客户群体聚类算法及Web页面聚类算法。利用这些Web挖掘技术可有效挖掘用户个性特征 ,从而指导电子商务网站资源的组织和分配。 相似文献
9.
10.
11.
12.
基于ID3分类算法的深度网络爬虫设计 总被引:1,自引:0,他引:1
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。 相似文献
13.
Web日志挖掘数据预处理方法研究
总被引:1,自引:0,他引:1
柳胜国 《现代图书情报技术》2004,20(12):55-57
Web日志挖掘技术是Web数据挖掘中最重要的应用。通过对挖掘服务器日志文件的分析和研究,可以对网站的组织结构及其性能进行改进,增加个性化服务,发现潜在的读者群体。数据预处理关系到Web日志挖掘的质量。数据预处理包括数据清理、识别用户、识别用户会话、格式化,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了算法实现。 相似文献
14.
《Research Strategies》2001,18(1):85-93
Course-related library Web pages can be designed to introduce students to an academic library Web site and provide access to information relevant to specific courses. These pages are most often developed to support a library instruction session. The author's course-related pages are designed on a template that includes the main features of the library Web site (e.g., links to the online catalog, reference information, and interlibrary loan request forms), a list of pertinent online indexes and databases, links to electronic journals, and recommended Web sites. Technical and organizational issues related to creating and maintaining such pages are discussed, as are outreach efforts and faculty/student response to incorporating this type of Web page into library instruction. A sample evaluation form and a list of selected course-related library Web sites are included as appendices. 相似文献
15.
文章主要分析了Web InfoMall和WICP的体系结构,并基于Web InfoMall提供的中文网页测试数据集,分析了中文网页、网站以及域名的规模,保存格式等。结果表明,中文网页、网站以及域名的分布与全球互联网都遵循近似相同的规律,同时也有其自身的特点。另外,中文网络资源归档在内容收集、长期保存的格式及实现等方面已经取得了实质性进展。 相似文献
16.
应用正则式抽取Google网页内容 总被引:3,自引:0,他引:3
正确、完整地抽取搜索网页的内容,是对检索到的信息进行处理的基本前提。本文分析了Google网页的结构特征,给出了一组匹配Google网页内容的正则式,并用Visual C# 实现了一个内容抽取器。对多个Google网页的实际应用表明,本文提出的正则式匹配方法可以抽取Google网页的全部主要内容。 相似文献
17.
Web网页识别算法研究 总被引:7,自引:1,他引:6
WWW上的文本信息挖掘工作是网络信息处理领域的新课题。本文研究了两种机器学习算法———Rocchio算法和Widrow Hoff算法在Web网页识别领域中的应用 ,并对几种网页识别算法进行了比较分析 相似文献
18.
树编辑距离在Web信息抽取中的应用与实现* 总被引:1,自引:0,他引:1
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。 相似文献
19.
依据Web 页面和W eb 站点可以被搜集和分类, 文章探讨的主题是:WWW 构成图书馆。结论是:Web 不是数字化图书馆, 但是图书馆可以从Web 中选择搜集材料。Web 文献有两种变化形式。第一种变化形式是本文所谈论的“持续性”; 第二种变化形式是W eb 页面或Web 站点信息的变化。本文力求更进一步认识Web 页面和Web 站点的生存期, 生存期的变化会影响具有Web 信息的图书馆的完整性和有效性, 然而如果能够认识这些变化就可以进行控制和管理。 相似文献