首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 953 毫秒
1.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。  相似文献   

2.
网络检索系统研究进展综述   总被引:3,自引:0,他引:3  
Web上大量的异构、分布、动态的信息造成了“信息过载”。如何在传统信息检索技术的基础上开展针对Web的信息检索工作已经成为一项重要的研究课题。笔者对近年来网络检索技术进行综述,从网络检索系统分类、网络信息获取、网络信息检索相关技术、网络检索方法等方面较全面地介绍了这一领域的发展概况,并对未来网络检索系统的发展趋势提出展望。  相似文献   

3.
基于本体和DOM相结合的Web信息抽取器   总被引:1,自引:0,他引:1  
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。  相似文献   

4.
阮光册 《图书情报工作》2011,55(11):121-124
网络用户行为研究大多采用Web用户日志挖掘,首先介绍Web关联规则应用的传统方法,并指出传统方法中忽略了用户兴趣这一因素研究,更多的是以网页高频出现为挖掘结果进行聚类。针对这一问题,提出一种基于Web关联规则挖掘、页面内容和会话相似度相结合的研究方法,聚类出用户频繁访问的页面组,以发现网络用户行为的规律。在案例应用中,以上海某高校学生网络行为研究为例,得出相关结论。  相似文献   

5.
随着Web2.0技术的发展,作为Web2.0典型应用的网络文库的规模急剧扩大。传统由专业人员进行文档分类的模式已无法适应网络文库信息组织的需要,用户自助分类成为网络文库主要的分类模式。但是分类体系的缺陷和用户自身的状况造成目前的用户自助分类差错率较高。因此,要采用完善分类体系、改进管理系统功能、招募纠错人员和制定奖惩措施等方法对用户自助分类模式进行优化。  相似文献   

6.
Web使用挖掘下的Web页面层次分类技术研究   总被引:1,自引:0,他引:1  
Web使用挖掘研究用户访问行为所体现的行为特征,Web站点结构分析对于Web使用挖掘具有重要意义.本文讨论如何结合Web站点内页面间的超链结构和关键页面分析技术实现对Web站点的链接结构分析,得到清晰的站点拓扑结构和页面层次分类,进而以此为Web页面进行层次编码,和Web用户行为向量的建立方法,为准确表述用户的访问行为提供数据支持;用一种新的方式进一步有效的挖掘用户的行为特征.最后,把它同一些重要的页面分类方法,从算法的计算效率和页面分类的准确率上进行了比较,试验数据的分析表明,该方法在效率和准确率上有一定提高.  相似文献   

7.
依据Web 页面和W eb 站点可以被搜集和分类, 文章探讨的主题是:WWW 构成图书馆。结论是:Web 不是数字化图书馆, 但是图书馆可以从Web 中选择搜集材料。Web 文献有两种变化形式。第一种变化形式是本文所谈论的“持续性”; 第二种变化形式是W eb 页面或Web 站点信息的变化。本文力求更进一步认识Web 页面和Web 站点的生存期, 生存期的变化会影响具有Web 信息的图书馆的完整性和有效性, 然而如果能够认识这些变化就可以进行控制和管理。  相似文献   

8.
基于网易的网络信息分类体系研究   总被引:1,自引:0,他引:1  
文章针对目前网络信息混乱,不利于用户查找的现状,从网络信息类目设置原则、类目级别、类目数量、类目关系等方面对网易的分类体系进行了初步研究;同时结合传统信息分类方法,在剖析网易分类体系自身特点的基础上,初步探讨了目前网络信息分类存在的一些问题,及在构建网络信息时所应考虑的因素和改进建议,以期为改善国内网络信息分类体系提供参考。  相似文献   

9.
本文针对网络信息资源集成应用的需要,通过探讨Web Services技术体系,构建了基于Web Services的网络信息资源集成框架,并结合国内外有关研究和应用进展,进行了案例的分析和研究。  相似文献   

10.
面向Deep Web的动态竞争情报智能采集策略   总被引:1,自引:0,他引:1  
企业间竞争互动的高强度与高速度,突显出竞争情报的时效性,动态竞争情报是企业在复杂多变的环境下取得成功的关键.Web资源可分为surface Web和Deep Web.Surface Web由静态网页构成,Deep Web信息资源由动态页面、商业数据库、实时数据和企业内部数据库组成,具有质量高、实时性强、易于深度分析的特点,是企业动态竞争情报的重要来源,但常规网络信息采集工具不能直接获得这些信息.针对动态竞争情报采集中存在的信息源选择、信息抽取、信息分析中存在的障碍,提出面向Deep Web的动态竞争情报智能采集策略,详细探讨了动态数据源的智能选择、查询结果的智能抽取、智能化的数据集成和智能分析策略.  相似文献   

11.
Web数据应用的利器--Web数据挖掘   总被引:1,自引:0,他引:1  
张娥  冯耕中  战子玉 《情报学报》2002,21(6):686-690
Web已经成为世界上最大的信息仓库之一 ,但是随着信息量的增长 ,人们有效使用Web信息也越来越困难。Web数据挖掘为人们使用Web中的显性和隐性信息提供了一把利器。本文介绍了Web挖掘提出的背景、领域内研究分支学科状况、研究内容、研究难点和国内外的研究现状。  相似文献   

12.
将语义网技术同传统的信息检索技术相结合,给出基于本体的Web信息采集框架结构,提出利用主题本体及对应词典判断主题相关度的方法,并得出实验结果和评价。  相似文献   

13.
董旻  方曙 《图书情报工作》2007,51(10):25-28
针对Deep Web信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用Deep Web信息资源的目的。  相似文献   

14.
"隐形Web"资源的利用   总被引:3,自引:0,他引:3  
由于Invisible Web中具有高质量的信息内容,它们覆盖多个主题领域,并且这些数据通常又是采用数据库来管理的,用户检索其中的信息时可以得到较高的“检全率”和“检准率”,因此,学术图书馆应该将Invisible Web作为重要的信息源。本文主要讨论学术图书馆利用Invisible Web的方法,诸如利用网上备种现成的“隐形Web”网关、根据本馆的馆藏发展政策建立恰当的Subject Gateway、开发新的信息抽取技术等。  相似文献   

15.
Although the library's Web site has become a standard tool for seeking information and conducting research in academic institutions, there are a variety of ways libraries approach the often challenging—and sometimes daunting—process of Web site development and maintenance. Three librarians at Western Michigan University explored issues related to this topic by conducting a Web-based survey, which was sent to two librarians—Web services and reference/public services—at 149 academic institutions. Survey findings are discussed, including references to Web departments and committees, priority setting, Web authoring, soliciting input, outsourcing, content management systems, redesigns, and user involvement. The participants’ insights regarding the greatest challenges and what seems to be working or not working well are also outlined, in addition to the authors’ suggestions for future research in this area.  相似文献   

16.
Web 信息检索(Information Retrieval)技术研究是应用文本检索研究的成果,它结合Web图论的思想,研究Web上的信息检索,是行之有效的Web知识发现的途径。传统HITS方法所获得的信息精确度相当低,而PageRank作为一通用的搜索方法,不能够应用于特定主题的信息获取。在充分分析了PageRank、HITS等现有算法和Web文档的相似度计算方法的基础上,提出了Web上查询特定主题相关信息发现的RG-HITS算法。它结合了Web超链接、网页知识表示的信息相关度以及HITS方法来搜索Web上特定主题的相关知识。  相似文献   

17.
网络信息生态中Web虚假信息的传播特征分析   总被引:1,自引:0,他引:1  
面对网络媒体混乱不堪的信息生态状况,互联网信息管理受到各国政府及相关网络组织密切注意,网络信息生态治理已成为目前迫切需要解决的重要课题。文章着重对Web网络虚假信息的传播特征进行分析,目的是为网络生态治理策略的选择提供支持。  相似文献   

18.
Web2.0是相对Web1.0的新一类互联网应用的统称,它强调用户的广泛参与;语义Web作为当前Web技术的扩展,通常被看作新一代的信息基础设施,被人们称为第三代智能网络。目前,关于二者的研究和争论如火如荼,笔者认为二者在Web的演进过程中是相辅相成、互相支持的。本文分析了二者各自的局限,阐述了二者结合的基本原理,最后以实例绘制了二者结合的具体实现方法。  相似文献   

19.
Libraries, along with other information service institutions, have entered a digital era in which resources are presented electronically through various digital platforms. The library Web site functions as the main source of information to patrons as well as a community outreach tool. Many library services now either succeed or fail based on how well users interact with the institution's Web site. In order to evaluate the effectiveness of library services, it thus becomes important for libraries to measure the performance of library Web sites. Web analytics is the ideal tool to answer questions regarding the evaluation of Web site performance. However, Web analytics can be hard to understand for those who do not have the time to familiarize themselves with all the terms and data. Writing a thorough Web analytics report can help make Web analytics easier to digest for administrators or Web site stakeholders.

This tutorial provides step-by-step instructions on how to craft a Web analytics report. It provides suggestions on visualizing statistics, interpreting data, and customizing the report based on a real experience. The tutorial is facilitated with customized figures, charts, and tables from a real Web analytics report on the Texas Tech University Libraries Web site and concludes with recommendations on presenting the report to the administration and stakeholders.  相似文献   

20.
主要介绍了我们设计的Web主题信息采集系统的一项核心工作——Web信息主题的识别,主题识别算法从构造专业性较强的主题词典着手,充分分析和考虑Web网页文本的特点,从而大大提高了主题信息采集的效率和精度,该算法同样适用于其他领域的主题信息识别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号