首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于Heritrix的Web信息抽取   总被引:1,自引:0,他引:1  
针对现阶段Web信息抽取技术的不足,提出一种基于Heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。  相似文献   

2.
针对目前Web信息的混乱的特点,本文提出了利用信息抽取技术来处理Web信息的方案。  相似文献   

3.
国外Web信息抽取研究综述   总被引:3,自引:0,他引:3  
Web信息抽取旨在为人们提供获取网络知识单元的有力工具,以应对信息爆炸带来的严峻挑战。在回顾Web信息抽取基本理论的基础之上,评述了Web信息抽取主要研究内容的现状,并着重对Web信息抽取的评价研究和应用研究进行了介绍,以期有助于本研究继续向前发展。  相似文献   

4.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。  相似文献   

5.
基于本体的Web信息抽取就是以所构建的本体为核心,利用本体中已定义的概念、分类层次、关系、函数、公理和实例及一些必需的外部资料对Web页面进行信息提取,得到结构化的知识并保存的过程,这一技术已经成为国内外研究的热点之一。文章介绍了信息抽取的历史,给出了基于本体的Web信息抽取一般体系结构模型及相关实现,系统地分析比较了各种基于本体的Web信息抽取方法,指出了目前这些方法实现的关键、得到的结果及其不足之处,展望了Web信息抽取发展的方向。  相似文献   

6.
详细介绍信息抽取开源软件Web-Harvest,并在其基础之上进行功能扩展和改进,设计一个通用性强的Web信息抽取系统,重点阐述开发系统的设计思想和系统流程,并简单介绍系统的数据库表设计。最后,介绍该Web信息抽取系统的应用。  相似文献   

7.
Web表格信息抽取研究综述   总被引:4,自引:0,他引:4  
介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术:Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展方向。  相似文献   

8.
基于主动学习的Web页面信息抽取   总被引:4,自引:0,他引:4  
张清军  朱才连 《情报学报》2004,23(6):667-671
本文提出一种基于主动学习的Web页面信息抽取方法 ,可以使用户在标记少量具有代表性的样本页面的情况下 ,有效地提高信息抽取规则的覆盖性 ,从而使包装器具有一定的自适应性。  相似文献   

9.
一种从WEB上抽取信息的方法   总被引:1,自引:0,他引:1  
韩立新  谢立 《情报学报》2004,23(1):45-51
由于WWW上的信息很多存储在HTML页面上 ,因此如何从HTML文档中抽取有用信息是一个迫切需要解决的问题。文中提出一种从HTML文档中抽取信息的方法。该方法综合运用关联规则法、模式匹配、语法规则、聚类法等技术来抽取信息 ,从而较好地解决了现有的抽取方法准确性较差、通用性较差、人工干预较多的问题。  相似文献   

10.
树编辑距离在Web信息抽取中的应用与实现*   总被引:1,自引:0,他引:1  
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。  相似文献   

11.
基于GATE语义标注的Web信息的自动抽取   总被引:1,自引:0,他引:1  
重点研究基于语义标注样本的Web信息自动抽取的实现方法。借助自然语言处理框架GATE,首先引入领域本体对样本网页内容进行语义标注,精确定位出待抽取的语义项,并据此将样本网页解析为S DOM树。从S DOM树中抽取出语义项的特征描述,形成样本实例并采用机器学习算法归纳抽取规则,自动生成包装器。抽取过程中,通过比较网页结构的相似度,系统能够感知网页的变化,主动学习并扩展规则库。试验结果表明,由于精确定位保障了学习样本的质量,小样本学习生成的包装器能够达到较为理想的查全率和查准率。  相似文献   

12.
董旻  方曙 《图书情报工作》2007,51(10):25-28
针对Deep Web信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用Deep Web信息资源的目的。  相似文献   

13.
信息抽取系统的研究现状   总被引:16,自引:0,他引:16  
对信息抽取的概念和发展状况做了论述,介绍了国内外信息抽取系统发展状况,指出了存在的问题以及相应的解决方案,最后对中文信息抽取系统的建设提出了几点建议。  相似文献   

14.
通过发表论文、会议组织、出入口、关键技术、发展趋势等方面对信息检索与信息抽取进行比较分析,发现信息抽取与信息检索有着质的不同。信息抽取不是信息检索的发展方向,但信息抽取技术可以很好地应用于信息检索系统。分析两者之间的差异有利于研究的深入,理清它们的关系有利于共同促进。  相似文献   

15.
本文研究了通过信息抽取提取用户兴趣和需求来实现信息推送服务的课题.根据信息抽取过程,将基于信息抽取的信息推送系统划分为用户管理、资源管理、信息推送三个模块.  相似文献   

16.
信息抽取在竞争情报中的应用研究   总被引:1,自引:1,他引:1  
简要介绍信息抽取的特点和抽取的信息类型,概述信息抽取技术在竞争情报中的应用;在此基础上,提出基于信息抽取技术的竞争情报系统的体系架构,主要包括信息抽取引擎、数据转换与集成、数据清洗、数据装载等,研究信息抽取引擎中封装器的实现方式,并从系统采用的机制和方式、系统功能侧重点、系统的自动化程度等方面分析国外基于信息抽取技术的竞争情报系统的特点。  相似文献   

17.
Web抽取技术在数字图书馆中的应用   总被引:2,自引:0,他引:2  
从Web页面中挖掘有价值的信息是数字图书馆技术应用的一个重要方式。目前Web页面信息描述大多教是用XML表示的,Web数据抽取技术是Web信息挖掘的关键,文章提出了一种面向HTML或XML描述的web页面的web数据抽取模型并阐述了实现过程。  相似文献   

18.
文章在Web of Science等影响力较大的国际数据库中检索内容与“科技文献”和“信息抽取”相关的文献,经设定条件筛选后获得63篇相关文献。回顾相关文献,从抽取的信息与抽取的方法两个角度进行分类与分析,总结该领域已有的研究成果和存在的不足。从科技文献中抽取的信息主要为结构化信息、显式信息和隐式信息,最新最先进的抽取方法主要集中在机器学习、自然语言处理和统计学中。语义信息的抽取有一定的进步空间及挑战性,灵活结合机器学习和自然语言处理方法是处理此领域问题的未来趋势。  相似文献   

19.
本文介绍了数字图书馆的含义和特征,分析了信息抽取的概念、类型和技术,同时介绍了目前信息抽取技术在数字图书馆中的一些具体应用.  相似文献   

20.
信息抽取的目标是自动从文本信息中抽取出预先想要得到的信息(知识),它提供了一条从浩瀚信息堆积中抽取出与用户相关信息的一条思路.本文分析了信息抽取的主要概念、信息抽取的现状及类型,提出了在数字图书馆的建设中,信息抽取技术在数字内容的自动标引、数据获取、数据挖掘、情报研究分析、参考咨询等方面发挥重要的作用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号