首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
基于本体和DOM相结合的Web信息抽取器   总被引:1,自引:0,他引:1  
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。  相似文献   

2.
以网易汽车资讯网页信息抽取为例,研究了基于领域本体的Web信息抽取技术的设计与实现.  相似文献   

3.
针对基于关键字的传统搜索方法的不足,提出一种基于本体的信息搜索模型。就Web文本特点,介绍一种领域本体的半自动构建方法,利用基于领域本体的主题概念抽取方法完成语义标注,并实现在国防产品信息搜索中的应用。  相似文献   

4.
基于学术文献构建领域本体对促进领域学科发展具有重要的意义。本文提出了一种以中文学术文献为数据源,半自动化抽取领域本体层次关系的框架方法。首先,构建了一个通用的领域本体层次关系的细粒度研究框架。其次,设计了一种新的概念表示方法,融合了深度学习方法得到的概念语义特征和上下文的时间序列词频。进一步结合了AP聚类、Prim算法和Web搜索引擎的查询数据,提出了基于规则推理的本体概念层次关系抽取算法(RROCHE),实现了半自动化概念层次关系抽取。最后,基于中文分词领域的中文学术文献数据,通过数值实验方法讨论了方法的可行性和有效性。本文提出的框架方法也非常容易推广并应用到各领域本体层次关系任务中。  相似文献   

5.
面向语义Web的智能数字图书馆的实现很大程度上依赖于本体的建立,本体与数字图书馆中的数字资源采集、数字馆藏和用户访问网关都密切相关。在本体构建方面,目前存在的绝大多数本体都是手工生成的,该方法效率低、出错率高,更难以维护和更新。这对语义级数字图书馆的实现造成了巨大的障碍。为此提出了一种面向数字图书馆的本体学习方法GOLF,通过对各专业领域中大量的Web文档集和语料库进行挖掘来实现本体学习,并分别讨论了本体学习中本体概念的抽取、概念之间语义关系的抽取和分类体系的自动构建等关键技术。  相似文献   

6.
Web环境下个性化信息的获取和个性化服务的实现   总被引:13,自引:1,他引:13       下载免费PDF全文
Web环境下服务和用户都极具目标指向性与高度个性化,因此对任何一个服务方而言,对用户个性化信息的抽取均是不可回避的关键环节,关系到服务方对用户个性化信息的预知和占有直至其个性化服务的最终实现。基于外部链接、资源整合、情景关注系统和本体系统等4种不同层次是实现Web个性化服务的方式。个性化Web服务系统的实现不仅是WIS发展的要求,而且也是当前有效减轻用户负担、促进WIS应用拓展的理想途径。  相似文献   

7.
文章提出了一种基于本体的用户建模方法。首先,基于用户兴趣概念集合,分别从同主题源本体的RDFS闭包中抽取子本体,然后采用多策略映射方法将其合并形成初始用户本体;其次,基于各类用户Web使用数据,挖掘高频关键词,追踪用户兴趣变化,构建增量本体;然后,利用衰减函数和相关阈值,将增量本体与初始用户本体合并,在增加新概念及其关系的同时,剔除不再感兴趣的概念,以实现用户本体的自动优化。  相似文献   

8.
基于本体的军备情报抽取系统主要由两部分构成:知识库和处理程序。该系统基于文本分类技术实现武器类别判定,基于命名实体识别技术实现武器对象判定。依据句法语义约束所形成的信息抽取规则,实现军备情报抽取,并依据本体在一定程度上实现语义层面上的信息整合。  相似文献   

9.
随着信息抽取技术的日益发展,信息抽取的准确性、效率、覆盖率以及维护成本等综合性能的提高成为有待突破的核心问题.提升信息抽取系统在运行过程中的自我优化能力是解决这个问题的关键.本文针对目前信息抽取系统优化中存在的人工参与过多、训练集要求过高等问题,提出一种基于本体学习与动态内容识别相结合的自优化方式,即通过动态内容识别结构化抽取结果,借助发掘的新概念促进本体学习,之后用新本体生成新抽取模式,循环迭代,最终实现信息抽取系统不断自优化.最后设计了系统实验方案并进行实验,实验结果证明在该自优化方案下抽取的准确性与覆盖率得到显著提升.  相似文献   

10.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。  相似文献   

11.
针对当前旅游信息资源网络检索中存在的查准率低、查全率低及检索返回结果过多等问题,提出Ontology的概念检索以及Ontology在旅游网站信息检索的应用研究,对构建旅游信息本体描述语言、编辑工具、实现方法以及基于ontology的旅游信息资源网站集成管理平台的架构进行探讨。  相似文献   

12.
基于领域本体实现Web文本挖掘研究   总被引:1,自引:0,他引:1  
阮光册 《图书情报工作》2011,55(18):116-120
为弥补改进传统Web文本挖掘方法缺乏对文本语义理解的不足,采用本体与Web文本挖掘相结合的方法,探讨基于领域本体的Web文本挖掘方法。首先创建Web文本的本体结构,然后引入领域本体“概念-概念”相似度矩阵,并就概念间关系识别进行描述,最后给出Web文本挖掘的实现方法,发现Web文本信息的内涵。实验中以网络媒体报道为例,通过文本挖掘得出相关结论。  相似文献   

13.
基于语义模型的数字图书馆知识组织信息抽取策略   总被引:1,自引:1,他引:0  
简述语义模型是实现数字资源语义关系形式化描述的方式,是数字图书馆知识组织语义互联的重要影响因素。作为数字图书馆知识组织语义互联的重要环节,信息抽取需要本体提供语义知识依据,同时产生的文档也可以作为设计和丰富本体的知识资源。构建数字图书馆知识组织语义互联的语义模型以“元数据、领域本体、桥本体、本体解析体系”为核心要素,在此基础上探讨信息抽取的策略。  相似文献   

14.
基于领域本体实现全网信息的智能搜索方法研究   总被引:2,自引:2,他引:0  
为了克服基于关键词匹配的传统搜索引擎不能有效处理复杂语义的问题,提出了一种基于领域本体实现面向整个网络空间的信息智能搜索方法.首先研究了支持网络信息搜索的领域本体结构和表示方法;重点研究了基于领域本体对用户的检索关键词进行语义处理技术,并且设计了一个算法提高语义推理效率;探究了自动调用搜索引擎,按照语义处理后的检索表达式完成全网信息搜索的方法.实验证明,本方法在略有提高查准率的同时,显著提高了网络信息搜索的查全率.  相似文献   

15.
为了提高信息抽取过程中的语义深层次的理解和准确率,本文提出了一种基于领域本体和语块分析的语义信息抽取方法,在详细说明其信息抽取模型的基础上,重点针对命名实体识别、词性组合模板、基于本体的三元组和二元组规则等关键问题进行了深入的分析和研究,提出了相应的解决方法,并进行了相关试验性研究.结果表明:采用本文所述的系统结构及其技术构建文本信息抽取系统是可行的,其能在深层次语义理解的基础上进一步提高信息抽取的准确率.  相似文献   

16.
基于Web挖掘技术的信息检索系统设计与实现   总被引:2,自引:0,他引:2  
王艳  张帆 《情报学报》2007,26(3):339-343
本文详细介绍一个基于Web文本挖掘技术的信息检索系统的设计与实现。基于Web文本挖掘技术的信息检索技术融合了文本挖掘的思想,它将单一的资源发现或者单一的信息提取的传统的信息检索方法结合起来,从而达到在WWW发现资源并将其中的信息提取出来进行处理的目的。  相似文献   

17.
基于查询扩展和词义消歧的语义检索   总被引:1,自引:1,他引:0  
随着网络化信息的急剧增长以及自然语言固有的歧义性问题,当前基于关键字匹配的搜索引擎已不能满足信息搜索的需求,出现了"信息泛滥而知识缺乏"的现象.本文提出基于语义的智能搜索技术,利用WordNet和WordNet Domains知识库从结构相关性和领域相关性两个方面综合判定词义间的相关性.根据用户提交的查询关键词的整体相关性最大化原则来确定查询词义,进而进行查询扩展;同时对检索到的文档内容也进行语义消歧来去除无关文档,兼顾了查准率和查全率两个方面.模拟实验结果表明,本文方法的搜索性能较传统的关键字匹配法和一般的查询扩展方法有明显优势,检索精度分别提高了18%和28%.  相似文献   

18.
为充分发挥知识组织在企业专利战略中的作用,在分析专利文献的基础上,根据中文专利文献句法描述的特点,利用最大串频匹配、蚁群聚类、多层KMeans聚类、改进关联规则计算、基于规则和CRFs的术语关系抽取等算法,设计出一套领域本体的半自动构建系统,包括术语抽取、分类关系抽取、非分类关系抽取、本体形式化等模块,初步实现结构化数据和非结构化文本的本体半自动构建。  相似文献   

19.
基于主动学习的Web页面信息抽取   总被引:4,自引:0,他引:4  
张清军  朱才连 《情报学报》2004,23(6):667-671
本文提出一种基于主动学习的Web页面信息抽取方法 ,可以使用户在标记少量具有代表性的样本页面的情况下 ,有效地提高信息抽取规则的覆盖性 ,从而使包装器具有一定的自适应性。  相似文献   

20.
近两年来国外有关本体基本问题的主要研究述评   总被引:1,自引:0,他引:1  
本体的创建、描述、映射、演化与评价是本体研究的基本问题。从基于深层网页的本体创建、基于领域知识自动本体建设系统和本体构建与共享的合作环境等角度概述本体创建的基本研究进展;从本体可视化、Web中本体检索系统的设计和本体演化等角度介绍本体的改进与完善。其它如关于本体与语义Web、本体评价的研究进展,本体应用障碍分析同样值得关注。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号