共查询到18条相似文献,搜索用时 187 毫秒
1.
基于本体的专利摘要知识抽取* 总被引:4,自引:0,他引:4
采用知识工程的方法,对“新能源汽车”中文专利摘要进行研究分析,提出了一个基于本体的中文专利摘要抽取模型。通过构建相应的本体、收集相关的词表、撰写相应的规则,并利用这些规则对专利摘要进行知识抽取结果,抽取结果辅助完成专利知识库的自动构建。即就如何组织非结构化信息以及如何自动构建知识库的进行尝试,验证了基于本体对专利摘要进行知识抽取的可行性。 相似文献
2.
学术资源本体非等级关系抽取研究 总被引:1,自引:1,他引:0
[目的/意义] 概念非等级关系抽取是本体构建的必要步骤,学术文献作为一种重要的学术资源类型,本文主要利用其结构特点来进行本体概念非等级关系的抽取。[方法/过程] 首先,在本体概念抽取的基础上,对文献中概念的类型进行分类,以便于后期关系动词搭配的概念类型来排除不符合条件的三元组;其次,确定学术文献中的关系类型,并采用C-value方法抽取表示关系的动词,进行本体关系的表示;再次,评价概念对的关联性,利用互信息法对概念对进行排序并去除非相关概念对,实验表明该方法非常有效;最后评价概念对与关系动词的关联,分析影响三元组关联的因素,再采用实验确定模型挖掘三元组,实验比较现有的关联规则挖掘的方法。[结果/结论] 结果表明本文提出的三元组选择模型效果明显超过现有的关联规则挖掘方法,并且在语料集扩大的情况下这种优势更为明显。 相似文献
3.
近年来,知识抽取技术在非结构化文本的处理中起到很重要的作用.文章在对当前知识抽取的相关文献、系统和项目分析研究的基础之上,提出了当前知识抽取研究中的主要抽取内容对象的分类,并对这些主要内容对象抽取的相关技术方法进行综述.主要总结了Web对象识别和集成、术语识别和抽取、主题发现和识别、概念层次关系的抽取、非概念层次关系的抽取、事实抽取、观点抽取和倾向识别等7种内容对象抽取的技术方法.并在此基础之上,对未来知识抽取的发展趋势进行了分析.该文为2008年第9期本期话题"知识抽取"的文章之一. 相似文献
4.
面向数字图书馆的本体自动构建 总被引:1,自引:0,他引:1
提出一种面向数字图书馆的本体自动构建方法:首先从因特网数据中找出本体语义概念的模式及其关系,然后通过构建概念分类体系来自动化地抽取数字图书馆的各类本体。包括以下步骤:术语选择、抽取本体概念、语义关系抽取、分类体系构建、本体构建和本体修剪及评价。图3。参考文献3。 相似文献
5.
基于统计自然语言处理技术的领域本体半自动构建研究 总被引:1,自引:0,他引:1
本体的构建是影响语义Web成功与否的重要因素之一.本文借鉴机器学习以及自然语言处理等技术成果尝试半自动构建本体,以专业研究论文为研究语料,采用N-Gram文本表达法从语料中抽取关键概念,计算主题度获取领域概念.利用改进的层次聚类算法对领域概念进行聚类以获取其等级体系,采用句法分析与统计相结合的方法从语料中获取可能的主、谓、宾模式为领域关系提供参考,并以农业史为例,设计开发了一个领域本体半自动构建实验系统,文中重点介绍了本体构建中概念的获取、等级关系、领域关系的构建以及形式化处理等关键技术的实现过程. 相似文献
6.
基于学术文献构建领域本体对促进领域学科发展具有重要的意义。本文提出了一种以中文学术文献为数据源,半自动化抽取领域本体层次关系的框架方法。首先,构建了一个通用的领域本体层次关系的细粒度研究框架。其次,设计了一种新的概念表示方法,融合了深度学习方法得到的概念语义特征和上下文的时间序列词频。进一步结合了AP聚类、Prim算法和Web搜索引擎的查询数据,提出了基于规则推理的本体概念层次关系抽取算法(RROCHE),实现了半自动化概念层次关系抽取。最后,基于中文分词领域的中文学术文献数据,通过数值实验方法讨论了方法的可行性和有效性。本文提出的框架方法也非常容易推广并应用到各领域本体层次关系任务中。 相似文献
7.
基于本体的Web信息抽取就是以所构建的本体为核心,利用本体中已定义的概念、分类层次、关系、函数、公理和实例及一些必需的外部资料对Web页面进行信息提取,得到结构化的知识并保存的过程,这一技术已经成为国内外研究的热点之一。文章介绍了信息抽取的历史,给出了基于本体的Web信息抽取一般体系结构模型及相关实现,系统地分析比较了各种基于本体的Web信息抽取方法,指出了目前这些方法实现的关键、得到的结果及其不足之处,展望了Web信息抽取发展的方向。 相似文献
8.
实体关系抽取的技术方法综述* 总被引:3,自引:0,他引:3
对实体关系抽取研究以MUC和ACE评测为主线的发展进行总结,并指出实体关系抽取任务普遍存在的三个问题是特定领域标引数据集的获取、模式的获取以及共指消解。在对当前关系抽取的相关文献、系统和项目进行分析研究的基础上,将基于非结构化文本的实体关系抽取技术方法归纳为:基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习的关系抽取、基于Ontology的关系抽取以及混合抽取方法,旨在为进一步构建实体关系抽取系统提供良好借鉴。 相似文献
9.
从信息分析的实际需求出发,对与电动汽车相关的5 405条专利数据进行术语抽取、生僻术语识别和字段比较研究。结果显示关键短语抽取的方法可行,互信息抽取的术语所在文档的平均文档长度更接近集合的平均文档长度;摘要和First Claim字段的术语存在一定差别,但对分类或聚类同等重要;生僻术语识别算法能够发现生僻词和高频词的对应关系。研究结论可以为专利文本挖掘和专利信息分析提供结果和方法,并为信息分析工作提供所需的参考术语。 相似文献
10.
专利术语抽取是专利文献信息抽取领域的一项重要任务,有助于专利领域词表的构建,有利于中文分词、句法分析、语法分析等工作的进行。文章通过分析专利术语的特点并制定相应的语料标注规则进行人工标注,采用条件随机场(conditional random fields,CRFs)对标注后的数据进行训练和测试,实现了通信领域的术语抽取。标注方法采用基于字的序列标注,精确率、召回率和F值分别达到80.9%、75.6%、78.2%,优于将词和词性等信息作为特征的方法,表明所提出的专利术语抽取方法是有效的。 相似文献
11.
本体学习:原理、方法与相关进展 总被引:8,自引:0,他引:8
本体学习是自动或半自动构建本体的一系列方法和技术。本文概述了本体学习的研究状况,描述了本体学习的框架结构,总结了本体学习的技术、方法与算法,提出了当前本体学习研究的问题与难题以及进一步研究方向。 相似文献
12.
[目的/意义]提出一个药物不良反应本体的半自动构建方法,构建的细粒度药物不良反应本体为利用社交媒体挖掘潜在的药物不良反应信号提供语义资源库。[方法/过程]首先,采用业务层次和语言层次相分离的设计理念,将用户在社交媒体中评论的药物不良反应表示成"对象要素-属性要素-描述概念"的形式。细粒度体现在社交媒体用户对药物同一不良反应描述概念表达的多样性上。然后,基于深度学习的思想,利用基于word2vec的描述概念候选词抽取算法自动地抽取出更多的描述概念候选词构建本体。[结果/结论]以糖尿病药物的建模实例表明,提出的细粒度药物不良反应本体的半自动构建方案,提高了本体构建的智能化水平,构建的细粒度药物不良反应本体为利用社交媒体挖掘潜在的药物不良反应信号提供语义资源库。 相似文献
13.
14.
15.
16.
17.