首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
面向科技文献的混合语义信息抽取方法研究   总被引:1,自引:0,他引:1  
针对目前知识抽取技术无法精确抽取学术文献中提及的具体理论方法和性能指标参数等问题,综合运用语义标注技术、规则抽取技术以及正则表达式技术,提出一种面向科技文献的混合语义信息抽取方法。该方法首先对科技文献进行语义标注,得到相关学术术语。然后,构造抽取规则,抽取文献提及的与具体性能指标相关的句子。最后,采用正则表达式技术从相关句子中精确抽取出关键性能指标。对碳纳米管研究领域科技文献语义的信息抽取证明,该方法能迅速、有效和准确地抽取科技文献主要创新研究内容和性能指标。  相似文献   

2.
鉴于专利术语的翻译要求高度的准确性和专业性,而专利术语的自动获取翻译对于机器翻译、词典自动编纂、跨语言信息检索等自然语言处理具有重要的实用价值,从双语的专利摘要中分别抽取术语,之后融合多术语识别方法,采用规则翻译和统计机器翻译来动态地辅助词汇化方法进行术语对齐,以期尽可能多地在双语的专利文献中获取准确的专利术语翻译对。在专利文摘中进行实验验证的结果是:专利术语翻译对的准确率达到80%。  相似文献   

3.
主题自动提取对于专利文献的信息挖掘具有重要的意义。引入语义角色标注信息来辅助自动提取专利文献主题,区别于已有的专利文本分析平台所采用的人工标注或模板方式。为了改善专利文献的语义角色标注,首先描述将专利文献长句自动拆分成简化句的方法;其次,对简化句进行语义角色标注;最后,综合利用简化句语义信息以及自建带语义框架的常用词表,对专利文献进行主题信息抽取,获得必要信息,从而证实本研究的实用价值。  相似文献   

4.
从信息分析的实际需求出发,对与电动汽车相关的5 405条专利数据进行术语抽取、生僻术语识别和字段比较研究。结果显示关键短语抽取的方法可行,互信息抽取的术语所在文档的平均文档长度更接近集合的平均文档长度;摘要和First Claim字段的术语存在一定差别,但对分类或聚类同等重要;生僻术语识别算法能够发现生僻词和高频词的对应关系。研究结论可以为专利文本挖掘和专利信息分析提供结果和方法,并为信息分析工作提供所需的参考术语。  相似文献   

5.
专利技术术语的抽取方法   总被引:2,自引:0,他引:2  
针对专利中缺少技术关键词的问题,在对主要的术语抽取方法研究的基础上,引入C-value方法,修改了术语构词规则和术语度(termhood)计算公式,用PC-value值测量一个词语的术语度,提出了专利技术术语抽取的流程模型,实现了从专利中抽取技术术语.该模型分为四个阶段:①分词和词性标注; ②运用语言学规则取得可能术语列表; ③计算词语的术语度值,取得候选术语列表; ④领域专家评估并确定术语.实验结果证明,提出的方法能很好地抽取中文专利技术术语,在长术语的抽取和抽取精度上比C-value方法更具有优势.  相似文献   

6.
[目的/意义] 采用hLDA从专利语料库中抽取层次主题,以描述隐藏在专利文本中的技术结构,并基于层次主题随时间变化情况进行技术演化分析。[方法/过程] 从专利术语中获取闭频繁项集,并基于此建立关联规则网络来度量术语的重要性和术语间语义关系强弱,进而对语料库进行重构,并对不同时间片段的专利集合进行层次主题结构抽取。[结果/结论] 将本方法应用于硬盘驱动器磁头领域的专利数据分析,实证结果表明该方法是一种可行和有效的技术演化分析方法。  相似文献   

7.
文章通过学习扩展的机器学习和深度学习,提出针对非物质文化遗产项目语料的术语抽取及新词发现方法,形成领域术语库并探讨在数字人文领域的应用。首先使用自然语言处理方法对非遗陶瓷语料进行预处理,结合领域术语词表对语料进行标注;然后针对Random-CRFs模型,研究词表特征(DICT)、词性特征(POS)、部首特征(Radical)、拼音特征(Pinyin)对术语抽取效果的影响,再对比Random-CRFs、Random-BiLSTM、Random-BiLSTM-CRFs、BERT-BiLSTMCRFs等4个模型对术语抽取效果的影响;最后使用训练完成的模型对测试集语料进行新词识别,对抽取出的候选词进行人工判断,构建包含1,173个术语的非物质文化遗产陶瓷工艺领域术语库,将其应用于非遗项目画像、非遗陶瓷工艺知识图谱和非遗陶瓷工艺术语检索。  相似文献   

8.
[目的/意义]针对目前专利关键词抽取算法评价中主要采用抽取的关键词与专家人工标注关键词进行匹配存在的问题,提出一种基于信息增益与相似度的专利关键词抽取算法评价模型.[方法/过程]提出的评价模型从内部和外部两个层面评估专利关键词抽取算法的准确性.其中,内部评价模型度量待评价算法抽取的每个关键词的信息增益,以评估被抽取的关...  相似文献   

9.
[目的/意义]针对中文专利候选术语选取方法存在需要对不同的数据集分别制定不同的模式匹配规则、专利术语抽取准确性不高等问题,本文提出基于依存句法分析的中文专利术语选取方法,以提高中文专利术语抽取准确性。[方法/过程]主要包括依存句法分析、剪枝、生成依存子树等三个主要步骤。首先对中文专利进行依存句法分析,得到依存树,对依存树进行剪枝,去除不符合要求的依存关系,生成依存子树,从中选取连续词串作为候选术语,以抽取中文专利术语。[结果/结论]实验结果表明,与已有的中文专利候选术语选取方法相比,本文提出的基于依存句法分析的中文候选术语选取方法能够有效地提高中文专利术语抽取的准确性。  相似文献   

10.
提出一种新的政务本体术语自动抽取的方法。首先通过中文分词技术和单字合并法提取政务文本中的词作为候选术语;通过C-value求解法和TF-IDF算法对候选术语进行过滤抽取,从而实现政务领域术语的自动抽取。通过实验比较,发现该方法在不影响领域术语抽取召回率的同时可以提高抽取术语的正确率。  相似文献   

11.
国内外专利挖掘研究(2005-2014)综述   总被引:1,自引:0,他引:1  
在中国知网、万方数据和Web of Science进行检索,获得72篇相关中文文献和98篇英文文献,并从中选出66篇进行综述。专利挖掘研究包括术语抽取、聚类、分类、以复杂网络为基础的方法、以时间为基础的方法和基于专利挖掘的技术研究等6个主题。尽管近10年来这一领域发展较快,但是部分研究也存在试验验证不精确、基于IPC的自动分类效果不好、所要解决的问题不明确且局限于方法应用和粒度粗糙等问题。专利挖掘研究应该注重发现问题,而非简单地应用方法。  相似文献   

12.
专利是一种重要的情报分析数据来源,由于专利使用的术语比论文更为抽象等原因,基于统计的信息抽取效果并不理想。文章利用文档结构的特点以及专利写作过程中的常用特色词汇,在利用条件随机场这种概率模型的基础上,提出了集成基于规则的专利摘要信息抽取方法。系统参加亚洲语言信息检索测评会议专利挖掘之技术趋势图谱子任务,取得较好的成绩,证实其系统的实用性与高效性。  相似文献   

13.
In the patent domain significant efforts are invested to assist researchers in formulating better queries, preferably via automated query expansion. Currently, automatic query expansion in patent search is mostly limited to computing co-occurring terms for the searchable features of the invention. Additional query terms are extracted automatically from patent documents based on entropy measures. Learning synonyms in the patent domain for automatic query expansion has been a difficult task. No dedicated sources providing synonyms for the patent domain, such as patent domain specific lexica or thesauri, are available. In this paper we focus on the highly professional search setting of patent examiners. In particular, we use query logs to learn synonyms for the patent domain. For automatic query expansion, we create term networks based on the query logs specifically for several USPTO patent classes. Experiments show good performance in automatic query expansion using these automatically generated term networks. Specifically, with a larger number of query logs for a specific patent US class available the performance of the learned term networks increases.  相似文献   

14.
[目的/意义]面对海量专利文献,如何使用户快速、精准地掌握知识,是优化专利服务的关键课题.中文专利文献中大量存在的零形回指现象,严重影响了知识的自动识别与提取,但由于专利文献零形回指识别与消解涉及到众多文本分析技术及特定资源建设,因此,目前尚未发现针对性研究.[方法/过程]在物性结构理论、语义角色及修辞结构关系理论的指导下,展开相关规则的研究,开发句法及语义角色标注工具和篇章标注工具两种工具,并构建了4个资源库:①"专利动词物性角色库",将专利的动词归纳为4类;②"专利知识论元结构库",用于自动标注专利动词物性角色及其论元结构;③"专利动词论元结构规则库",用于分析零形回指的先行语;④"零形回指修辞结构类型库",用于分析当零形回指搭配"功能角色"和"部件角色"的情况.[结果/结论]通过资源库的建设,得出5条消解规则.初步成果已成功应用于机械领域专利文献的自动处理工作.  相似文献   

15.
杨雅娜  刘胜奇 《情报工程》2015,1(5):025-031
提出 ATValue(Advanced TValue and Fieldhood Integration) 术语抽取法。为提高术语抽取质量,在 TValue 五属性的基础上,提出领域度。通过相关性分析获得六属性组合值 AValue,最后识别AValue 高于术语可信度的词串来选择候选术语。能源行业的实验结果表明:ATValue 术语抽取法的F值约比 TValue 术语抽取法高出 2 个百分点,原因在于 ATValue 的领域度测算了词串中各种单词对领域的贡献。  相似文献   

16.
[目的/意义] 科技文献中的概念是对文献中知识高度凝练的表达,通常以定义句的形式出现在科技文献中。自动从概念定义句中抽取概念,能够进一步挖掘科技文献中蕴含的重要知识。[方法/过程] 通过分析概念定义句的结构、句式等模式特征,提出以WCL数据集为基础的语料构建方案,并采用BERT+BiLSTM+CRF模型学习概念定义句的模式,从而实现概念短语抽取。[结果/结论] 结合以往对概念定义句模式特征的研究,创新性地提出一种基于序列标注学习概念定义句的组成模式,从而实现概念短语抽取。通过BERT+BiLSTM+CRF模型,有效学习了概念定义句中的上下文语义、句式结构、组成项分布等模式特征,实现了句子中概念短语的抽取。  相似文献   

17.
针对我国"虚高"的专利数据和目前专利现状分析的局限性,论述专利法律状态在专利现状分析中的重要性,设计并实现基于国家知识产权局网站的专利信息采集系统。系统通过网页信息抽取技术获取有用信息,建立了包括法律状态在内的本地专利信息数据库,并以高校有效发明专利为例进行实证研究。结果表明:专利法律状态在反映专利质量方面更有说服力,是对有效专利数量指标的良好补充,能使专利现状分析更为精确、客观和全面。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号