首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 531 毫秒
1.
[目的/意义] 对比文件是用以判断专利能否授权或无效的重要文件,针对传统信息检索方法的不足且鲜有利用机器学习方法研究对比文件检索的问题,在引入对比文件信息的基础上,构建专利相关性判定模型。[方法/过程] 以专利无效判决书中的目标专利与对比文件为数据集进行实验,提取文本相似度、共现词汇和共词数量特征信息,利用GBDT模型将对比文件的检索问题转化为判断其是否相关的分类问题。[结果/结论] 研究结果表明,不同字段数据对分类效果的贡献不同,其中说明书字段的准确率、召回率和F1值分别为79%、48%和59%,并且多特征集成后的分类效果显著优于单一文本相似度的结果,最后对实验错分情况进行分析,指出本研究下一步的研究方向。  相似文献   

2.
随着专利数据规模的不断增长,对专利数据的深入挖掘也变得日益重要,特别是专利数据中所蕴含的技术功效等信息具有较高的价值。本文提出了一种基于隐马尔科夫模型的专利功效词识别方法,通过词法与句法分析筛选出候选功效词,在此基础上,采用隐马尔科夫模型并结合专利发明改进的特征设计了功效词识别算法,对候选功效词进行过滤。在新能源汽车等不同领域的专利数据集上,以准确率与召回率作为评价标准,验证所提出方法的有效性。实验结果表明,此方法有效提高了识别准确率与召回率。  相似文献   

3.
在领域本体的基础上,对面向专利文献的语义检索与分析方法进行探讨,并构建一套专利语义检索与分析系统,包括语义检索、趋势分析、相似专利检测、重要专利检测等模块,初步实现基于领域本体的专利语义检索与挖掘。同时,以国际专利分类号为C21的中文专利数据为例进行实验,证明本体扩展后的语义检索的召回率得到大幅提高,继而使得后续的专利分析和挖掘效果更加明显,从而有助于进一步深入开展专利挖掘工作。  相似文献   

4.
本文研究了科技文献副主题词的自动抽取问题,并对其在分面检索中的应用进行了探索。为实现副主题词的自动标引,本文提出了以标题作为抽取数据源、基于规则进行抽取的实现方法,并以图情领域文献进行了实验。结果显示,基于规则的抽取方法在召回率和准确率方面表现良好,均超过了90%;但仅以标题作为抽取数据源会导致召回率偏低,仅有49.9%的文献能抽取出副主题词。为探索副主题词在分面检索中的应用,本文以图情领域文献为例构建了原型系统,从使用效果来,副主题词作为独立的检索点价值不大,但和其他检索点配合使用则可以更贴切地表达用户需求,作为分面则能在帮助用户进行探索式检索以及结果筛选方面发挥重要作用。本研究的局限性包括仅采用标题作为副主题词抽取数据源,导致召回率不高;在副主题词抽取时未考虑同时抽取相应的主题词等。  相似文献   

5.
基于条件随机场与自定义规则的时间表达式识别   总被引:1,自引:0,他引:1  
本文致力于信息抽取中时间表达式的识别与提取研究.首先针对基于规则方法时间识别的缺点,将统计序列标注模型--条件随机场应用于时间识别中,充分利用时间表达式的内部和外部特征进行时间识别,提高了时间识别的准确率.然后通过对识别结果进行分析,自定义规则对识别错误结果进行后处理,进一步提高时间识别的召回率,弥补了机器学习模型获取知识不够全面而导致的召回率偏低的问题.实验结果表明,本文方法开放测试的准确率、召回率和F-值分别到达了91 65%、88 13%和89 85%,较传统方法均有所提高,是一种有效的时间表达式识别方法.  相似文献   

6.
[目的/意义]在日趋激烈的国际竞争背景下,颠覆性技术被认为是引领技术和产业发展方向、助推企业和产业实现“弯道超车”的绝佳机会窗口。为此,预测和部署颠覆性技术对于国家抢占科技制高点、重塑价值链均具有重大战略意义。[方法/过程]结合深度学习和离群点检测算法,构建基于离群点视角的颠覆性专利预测框架。该研究框架包括五个关键步骤:首先,利用BERT模型和TF-IDF算法将专利文本和专利分类号转化为可计算的高维向量表示,并结合PCA算法进行降维和特征融合;其次,采用三种离群点检测算法,以增量迭代的方式识别离群专利;再者,通过数据集修正,从离群专利中保留新技术专利;在此基础上,通过深度剖析新技术形式颠覆性专利的核心特征,构建有效的测度指标体系;最后,利用深度学习DNN模型拟合专利指标和颠覆性专利标签之间的关联关系,从而实现从大量的新技术专利中对潜在颠覆性专利的有效预测。[结果/结论 ]以人工智能为例,验证了该方法的有效性。结果共预测出411条颠覆性专利,这些专利主要涉及六大颠覆性方向:多模态预训练大模型、增强现实、生成式AI、自动驾驶、图像识别与处理和智能通信。这些技术的推广和应用,将对未来的科技和...  相似文献   

7.
机器学习是人工智能的重要分支,TensorFlow是谷歌第二代开源人工智能机器学习平台。此文重点介绍机器学习(主要是深度神经网络)的基本原理和利用TensorFlow进行机器学习的基本方法,探讨在图书馆领域应用的可能和场景。以《全国报刊索引》的自动分类问题作为实验对象,利用两台图形工作站,建立了TensorFlow深度学习模型,通过设定参数和阈值、系统调优等工作,实践了应用TensorFlow的完整过程,论证了其可行性。实验通过对170万余条题录数据进行训练和测试,克服了报刊索引数据过于简单与中国图书馆分类法的类目过于细致之间的矛盾,实现了大类近80%和四级分类总体近70%的准确率(其中TP类达到91%),得出基本可代替人工分类流程的结论,为全国报刊索引的分类流程的半自动化提供有力工具,从而可望大大节省人力成本。下一步将继续利用TensorFlow的优化功能,结合更多的字段属性,进行系统调优,力争做到自动分类90%以上的准确率。  相似文献   

8.
文章概要介绍NTCIR的整体情况,重点介绍中国科学技术信息研究所本年度参与的NTCIR专利挖掘任务(Patent Mining Tasks),并阐述该任务的两个子任务,即(1)以论文和专利统一分类、检索和分析为目的,对学术论文按IPC分类号进行自动分类的“学术论文分类子任务”;(2)基于某一领域的论文和专利的“生成技术动态地图子任务”。最后,对参NTCIR测评活动,给出体会与建议。  相似文献   

9.
[目的/意义]颠覆性技术关乎国家竞争力和国际地位,科学准确地识别出颠覆性技术主题,能够解决技术发展过程中主题不够明确、发展路径不够清晰等问题,以此有效把握技术发展动态,调整国家科技战略布局,更好地抢占国际竞争制高点。[方法/过程]以能源科技领域的专利文本数据为研究客体,构建基于Word2Vec词向量与LDA(Latent Dirichlet Allocation)主题向量的融合特征向量,并引入K-means算法优化主题聚类效果,最后结合颠覆性技术特征指标,识别颠覆性技术主题,利用DTM(Dynamic Topic Model)模型揭示该领域颠覆性技术主题的发展状况。[结果/结论]通过人工验证和模型结果对比可以发现,实证结果具有合理性,且模型的精准率、召回率、F1值均高于同类型的主题模型,证明该方法对颠覆性技术主题识别具有较好效果。  相似文献   

10.
在深入分析NSTL篇级元数据特点的基础上,结合模糊匹配算法,提出一种适合NSTL现有数据的人名消歧规则集,并给出基于该规则集的人名消歧算法。通过对实际数据集的实验,该算法在准确率、召回率等指标方面都有良好的表现,具备较好的消歧效果。  相似文献   

11.
赵娟  潘薇  刘会景 《情报工程》2016,2(4):049-055
专利文献侧重于技术创新成果。在技术创新研究中,研发人员有必要对所研究的专题技术实施较为全面的专利信息检索。作者以循环肿瘤细胞(Circulating Tumor Cells,CTC)技术为例,系统阐述专题技术的专利检索策略,主要包括:专利检索工具的选择、关键词的确定、分类号的确定、检索式的设定、查全率与查准率的验证、补充检索。作者通过扩展技术分支检索,提高了检索结果的查全率;通过合理地选取专利分类号,降低了检索结果的噪声。  相似文献   

12.
通过对近年来计算机科学、人工智能、专利文献加工等领域的发展进行总结,从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。机器翻译技术和多边共同分类体系的完善有助于提高计算机检索效率、消除语言障碍,而语义检索、图像检索和文献自动处理技术的发展有望使面向不同层次用户的计算机智能化检索系统得以实现。  相似文献   

13.
鉴于专利术语的翻译要求高度的准确性和专业性,而专利术语的自动获取翻译对于机器翻译、词典自动编纂、跨语言信息检索等自然语言处理具有重要的实用价值,从双语的专利摘要中分别抽取术语,之后融合多术语识别方法,采用规则翻译和统计机器翻译来动态地辅助词汇化方法进行术语对齐,以期尽可能多地在双语的专利文献中获取准确的专利术语翻译对。在专利文摘中进行实验验证的结果是:专利术语翻译对的准确率达到80%。  相似文献   

14.
基于领域本体的专利信息检索系统研究与实现   总被引:1,自引:0,他引:1  
 针对传统信息检索方法在当今网络信息环境下所面临的问题,提出基于领域本体的专利信息检索模型,从用户检索请求处理、本体构建、本体可视化与语义扩展、检索及存储的过程和技术实现进行研究,并开发一个基于服装领域本体的专利信息检索原型系统。比较测试表明,该模型在确保信息检索准确性的同时能够极大地提高其全面性。  相似文献   

15.
苏颖 《情报工程》2015,1(5):008-017
专利检索是一个非常复杂的过程,用户为了迅速高效地完成检索任务需要得到支持。专利检索过程的许多环节可以借助一些工具完成,其中就包括查询(式)构造工具。查询构造是一项高度依赖人工的任务,工具只能实现对可能有用数据进行预先计算,并针对用户进行可视化。信息检索系统中,查询过程和查询结果可视化的方式有很多。本研究提出了两种典型的原型系统设计,用于在专利检索过程中对不同的查询表达式进行比较。原型包含查询表达式构造因素和结果集大小因素,两种因素对于专利领域专家探究查询表达式的调整对检索效率的影响至关重要。本文开发的系统有助于在专利检索过程中对复杂查询表达式进行逐步优化,系统设计思想基于了领域专家型知识工程。  相似文献   

16.
基于深度学习的中文专利自动分类方法研究   总被引:2,自引:0,他引:2  
[目的/意义] 面向当前国内专利审查和专利情报分析工作中对于海量专利分类的客观需求,设计了7种基于深度学习的专利自动分类方法,对比各种方法的分类效果,从而助力专利分类效率和效果的提升。[方法/过程] 针对传统机器学习方法存在的缺陷,基于Word2Vec、CNN、RNN、Attention机制等深度学习技术,考虑专利文本语序特征、上下文特征以及分类关键特征,设计Word2Vec+TextCNN、Word2Vec+GRU、Word2Vec+BiGRU、Word2Vec+BiGRU+TextCNN等7种深度学习模型,以中国专利为例,选取IPC主分类号的"部"作为分类依据,对比这7种模型与3种传统分类模型在中文专利分类任务中的效果。[结果/结论] 实证研究效果显示,采用考虑语序特征、上下文特征及强化关键特征的深度学习方法进行中文专利分类具有更优的分类效果。  相似文献   

17.
[目的/意义]面向专利文本进行更细粒度的技术实体识别和技术预测,利于更详细地把握专利技术布局与趋势。[方法/过程]首先利用深度学习方法自动识别专利技术术语类实体,通过实验对比多组深度学习算法的优劣。其次,提出新的半监督标注和自定义标注方案,提高人工标注效率。最后,执行训练得到的最优模型,结合链路预测方法,对合成生物技术进行细粒度的技术预测。[结果/结论]实证结果表明RoBERTa-BiLSTM-CRF模型更适用于语义复杂的专利技术实体识别,F1值可达到86.8%,技术识别结果比传统IPC分析方法更精细。同时,细粒度的技术预测结果表明,合成生物学的合成方法在不断改进创新,合成物研究向合成燃料发展。  相似文献   

18.
智能检索环境下的索引编制   总被引:2,自引:0,他引:2  
阐述了智能检索的实质,分析了智能检索环境下编制索引遇到的障碍,探讨了实现智能检索在编制索引方面应当采取的技术,包括文档预处理技术、元数据和RDF、语义网技术和机器学习。并且举例分析了这些技术的实现问题,同时说明了索引编制的整个过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号