共查询到18条相似文献,搜索用时 531 毫秒
1.
[目的/意义] 对比文件是用以判断专利能否授权或无效的重要文件,针对传统信息检索方法的不足且鲜有利用机器学习方法研究对比文件检索的问题,在引入对比文件信息的基础上,构建专利相关性判定模型。[方法/过程] 以专利无效判决书中的目标专利与对比文件为数据集进行实验,提取文本相似度、共现词汇和共词数量特征信息,利用GBDT模型将对比文件的检索问题转化为判断其是否相关的分类问题。[结果/结论] 研究结果表明,不同字段数据对分类效果的贡献不同,其中说明书字段的准确率、召回率和F1值分别为79%、48%和59%,并且多特征集成后的分类效果显著优于单一文本相似度的结果,最后对实验错分情况进行分析,指出本研究下一步的研究方向。 相似文献
2.
3.
4.
本文研究了科技文献副主题词的自动抽取问题,并对其在分面检索中的应用进行了探索。为实现副主题词的自动标引,本文提出了以标题作为抽取数据源、基于规则进行抽取的实现方法,并以图情领域文献进行了实验。结果显示,基于规则的抽取方法在召回率和准确率方面表现良好,均超过了90%;但仅以标题作为抽取数据源会导致召回率偏低,仅有49.9%的文献能抽取出副主题词。为探索副主题词在分面检索中的应用,本文以图情领域文献为例构建了原型系统,从使用效果来,副主题词作为独立的检索点价值不大,但和其他检索点配合使用则可以更贴切地表达用户需求,作为分面则能在帮助用户进行探索式检索以及结果筛选方面发挥重要作用。本研究的局限性包括仅采用标题作为副主题词抽取数据源,导致召回率不高;在副主题词抽取时未考虑同时抽取相应的主题词等。 相似文献
5.
基于条件随机场与自定义规则的时间表达式识别 总被引:1,自引:0,他引:1
本文致力于信息抽取中时间表达式的识别与提取研究.首先针对基于规则方法时间识别的缺点,将统计序列标注模型--条件随机场应用于时间识别中,充分利用时间表达式的内部和外部特征进行时间识别,提高了时间识别的准确率.然后通过对识别结果进行分析,自定义规则对识别错误结果进行后处理,进一步提高时间识别的召回率,弥补了机器学习模型获取知识不够全面而导致的召回率偏低的问题.实验结果表明,本文方法开放测试的准确率、召回率和F-值分别到达了91 65%、88 13%和89 85%,较传统方法均有所提高,是一种有效的时间表达式识别方法. 相似文献
6.
[目的/意义]在日趋激烈的国际竞争背景下,颠覆性技术被认为是引领技术和产业发展方向、助推企业和产业实现“弯道超车”的绝佳机会窗口。为此,预测和部署颠覆性技术对于国家抢占科技制高点、重塑价值链均具有重大战略意义。[方法/过程]结合深度学习和离群点检测算法,构建基于离群点视角的颠覆性专利预测框架。该研究框架包括五个关键步骤:首先,利用BERT模型和TF-IDF算法将专利文本和专利分类号转化为可计算的高维向量表示,并结合PCA算法进行降维和特征融合;其次,采用三种离群点检测算法,以增量迭代的方式识别离群专利;再者,通过数据集修正,从离群专利中保留新技术专利;在此基础上,通过深度剖析新技术形式颠覆性专利的核心特征,构建有效的测度指标体系;最后,利用深度学习DNN模型拟合专利指标和颠覆性专利标签之间的关联关系,从而实现从大量的新技术专利中对潜在颠覆性专利的有效预测。[结果/结论 ]以人工智能为例,验证了该方法的有效性。结果共预测出411条颠覆性专利,这些专利主要涉及六大颠覆性方向:多模态预训练大模型、增强现实、生成式AI、自动驾驶、图像识别与处理和智能通信。这些技术的推广和应用,将对未来的科技和... 相似文献
7.
机器学习是人工智能的重要分支,TensorFlow是谷歌第二代开源人工智能机器学习平台。此文重点介绍机器学习(主要是深度神经网络)的基本原理和利用TensorFlow进行机器学习的基本方法,探讨在图书馆领域应用的可能和场景。以《全国报刊索引》的自动分类问题作为实验对象,利用两台图形工作站,建立了TensorFlow深度学习模型,通过设定参数和阈值、系统调优等工作,实践了应用TensorFlow的完整过程,论证了其可行性。实验通过对170万余条题录数据进行训练和测试,克服了报刊索引数据过于简单与中国图书馆分类法的类目过于细致之间的矛盾,实现了大类近80%和四级分类总体近70%的准确率(其中TP类达到91%),得出基本可代替人工分类流程的结论,为全国报刊索引的分类流程的半自动化提供有力工具,从而可望大大节省人力成本。下一步将继续利用TensorFlow的优化功能,结合更多的字段属性,进行系统调优,力争做到自动分类90%以上的准确率。 相似文献
8.
9.
[目的/意义]颠覆性技术关乎国家竞争力和国际地位,科学准确地识别出颠覆性技术主题,能够解决技术发展过程中主题不够明确、发展路径不够清晰等问题,以此有效把握技术发展动态,调整国家科技战略布局,更好地抢占国际竞争制高点。[方法/过程]以能源科技领域的专利文本数据为研究客体,构建基于Word2Vec词向量与LDA(Latent Dirichlet Allocation)主题向量的融合特征向量,并引入K-means算法优化主题聚类效果,最后结合颠覆性技术特征指标,识别颠覆性技术主题,利用DTM(Dynamic Topic Model)模型揭示该领域颠覆性技术主题的发展状况。[结果/结论]通过人工验证和模型结果对比可以发现,实证结果具有合理性,且模型的精准率、召回率、F1值均高于同类型的主题模型,证明该方法对颠覆性技术主题识别具有较好效果。 相似文献
10.
在深入分析NSTL篇级元数据特点的基础上,结合模糊匹配算法,提出一种适合NSTL现有数据的人名消歧规则集,并给出基于该规则集的人名消歧算法。通过对实际数据集的实验,该算法在准确率、召回率等指标方面都有良好的表现,具备较好的消歧效果。 相似文献
11.
12.
13.
14.
基于领域本体的专利信息检索系统研究与实现 总被引:1,自引:0,他引:1
针对传统信息检索方法在当今网络信息环境下所面临的问题,提出基于领域本体的专利信息检索模型,从用户检索请求处理、本体构建、本体可视化与语义扩展、检索及存储的过程和技术实现进行研究,并开发一个基于服装领域本体的专利信息检索原型系统。比较测试表明,该模型在确保信息检索准确性的同时能够极大地提高其全面性。 相似文献
15.
专利检索是一个非常复杂的过程,用户为了迅速高效地完成检索任务需要得到支持。专利检索过程的许多环节可以借助一些工具完成,其中就包括查询(式)构造工具。查询构造是一项高度依赖人工的任务,工具只能实现对可能有用数据进行预先计算,并针对用户进行可视化。信息检索系统中,查询过程和查询结果可视化的方式有很多。本研究提出了两种典型的原型系统设计,用于在专利检索过程中对不同的查询表达式进行比较。原型包含查询表达式构造因素和结果集大小因素,两种因素对于专利领域专家探究查询表达式的调整对检索效率的影响至关重要。本文开发的系统有助于在专利检索过程中对复杂查询表达式进行逐步优化,系统设计思想基于了领域专家型知识工程。 相似文献
16.
基于深度学习的中文专利自动分类方法研究 总被引:2,自引:0,他引:2
[目的/意义] 面向当前国内专利审查和专利情报分析工作中对于海量专利分类的客观需求,设计了7种基于深度学习的专利自动分类方法,对比各种方法的分类效果,从而助力专利分类效率和效果的提升。[方法/过程] 针对传统机器学习方法存在的缺陷,基于Word2Vec、CNN、RNN、Attention机制等深度学习技术,考虑专利文本语序特征、上下文特征以及分类关键特征,设计Word2Vec+TextCNN、Word2Vec+GRU、Word2Vec+BiGRU、Word2Vec+BiGRU+TextCNN等7种深度学习模型,以中国专利为例,选取IPC主分类号的"部"作为分类依据,对比这7种模型与3种传统分类模型在中文专利分类任务中的效果。[结果/结论] 实证研究效果显示,采用考虑语序特征、上下文特征及强化关键特征的深度学习方法进行中文专利分类具有更优的分类效果。 相似文献
17.
[目的/意义]面向专利文本进行更细粒度的技术实体识别和技术预测,利于更详细地把握专利技术布局与趋势。[方法/过程]首先利用深度学习方法自动识别专利技术术语类实体,通过实验对比多组深度学习算法的优劣。其次,提出新的半监督标注和自定义标注方案,提高人工标注效率。最后,执行训练得到的最优模型,结合链路预测方法,对合成生物技术进行细粒度的技术预测。[结果/结论]实证结果表明RoBERTa-BiLSTM-CRF模型更适用于语义复杂的专利技术实体识别,F1值可达到86.8%,技术识别结果比传统IPC分析方法更精细。同时,细粒度的技术预测结果表明,合成生物学的合成方法在不断改进创新,合成物研究向合成燃料发展。 相似文献