共查询到16条相似文献,搜索用时 296 毫秒
1.
基于专利的弱信号探测模型与技术颠覆性潜力测度体系相结合的方法,开展颠覆性技术早期识别,为颠覆性技术的早期识别提供一套有效的方法和思路。利用专利信息进行领域弱信号探测,利用LDA (latent Dirichlet allocation)主题模型从领域专利内容中抽取主题,基于弱函数对主题进行过滤得到包含弱信号的主题集合,进一步通过预兆函数对弱信号主题包含的术语进行过滤,得到该研究领域弱信号术语集合及其对应的专利集合。基于技术颠覆性潜力测度指标体系,对包含弱信号术语的专利进行颠覆性潜力测度,最终得到目标领域具有颠覆性潜力的技术,为该领域颠覆性技术的早期识别提供参考。以incoPat专利数据库中2008—2019年基因编辑领域的专利数据作为研究对象,结合弱信号探测模型与技术颠覆性潜力测度体系,对该领域具有颠覆性潜力的技术进行早期识别,通过与基于关键词识别的弱信号结果对比,并利用CRISPR/Cas9技术对上述颠覆性技术识别结果进行验证,证明了本文方法的可行性和有效性。 相似文献
2.
专利术语抽取是专利文献信息抽取领域的一项重要任务,有助于专利领域词表的构建,有利于中文分词、句法分析、语法分析等工作的进行。文章通过分析专利术语的特点并制定相应的语料标注规则进行人工标注,采用条件随机场(conditional random fields,CRFs)对标注后的数据进行训练和测试,实现了通信领域的术语抽取。标注方法采用基于字的序列标注,精确率、召回率和F值分别达到80.9%、75.6%、78.2%,优于将词和词性等信息作为特征的方法,表明所提出的专利术语抽取方法是有效的。 相似文献
3.
4.
专利技术术语的抽取方法 总被引:2,自引:0,他引:2
针对专利中缺少技术关键词的问题,在对主要的术语抽取方法研究的基础上,引入C-value方法,修改了术语构词规则和术语度(termhood)计算公式,用PC-value值测量一个词语的术语度,提出了专利技术术语抽取的流程模型,实现了从专利中抽取技术术语.该模型分为四个阶段:①分词和词性标注; ②运用语言学规则取得可能术语列表; ③计算词语的术语度值,取得候选术语列表; ④领域专家评估并确定术语.实验结果证明,提出的方法能很好地抽取中文专利技术术语,在长术语的抽取和抽取精度上比C-value方法更具有优势. 相似文献
5.
本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集.通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4~6字符双词术语抽取的效果尤佳,准确率接近100%. 相似文献
6.
自动术语识别——对科技文献进行文本挖掘的重要技术方法* 总被引:3,自引:0,他引:3
自动术语识别是知识抽取和文本挖掘等信息技术中的关键步骤。研究现有自动术语识别的主要思路,明确其中的关键问题,研究已有的相关项目和系统的术语识别方法,并分析现有的一些术语资源。借此丰富基于术语识别的文本挖掘理论和方法,为进一步构建相关试验系统提供良好借鉴。 相似文献
7.
[目的/意义]针对专利主题分析中以词为基本单位会造成专利中的多词术语难以被识别、主题模型结果不佳的问题,提出融入术语的专利主题发现模型,以解决该问题。[方法/过程]模型首先引入类别熵,有效地识别出专利文献中的术语;然后利用泛化波利亚瓮模型增加语义相似术语分配到同一主题的概率,以缓解术语作为基本主题模型分析单位所带来的数据稀疏性问题。[结果/结论]实验结果表明本文提出的模型包含的术语信息提高了主题生成的质量,使主题表示具有更强的可读性和主题判别性。 相似文献
8.
针对Deep Web信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用Deep Web信息资源的目的。 相似文献
9.
[目的/意义]针对中文专利候选术语选取方法存在需要对不同的数据集分别制定不同的模式匹配规则、专利术语抽取准确性不高等问题,本文提出基于依存句法分析的中文专利术语选取方法,以提高中文专利术语抽取准确性。[方法/过程]主要包括依存句法分析、剪枝、生成依存子树等三个主要步骤。首先对中文专利进行依存句法分析,得到依存树,对依存树进行剪枝,去除不符合要求的依存关系,生成依存子树,从中选取连续词串作为候选术语,以抽取中文专利术语。[结果/结论]实验结果表明,与已有的中文专利候选术语选取方法相比,本文提出的基于依存句法分析的中文候选术语选取方法能够有效地提高中文专利术语抽取的准确性。 相似文献
10.
技术机会发现(TOD,Technology Opportunity Discovery)是面向新技术进行监测,并提供机会的一种服务;所谓“基于专利的信息”是指采用自然语言技术对专利进行抽取的结果。本研究的目标资源覆盖过去20年间发表的所有专利,目标信息则是其中产品名称及其部分-整体关系(Part-of relations)。应用基于词典和相似度的命名实体识别、基于模式的关系抽取、以及基于机器学习的信息过滤几项技术,本研究取得了令人鼓舞的效果。 相似文献
11.
12.
[目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果/结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。 相似文献
13.
14.
面向信息检索的词汇知识发现 总被引:1,自引:0,他引:1
针对信息检索中词汇知识发现问题,提出面向信息检索的词汇知识发现框架结构,对面向信息检索的词汇的定义、同义词、相关词、排除词等词汇知识获取与挖掘进行详细的介绍,为后续的语义检索研究打下基础。 相似文献
15.