首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
[目的/意义]颠覆性技术关乎国家竞争力和国际地位,科学准确地识别出颠覆性技术主题,能够解决技术发展过程中主题不够明确、发展路径不够清晰等问题,以此有效把握技术发展动态,调整国家科技战略布局,更好地抢占国际竞争制高点。[方法/过程]以能源科技领域的专利文本数据为研究客体,构建基于Word2Vec词向量与LDA(Latent Dirichlet Allocation)主题向量的融合特征向量,并引入K-means算法优化主题聚类效果,最后结合颠覆性技术特征指标,识别颠覆性技术主题,利用DTM(Dynamic Topic Model)模型揭示该领域颠覆性技术主题的发展状况。[结果/结论]通过人工验证和模型结果对比可以发现,实证结果具有合理性,且模型的精准率、召回率、F1值均高于同类型的主题模型,证明该方法对颠覆性技术主题识别具有较好效果。  相似文献   

2.
[目的/意义]随着战略型新兴技术产业的迅猛发展,如何识别具有潜在协同效应的技术创新组合、厘清组合中核心的创新关系,是有效规划产业发展路线、提升产业竞争优势的重要前提。[方法/过程]在技术组合进化理论的指导下,结合深度学习、SAO语义挖掘和CFDP算法,提出一种基于专利数据的技术创新组合与演化关系的识别方案。该研究方案共分为3个步骤:首先基于关键词与专利分类号构建领域检索策略,并实现对获取数据的清洗和分词。随后,通过Word2Vec构建领域技术主题的词向量语义网络,并利用CFDP算法识别出潜在创新要素及组合方式。最后,深入挖掘各组合中核心的SAO结构,通过LSTM深度学习算法对其演化关系进行分类,挖掘技术的核心创新方式,进而有效甄别领域潜在的技术机会。[结果/结论]以语音识别领域为例,通过对该领域DII专利文本数据的深入挖掘,识别并追踪5个潜在的技术创新组合及核心创新方式。研究发现,当前我国语音识别领域在智能芯片设计、语音识别算法、新场景和应用等方面有较大的创新潜力。  相似文献   

3.
[目的/意义] 在科学研究中,从不同来源的科技文献中识别挖掘科研热点对于开展科研工作具有指导意义。旨在通过本研究提出的模型方法,快速准确地识别蕴含在多源文本中的热点主题,为科研创新提供支撑服务。[方法/过程] 提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。以机器学习领域的科技文献为例,利用模型困惑度和主题一致性两个指标对LDA2vec的在本领域应用的可行性和有效性进行验证,并与LDA的主题提取效果进行对比。[结果/结论] 实验结果表明,提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的,且在一定程度上有效果的提升,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。  相似文献   

4.
[目的 /意义]技术机会识别是企业技术创新活动得以顺利开展的重要前提,及时发现和把握有价值的技术机会对技术创新突破意义重大。[方法 /过程]从主题挖掘与专利评估的视角提出一种技术机会识别方法,首先应用主题模型识别技术领域涵盖的技术主题并进行专利聚类;其次在技术主题层面展开细粒度分析,综合考虑技术机会应具备前沿性、价值性和时效性的重要特性,采用突变级数法和离群因子算法评估技术主题中的高价值专利和离群专利形成核心专利集,并计算每个技术主题的专利平均年龄;最后,将技术主题中的核心专利占比和专利平均年龄作为核心指标绘制技术机会识别地图,用于识别技术机会。[结果 /结论 ]以智慧农业领域为例,对所提方法进行实证,识别智慧农业领域的5个技术机会,为创新主体的技术研发提供决策支持。但识别结果的定量验证以及融合多源数据进行技术机会识别有待进一步探索。  相似文献   

5.
[目的/意义] 改善现有LDA专利技术主题分析存在的辨识度低、可解释性弱和界限划分模糊问题,对于把握技术热点、追踪技术前沿具有重要意义。[方法/过程] 将国际分类号IPC引入LDA专利主题分析中,将其作为技术词的语境,以<词/词组,分类号>二元组的WI (Word IPC)结构进行训练,构建WI-LDA模型,实现对专利文献主题的识别和分析。[结果/结论] 通过中国石墨烯领域的实证研究及与传统LDA模型的对比研究证明,WI-LDA模型泛化能力较强,在专利技术主题分析上能有效降低主题的辨识难度,增加主题的可解释性,使文本主题划分更加清晰。  相似文献   

6.
基于深度学习的中文专利自动分类方法研究   总被引:2,自引:0,他引:2  
[目的/意义] 面向当前国内专利审查和专利情报分析工作中对于海量专利分类的客观需求,设计了7种基于深度学习的专利自动分类方法,对比各种方法的分类效果,从而助力专利分类效率和效果的提升。[方法/过程] 针对传统机器学习方法存在的缺陷,基于Word2Vec、CNN、RNN、Attention机制等深度学习技术,考虑专利文本语序特征、上下文特征以及分类关键特征,设计Word2Vec+TextCNN、Word2Vec+GRU、Word2Vec+BiGRU、Word2Vec+BiGRU+TextCNN等7种深度学习模型,以中国专利为例,选取IPC主分类号的"部"作为分类依据,对比这7种模型与3种传统分类模型在中文专利分类任务中的效果。[结果/结论] 实证研究效果显示,采用考虑语序特征、上下文特征及强化关键特征的深度学习方法进行中文专利分类具有更优的分类效果。  相似文献   

7.
[目的/意义]专利相似度检测(Similarity Measurement)可从宏观上辅助制定国家创新战略规划,发现国内外的热点及应对其他国家的专利流氓,从微观上为专利发明人、专利审查员、专利权人提供辅助支撑。[方法/过程]提出基于深度学习的Doc2Vec专利相似度分析方法,基于未进行清洗的专利语料库,采用深度学习的Doc2Vec模型,随机挑选了专利,研究了专利相似度检测问题,并和传统的相似度检测模型进行对比研究。[结果/结论]实验结果表明,基于深度学习的Doc2Vec模型和TF-IDF模型对于处理不做数据清洗的专利语料的结果有相近性,该方法对分析人员的专利领域知识要求较低,不需要对专利数据进行基于专利领域知识的数据清洗,同时可为专利侵权、专利查新提供新的智能工具支撑,降低研究门槛和工作量,提升研究效率。  相似文献   

8.
[目的/意义]随着信息资源在数量和种类上的急剧增长,学科间的交叉融合不断涌现,快速主动地从海量信息资源中识别和判断研究主题的发展演化是实现科技创新的基础。[方法/过程]在相关理论调研的基础上,结合医学领域的资源特点,提出一种基于LDA模型的主题演化探测模型和相应的流程步骤。主要步骤包括医学主题词抽取、主题识别、主题关联、关键主题识别、关键主题的演化主路径识别、演化主路径上主题分裂、融合事件识别,实现深度、细致的主题演化分析。[结果/结论]选用乳腺癌治疗研究文献为实验案例,对判断模型进行试验并对结果进行分析验证,证实提出的技术方法具有一定的可靠性。  相似文献   

9.
[目的/意义]改善现有专利技术主题分析方法主题辨识度低、主题词二义性、无法识别技术信息中的"问题"与相应"解决方案"等问题。[方法/过程]本文通过抽取专利文本中的SAO结构,并从SAO结构中识别"问题和解决方案"(P&S)模式,基于"bag of P&S"假设,构建基于"主语-行为-宾语"(subject-action-object,SAO)结构的LDA主题模型,实现对专利文献主题结构的识别和分析。[结果/结论]案例研究表明,该方法能够有效识别主题分布,并在主题辨识度和语义消岐方面较传统LDA模型具有较大优势。  相似文献   

10.
俞琰  赵乃瑄 《图书情报工作》2018,62(11):120-126
[目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果/结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。  相似文献   

11.
[目的/意义]基于大量专利文献数据的核心技术主题识别有助于识别某技术领域的关键技术、分析关键技术的发展方向,是进行技术创新的基础情报工作,对于研究人员、企业乃至国家层面都具有一定的意义。[方法/过程]提出基于Chunk-LDAvis的核心技术主题识别方法,首先基于经典LDA模型进行主题识别,然后利用名词组块对初始LDA主题识别结果进行标注,构建Chunk-LDA主题识别结果,提高其可解读性;然后基于社会网络分析方法构建主题网络,识别核心技术主题;基于R语言的LDAvis工具包绘制可交互的Chunk-LDAvis核心技术主题关联分析图谱,发现核心技术主题的隐含联系,辅助进行核心技术主题识别。[结果/结论]通过对纳米农业领域进行实证研究,验证了本文提出方法的准确性和可行性。  相似文献   

12.
[目的/意义]分析技术主题演化过程可以梳理技术发展脉络,对于发展创新、预测技术发展趋势具有重要意义,但是从语义角度分析技术主题演化轨迹的研究较少。因此,从语义的角度出发,分析技术主题演化过程。[方法/过程]提出基于非负矩阵分解的改进的动态非负矩阵分解模型对专利文本进行动态主题建模,并利用TextRank算法抽取名词短语进行标注,增强所抽取技术主题的可解释性。在此基础上,利用词向量的方式计算技术演化轨迹,并进行可视化展示。[结果/结论]对2002年、2005年、2008年、2011年和2014年的五方专利进行实证分析,识别出65个技术主题及其演化轨迹,表明方法的可行性。  相似文献   

13.
[目的/意义]基于当前技术演化分析方法的发展现状,提出一种能够在微观层次上突出既定领域中主要技术发展脉络的多主路径方法。[方法/过程]将专利文本挖掘和动态规划方法应用于专利引文网络,以路径上所有专利对的语义相似度总和最优作为启发策略进行路径搜索,以获取若干能够分别聚焦于特定主题的主路径,供研究者总览既定技术领域中主要技术主题的发展脉络及其相互关系。[结果/结论]实证结果表明,将该方法应用于硬盘驱动器磁头领域,可以有效抽取其中主要技术主题的演化轨迹。  相似文献   

14.
[目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本文的情感分析模型;然后,通过计算各词汇在图模型TextRank中的重要性与各词汇的Word2Vec主题相似度,抽取情感关键词与关键句,用于对文本主题与情感倾向的解释与补充;最后,对上述方法进行集成,输出结构化的主题知识元。[结果/结论]实验结果中,抽取得到的主题知识元合格率达到69.1%,表明本文提出的主题知识元抽取方法,能够围绕知识主题较为准确地抽取知识元,实现知识的结构化转换。  相似文献   

15.
[目的/意义]为全面、客观、高效、直观地掌握科技领域主题的发展规律和演变趋势,提出一种基于多源数据的领域主题演化路径识别和分析框架。[方法/过程]获取不同来源的科技文献数据,利用多维样本有序聚类方法辅助时间切片,基于改进的词袋构建方法,提升LDA模型主题识别效果,借助Louvain社区发现算法在主题层进行多源数据的融合,分析领域主题演化路径。[结果/结论]利用美国太赫兹研究领域基金项目、论文和专利3种来源的数据进行实证研究,结果表明,3种数据源能够清晰划分出4个时间窗口,改进的词袋构建方法能够表征更准确的领域信息内涵,主题社区有助于从多源数据复杂的演化网络中厘清主题演化脉络。  相似文献   

16.
[目的/意义] 立足计量视角,通过对新兴技术特征的量化评价识别“目前处于科学研究阶段、尚未完全进入产业研发落地”的新兴技术。[方法/过程] 借助Node2Vec网络表征方法,从术语共现网络中学习技术术语的向量表示;以此为基础量化新兴技术“过去、现在及未来”三大时间维度特征-“融合性、新颖性及潜在的科学影响力”,用特征值筛选技术主题是否具有新兴性,由此探索得到向量表征视角下的新兴技术识别模型。最后以航空领域为例进行实证研究,验证该方法的科学性和合理性。[结果/结论] 通过引入“术语向量表征”的计算视角,有效编码了术语实体间显性和隐性的关联关系,提升了新兴技术特征计算的客观性;同时结合技术的历史、当前和预测信息,从网络结构和语义特征两方面进行识别,取得了较好的效果。  相似文献   

17.
[目的/意义]突破性创新对科技发展具有关键作用。大数据环境下,科学技术发展本身所具有的复杂、多维、不断进化等特征越发凸显。以动态视角进行突破性创新主题识别,对于为国家、企业及高校详析突破性创新领域、合理配置创新资源以及提供创新升级解决方案具有重要意义。[方法/过程]综合运用主题模型、词嵌入算法以及复杂网络分析等方法构建动态主题网络,全面考量主题在时间窗口内的结构特性以及时间窗口间的演化状态,并以其为基础结合突破性创新的新颖性、突变性、影响力和学科交叉性特征识别突破性创新主题。[结果/结论]面向区块链领域展开实证研究,识别出神经网络(Neural Network)和边缘计算(Edge Computing)两个主题的突破性创新特征最为显著。结合区块链现有研究及美国国家科学技术委员会发布的关键和新兴技术清单,验证了本文方法的可行性和有效性。但有关结果的定量验证,以及融合多源数据的突破性创新主题识别有待进一步研究。  相似文献   

18.
[目的/意义]面向专利文本进行更细粒度的技术实体识别和技术预测,利于更详细地把握专利技术布局与趋势。[方法/过程]首先利用深度学习方法自动识别专利技术术语类实体,通过实验对比多组深度学习算法的优劣。其次,提出新的半监督标注和自定义标注方案,提高人工标注效率。最后,执行训练得到的最优模型,结合链路预测方法,对合成生物技术进行细粒度的技术预测。[结果/结论]实证结果表明RoBERTa-BiLSTM-CRF模型更适用于语义复杂的专利技术实体识别,F1值可达到86.8%,技术识别结果比传统IPC分析方法更精细。同时,细粒度的技术预测结果表明,合成生物学的合成方法在不断改进创新,合成物研究向合成燃料发展。  相似文献   

19.
[目的/意义]衍生性网络健康谣言生成门槛低,周期性强,危害影响深远,是网络健康谣言识别与治理中需要优先解决的重点问题之一,也是重要突破口。[方法/过程]借助深度语义表征和聚合方法,探索衍生性网络健康谣言文本内容的六要素特征;通过结合网络健康谣言的分布式语义特征预训练模型,构建包括六个类别、6287个词汇的网络健康谣言文本内容要素词库;在将健康谣言标题特征、内容文本六要素特征以及主体内容文本特征进行统一的向量空间表示与融合后,构建面向多源文本特征融合的网络健康谣言识别模型。[结果/结论]模型的实证研究表明:与已有的对照模型相比,本文所提出的文本特征融合模型使衍生性网络健康谣言识别的准确率有较好的提升,且丰富的可拓展健康谣言要素词库可为后续的研究提供较好的资源支持。  相似文献   

20.
[目的/意义] 专利技术相关性研究对专利分析、专利管理等意义重大。综述专利技术相关性研究的典型方法,并进行客观分析和评价,以期为进一步研究提供新的思路。[方法/过程] 在界定专利技术相关性概念的基础上,对专利技术相似性和专利技术互补性的研究方法进行调研、归纳与分析,评述该领域的研究现状,提出未来可能的研究方向。[结果/结论] 专利技术相似性的研究方法可分为基于专利分类、专利引证和文本挖掘3种,且各自有其优势和局限;当前专利技术互补性研究比较薄弱,研究方法有待丰富;专利技术相似性和互补性的协同研究不足;专利技术相关性的应用范围有待进一步扩展。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号