首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
LDA模型在专利文本分类中的应用   总被引:1,自引:0,他引:1  
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。  相似文献   

2.
[目的/意义]探索不同社会科学学科间差异,支持学科建设、科技检索服务,进一步完善文献学科的分类体系。[方法/过程]基于多种深度学习模型和预训练语言模型构建社会科学文献学科分类器,利用CSSCI目录中的20多个一级学科中近350万篇文献构成的数据集进行实验;利用Sentence-BERT输出摘要句子向量并进行层次聚类,根据聚类结果划分学科组,并计算模型对于不同学科组的分类性能以缓和学科交叉的影响;利用模糊准确性指标输出模型对每条记录输出的前N个高概率学科以弥补原有学科分类的局限性。[结果/结论]在“摘要+标题”上使用深度预训练语言模型取得最佳性能;基于层次聚类所得的学科组进行的分类较单一学科性能有所提升;模型的模糊准确性在N=3时能够达到96%。[局限]未考虑从全文文本上获取更丰富的文献学科特征进行自动分类。  相似文献   

3.
[研究目的]为提高人工分类效率,降低因分类人员主观知识结构和客观环境因素影响导致的分类错误率,本研究构建了基于层次分类器的专利文本分类模型。[研究方法]随机抽取A、D、E、H4个部中的4000条中文发明专利,以其名称和摘要数据为实验对象,通过文本预处理及文本特征表示后,基于KNN、支持向量机、Rocchio和朴素贝叶斯4种机器学习模型,分别探索IPC部、大类、小类和大组层次上的最佳分类模型及其组合。[研究结论]实验结果显示,层次结构可有效改善平面分类模型的性能,层次组合模型比层次单一模型拥有更高的分类准确率,各层次的最优分类模型分别是:支持向量机(部)、Rocchio+支持向量机(大类)、Rocchio+朴素贝叶斯+支持向量机(小类)、KNN+朴素贝叶斯+支持向量机+支持向量机(大组)。  相似文献   

4.
[目的/意义] 运用概率主题模型全面研究专利文献主题演化,分析专利技术发展过程及趋势。[方法/过程] LDA模型按时间窗口对专利文本建模,困惑度确定最优主题数,按专利文本结构特性提取主题向量,采用JS散度度量主题之间的关联,引入IPC分类号度量技术主题强度,最后实现主题强度、主题内容和技术主题强度3方面的演化研究。[结果/结论] 实验结果表明:该方法能够深入挖掘专利文献的主题,可以较好地分析专利技术随时间的演化规律,帮助相关从业人员了解专利技术的演化过程及趋势。  相似文献   

5.
[目的/意义]专利引文分析是专利分析研究的重要内容。传统专利引文分析仅分析专利文献中明确标示的物理引用专利数据,不能够准确真实反映专利之间的引用关系,难以准确揭示专利之间的技术相似度。专利语义引用识别有利于准确真实揭示专利间的潜在语义联系,为专利的继承与创新评价提供参考,有助于专利授权前的专利审核和专利授权后的专利评价。[方法/过程]首先,基于规则和句法分析抽取了专利的特征知识元;其次,利用Sentence-BERT和Word2Vec对专利特征知识元及专利标题摘要文本进行向量化表示;再次,根据余弦相似度计算专利的特征相似度和整体相似度,结合专利申请日期的先后顺序得到专利的语义引用专利集;最后,采用量子计算领域专利数据进行了实验研究。[结果/结论]该专利语义引用识别方法能够实现语义引用专利的有效识别,有利于评价专利的技术新颖性、创造性和实用性,为专利审核和专利价值评估工作提供支持。  相似文献   

6.
[目的/意义]科学准确识别关键共性技术对企业和国家来说都是至关重要的战略议题。[方法/过程]文章提出了一种基于专利文献分析的关键共性技术识别框架,运用文本挖掘和技术演化分析方法,获取特定领域的关键共性技术。首先,使用Viterbi算法识别专利文献中的专业术语,通过LDA算法捕捉专利文献中的技术主题聚类;其次,通过将技术主题的共类特征数值化,作为共性程度的度量;随后,将技术主题节点在技术演化转移网络中的关键程度作为技术关键性的表征,并使用PageRank算法衡量技术主题的关键性。最后,以机器人及数控机床技术为例,验证了该方法的可行性和有效性。[结果/结论]该方法可实现高效、准确的关键共性技术识别,为国家制定创新扶持政策提供支撑。[局限]研究仍需扩大科技文献的收集范围,以实现更全面的关键共性技术识别。  相似文献   

7.
[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。  相似文献   

8.
[研究目的]专利是技术信息的载体,以专利数据为研究对象,在产业链视角下进行技术主题提取及识别,从专利数据中识别新兴技术可以有助于把握新兴技术的发展动态。[研究方法]首先,根据产业链的概念和专利IPC分类号构建出产业链各个层级对应的专利集;然后,结合专利文本的特点提出EW-LDA主题模型,从词汇权重和语境两个角度对LDA主题模型进行改进,使用EW-LDA模型提取出产业链的各个层级中得技术主题;最后,根据专利文本及新兴技术的特点,从新颖度、热点度、关注度和增长率四个方面入手构建新兴技术主题识别指标,将技术主题分为新兴、热点、潜在、衰退和噪音五类。并在人工智能领域的专利数据上进行实验。[研究结论]结果表明,提出的EW-LDA主题模型具有更好的主题建模效果,产业链视角下的新兴技术主题识别方法可以有效的识别出新兴技术。  相似文献   

9.
[目的/意义]专利关键词提取是专利挖掘任务中非常重要的前置子任务,基于图模型的关键词提取是目前最有效的算法。传统图模型只考虑了单词的局部上下文信息,为了捕获单词的全局信息,提出一种基于图神经网络的专利关键词提取算法,结合词向量与图模型实现专利关键词的提取。[方法/过程]首先,用专利数据集构建异构网络,以专利分类号为标签,训练图神经网络模型,使得同一主题下的单词具有相似的向量表示,获取包含主题信息的词向量;然后,根据专利摘要在滑动窗口内的单词共现关系和词向量相似度,构建融合了单词主题信息的文本图,利用词向量中的主题信息捕获单词的全局联系;最后,在文本图上使用PageRank算法,获取关键节点,构成专利的关键词。[结果/结论]与基线方法相比,该算法在提取专利关键词时,能够检测到新颖性与准确性更高的关键词。  相似文献   

10.
[目的/意义]金融科技包括的技术主题及范围边界并不清晰,使得“IPC分类号+关键词”的传统专利检索和分类方法效果不佳,需要针对跨领域专利数据的分类及识别流程进行研究。[方法/过程]构建了一套结合文本挖掘、层次聚类、置信学习和自然语言处理等技术的方法流程,能够直接从专利说明书中获取分类体系并形成相应分类模型。[结果/结论 ]提出一种构建跨领域专利分类体系及自动识别方法的流程框架,形成了较为全面、客观的金融科技专利技术分类体系,以及较为准确高效的分类模型,并对国内金融科技专利的发展情况进行了分析。[创新/局限]未来可基于Bert等大规模预训练模型的Prompt Tuning方法,进一步降低人工参与成本并提升效率。  相似文献   

11.
基于文本聚类与LDA相融合的微博主题检索模型研究   总被引:1,自引:0,他引:1  
伴随着微博的日趋流行,对微博信息的检索逐渐成为人们获取第一消息的手段.其中文本聚类和主题发现是信息检索领域的有效方法,采用适当的方法是影响微博短文本信息检索质量的关键因素.文章针对文本聚类和LDA主题模型的互补特征,综合考虑了微博特殊文体和短文本聚类效率问题,提出了基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的微博检索方法,给出了针对微博文体的一种新的主题检索模型.实验表明,该方法不仅能有效地划分微博文本,并且能清晰地挖掘类簇中潜在主题.  相似文献   

12.
[研究目的]改进或丰富现有的颠覆性技术识别方法和相关实证研究,对于区域和企业创新战略规划,以及相关科技政策制定均具有积极的决策参考意义。[研究方法]在已有的颠覆性技术识别量化分析方法基础上,导入专利文本主题强度概念,通过主题强度变化来辅助识别技术演进中的热点主题,然后根据不同年份的时间序列数据,引入在水文和气象监测领域的BUT(Buishand U test)突变检测方法,并结合专利文本主题演进模式区分,提出了一个较新颖的颠覆性技术分析框架。[研究结论]在实证分析部分,将专利文本主题强度突变检测应用到了工业互联网领域,并识别出部分具有颠覆性潜力的技术主题,从而进一步丰富了当前有关颠覆性技术识别的方法体系。  相似文献   

13.
[研究目的]高质量专利对促进专利转化、技术追踪和战略布局十分重要,面对海量专利数据,如何准确高效自动识别高质量专利,为开展后续专利投资融资、产业转型等专利工作做基础铺垫,成为当前重要研究问题。[研究方法]以国家知识产权局受理的申请专利为研究对象,使用专利维持年限表征专利质量,提取专利数字特征并嵌入专利文本特征生成的专利-核心词汇网络,搭建图卷积网络模型自动识别高质量专利。[研究结论]目前针对专利质量的研究专注于挖掘专利数字特征而忽视专利文本特征,该方案在高质量专利自动识别过程中使用专利数字特征与文本特征,对当前专利质量研究做出补充。此外,所提方案可在专家标注少量专利文档情况下完成专利质量识别任务,解决现有专利质量标签标注方案无法全面衡量专利质量的局限。同时,将图卷积网络扩展到专利背景下的质量识别领域,为专利质量研究提供崭新框架,实验结果也显示方案具有较高实践价值。  相似文献   

14.
[目的/意义]为了实现从非结构化的在线评论中有效提取用户需求,文章提出了数据驱动下产品需求识别的方法。[方法/过程]利用Word2vec表示学习方法,获取评论文本内容的语义向量表示;结合K-means算法和LSA模型实现评论文本聚类,识别产品需求主题;在此基础上,通过网络分析方法探索需求主题间的关联关系。以华为手机的评论数据为例进行方法验证。[结果/结论]结果表明,基于语义的文本特征可以取得较好的聚类效果,与传统方法相比,CH指标和SC指标均得到显著提高,验证了该方法的有效性。研究方法和结果能够为企业产品创新和运营决策提供一定参考。[局限]样本数据集规模不够,缺少跨平台实验计算和比较。  相似文献   

15.
[目的]对国内外科技期刊文本与数据挖掘智能化研究进展进行阐述,为科技期刊文本与数据挖掘智能化发展探寻对策方案.[方法]采用文献分析法,检索 2019-2023 年英文数据库 Web of Science(SCIE、SSCI、ESI)、ScienceDirect、Elsevier及中国知网数据库中的科技期刊文本与数据挖掘智能化研究,梳理科技期刊文本与数据挖掘智能化的不同方向,并为科技期刊文本与数据挖掘智能化发展提供对策建议.[结果]目前国外科技期刊文本与数据挖掘智能化研究在选题策划、预印本、文献评估、同行评议以及模型探索和方法学等方面取得一定进展,我国中文科技期刊在文本与数据挖掘的智能化方面尚存在技术融合能力不足、出版实践不足、文本数据抓取不精准、智能算法和逻辑不完善等问题.应加强文本与数据挖掘基础布局,促进融合发展;鼓励出版实践研究,开展文本与数据深度挖掘;进一步构建完整的科技期刊文本与数据挖掘规则等.[结论]科技期刊文本与数据挖掘智能化发展可帮助科研工作者更快捷、更准确地获取大量的科技文献信息,为科研工作者提供更深入的思考和研究方向,但其技术应用方案仍需进一步研究探索.  相似文献   

16.
【目的/意义】文献的向量表示方法对文献主题聚合、聚类和分类等研究具有重要意义。基于二元共现信息 的潜在语义向量空间模型(CLSVSM)挖掘了文本信息中词与词之间的潜在语义关系,与文本向量表示的基本模型- 向量空间模型(VSM)相比很大程度上提高了文本聚类的精度。【方法/过程】为使CLSVSM能更优的提取文献的潜 在语义信息,本文在二元CLSVSM基础上进一步引入了三元共现信息,以深度挖掘文献的潜在语义,通过研究三元 共现矩阵的表示,三元共现频次和相对共现强度的计算方法,最终建立了加权共现潜在语义向量空间模型(加权 CLSVSM)。最后我们分别利用中、英文献数据对二元CLSVSM和加权CLSVSM两类模型进行了实验比较。【结果/ 结论】结果显示:新模型对英文文献的聚类效果与二元CLSVSM相当,但对中文文献主题聚类效果明显要优于二元 CLSVSM。  相似文献   

17.
李子彪  孙可远  陈迪  聂进  鲁雪 《情报杂志》2023,(7):147-153+44
[研究目的]识别具有科学可行性的技术创新机会,对企业降低研发失败风险和制定创新战略具有重要价值。[研究方法]该文提出一种融合式的识别科学可行的技术创新机会的方法。首先,选取GTM专利地图对专利数据进行文本挖掘可视化表达,识别技术空白并逆向解读;然后,对科学文献进行文本挖掘和ORCLUS聚类,获取科学知识主题;最后,通过TF-IDF向量的余弦相似值评估潜在技术机会与科学主题的相似性,筛选出科学可行的技术创新机会。[研究结论]对质子交换膜燃料电池进行了实证研究,识别出8项科学可行的技术创新机会,证明了该模型的有效性,可以为企业制定研发战略提供决策支持。  相似文献   

18.
为及时有效地识别潜在技术机会,采用文本挖掘和异常值检测的方法,提出一种基于专利文本的技术机会识别方法.首先采用文本表示模型Doc2vec技术对专利摘要进行建模,以更深层表征文本语义信息;然后利用基于密度的离群值检测算法,识别出具有潜在技术机会的专利方向;最后以深度学习领域潜在技术识别为例,构建专利检索式并收集458条专利文献作为数据集.实证结果总结出4类主题共10个潜在的技术机会,验证了该基于专利的技术机会识别方法的有效性,可为企业相应技术应用、研发和创新提供参考.  相似文献   

19.
[目的/意义]预测社科领域在未来有发展潜力的研究主题对于科研工作者寻找新的学科增长点和政府部门优化资源配置至关重要。文章提出一种基于语义表示和动态主题模型的社科领域新兴主题预测框架,以期丰富和完善主题预测研究的方法体系。[方法/过程]首先,使用BERT模型和UMAP算法对文本进行语义表示和向量降维,再通过动态主题模型对嵌入向量进行聚类,从而获得全局主题;其次,构建新兴主题指标计算公式,基于Neural Prophet模型和非参数检验方法预测新兴主题;最后,通过划分时间窗将全局主题细化为多个局部主题,以定位最近时间段的新兴词汇。[结果/结论]选取“人口老龄化”领域的学术论文和报纸进行实证研究,并采用资料验证法进行方法有效性分析,结果表明该方法能够快速准确地预测社科领域中的新兴主题。  相似文献   

20.
如何揭示具有颠覆性潜力的新兴技术形成过程中的技术性能渐进变化脉络和技术演化轨迹所具有的规律性特征,对于企业或国家来说是至关重要的研发战略议题。针对目前在新兴技术演化轨迹研究中存在的不足,即专利引文信息存在的滞后性且未反映专利文献中的非结构化文本内容,以及关键词不能深入反映专利文献表达的技术主题和揭示技术主题之间的关联关系等问题,在改进Subject-Action-Object(SAO)结构语义挖掘方法的基础上,提出基于SAO结构语义挖掘的新兴技术演化轨迹分析方法。该分析方法首先以专利文献为数据来源,利用文本挖掘方法抽取专利摘要中的SAO结构,构建基于SAO结构的"问题与解决方案"模型挖掘新兴技术专利文本中的语义信息;其次利用语义相似度算法对专利文本进行聚类,通过对新兴技术不同专利技术主题的SAO结构相似性来分析技术的形成与发展轨迹,揭示新兴技术形成过程中的技术性能渐进变化脉络和技术演化轨迹所具有的规律性特征。最后,用钙钛矿太阳能电池作为实证进行了研究,验证了该模型的可行性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号