首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 26 毫秒
1.
[研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法对专利文献摘要文本进行向量化表示;其次,对向量化矩阵进行数据降维,利用HDBSCAN方式寻找原始数据中的高密度簇;最后,识别类簇文本集合中的主题特征,并完成主题呈现。[研究结论]对比LDA主题模型、K-means、doc2vec等方法,本文的实验结果提高了主题划分的细粒度和精确度,获得了较好的主题一致性。如何采用fine-tune策略进一步提升模型的效果,是未来该方法进一步深入探索的方向。  相似文献   

2.
[目的/意义]通过实验分析不同特征提取算法对新闻文本聚类效果的影响。[方法/过程]选取搜狗实验室的搜狐新闻语料库以及澳大利亚广播公司2003-2017年间的新闻标题语料库,对TF-IDF、Word2vec以及Doc2vec三种单一特征,TF-IDF+Word2vec、TF-IDF+Doc2vec、Word2vec+Doc2vec以及TF-IDF+Word2vec+Doc2vec四种组合特征在K-means、凝聚以及DBSCAN算法上分别进行聚类分析,通过Purity以及NMI两个评测指标对聚类效果进行评价。[结果/结论]单类特征中三个特征的聚类质量呈Word2vec> TF-IDF> Doc2vec关系;组合特征中TF-IDF+Word2vec的效果最优。Word2vec在单一特征中的表现最优,其也是不同组合特征间差异的主要因素,特征组合是否可以提升聚类性能需基于多因素进行综合判定。  相似文献   

3.
[目的/意义]颠覆性技术具有前瞻性、突变性与革命性等特征,对于国家科技创新发展具有巨大的推动作用,在各国的科技研发体系中逐渐占有重要的战略位置。当前各国政策文本数量庞大、主题繁多,传统的情报分析方法难以实现大量政策跟踪与内容挖掘。通过大量政策文本进行主题抽取,可以快速了解其他国家在相关领域的政策倾向与关注焦点。[方法/过程]文章采用word2vec和LDA相结合的主题模型分析技术,对3个国家政府和组织官网公开的颠覆性技术相关的11686条政策文本数据进行主题抽取,通过对主题建模结果的解读,分析欧盟、英国、美国颠覆性技术相关政策文本的主题特征。[结果/结论]研究发现,这些国家和组织在颠覆性技术识别与政策支持方面已经有较为体系化的运转模式,同时对颠覆性技术在计算机科学、信息科学、生命科学、材料与能源、医疗、教育等领域内产生的影响给予了较高关注,且在近几年中普遍倾向于关注国际上达成共识的全球性问题。  相似文献   

4.
[研究目的]专利是技术信息的载体,以专利数据为研究对象,在产业链视角下进行技术主题提取及识别,从专利数据中识别新兴技术可以有助于把握新兴技术的发展动态。[研究方法]首先,根据产业链的概念和专利IPC分类号构建出产业链各个层级对应的专利集;然后,结合专利文本的特点提出EW-LDA主题模型,从词汇权重和语境两个角度对LDA主题模型进行改进,使用EW-LDA模型提取出产业链的各个层级中得技术主题;最后,根据专利文本及新兴技术的特点,从新颖度、热点度、关注度和增长率四个方面入手构建新兴技术主题识别指标,将技术主题分为新兴、热点、潜在、衰退和噪音五类。并在人工智能领域的专利数据上进行实验。[研究结论]结果表明,提出的EW-LDA主题模型具有更好的主题建模效果,产业链视角下的新兴技术主题识别方法可以有效的识别出新兴技术。  相似文献   

5.
[目的/意义] 运用概率主题模型全面研究专利文献主题演化,分析专利技术发展过程及趋势。[方法/过程] LDA模型按时间窗口对专利文本建模,困惑度确定最优主题数,按专利文本结构特性提取主题向量,采用JS散度度量主题之间的关联,引入IPC分类号度量技术主题强度,最后实现主题强度、主题内容和技术主题强度3方面的演化研究。[结果/结论] 实验结果表明:该方法能够深入挖掘专利文献的主题,可以较好地分析专利技术随时间的演化规律,帮助相关从业人员了解专利技术的演化过程及趋势。  相似文献   

6.
[目的/意义]定量化、可视化地分析、总结健康信息领域研究主题演化特征,有利于把握健康信息领域整体的发展现状与未来发展方向。[方法/过程]利用Node2vec算法和LDA主题模型,从内部文本和外部引文两个维度进行健康信息领域研究主题扩张与收敛程度计算,然后利用科学、严谨的数学模型对研究主题扩张与收敛时序变化数据进行跟踪建模,结合模型构建结果对健康信息领域几十年来研究主题的动态演化规律进行总结归纳。[结果/结论]研究发现,健康信息领域研究主题的发展演变过程呈现出以下规律:健康信息素养从对健康信息的认可到利用再到评价的变化趋势,健康信息需求从专业集中性、单一被动性到多主体性、多层次性的变化趋势,健康信息行为从搜寻性到传播性再到评价性的演变趋势等。  相似文献   

7.
[目的/意义]为提高主题建模结果的可读性,解决主题标注过程中主观性强、可解释性弱的问题,引入本体和关联规则构建频繁语义模式。[方法/过程]以肿瘤靶向治疗专利数据为研究对象,首先构建LDA2vec模型挖掘主题;然后考虑主题词的语义与共现,将UMLS本体与FP-growth关联规则相结合,得到频繁语义模式的主题标注;最后将结果与Canopy方法对比评估。[结果/结论]实证结果显示,基于频繁语义模式的标注能够从统计和语义的角度概括主题含义,在主题标注工作中效果更佳。  相似文献   

8.
为及时有效地识别潜在技术机会,采用文本挖掘和异常值检测的方法,提出一种基于专利文本的技术机会识别方法.首先采用文本表示模型Doc2vec技术对专利摘要进行建模,以更深层表征文本语义信息;然后利用基于密度的离群值检测算法,识别出具有潜在技术机会的专利方向;最后以深度学习领域潜在技术识别为例,构建专利检索式并收集458条专利文献作为数据集.实证结果总结出4类主题共10个潜在的技术机会,验证了该基于专利的技术机会识别方法的有效性,可为企业相应技术应用、研发和创新提供参考.  相似文献   

9.
[目的/意义]为提高新兴技术主题识别的全面性、准确性,在专利、论文信息的基础上,融入舆情信息,提出一种复合型的新兴技术主题识别方法,以期能为微观层面新兴技术主题识别方法的研究提供参考。[方法/过程]面向专利、期刊论文、学位论文、会议论文、舆情共5种不同的科技文献类型,运用LDA模型从多源异构文本中获取主题词,并进行融合分析,提取候选新兴技术主题;设计识别指标体系,弥补现有指标体系缺乏未来前景相应指标的不足;运用CRITIC法进行综合评价,确定最终的新兴技术主题。[结果/结论]以智能网联汽车为实验对象,成功识别出多传感器融合信息技术这项新兴技术,实验结果与业界分析保持一致,说明多源信息视角下的多指标新兴技术主题识别方法能有效地对多源异构文本开展新兴技术的主题识别。  相似文献   

10.
[目的/意义]对比论文数据和专利数据的特征指标,识别热点、新兴、潜在和消亡研究前沿主题.[方法/过程]利用LDA主题模型,对智能汽车领域相关的论文数据和专利数据进行主题提取,计算两个数据源下各主题的强度和主题新颖度并进行对比分析.[结果/结论]本文识别出路径规划技术等热点研究前沿6个、智能计算等新兴研究前沿2个、安全认...  相似文献   

11.
[目的/意义]科学准确识别关键共性技术对企业和国家来说都是至关重要的战略议题。[方法/过程]文章提出了一种基于专利文献分析的关键共性技术识别框架,运用文本挖掘和技术演化分析方法,获取特定领域的关键共性技术。首先,使用Viterbi算法识别专利文献中的专业术语,通过LDA算法捕捉专利文献中的技术主题聚类;其次,通过将技术主题的共类特征数值化,作为共性程度的度量;随后,将技术主题节点在技术演化转移网络中的关键程度作为技术关键性的表征,并使用PageRank算法衡量技术主题的关键性。最后,以机器人及数控机床技术为例,验证了该方法的可行性和有效性。[结果/结论]该方法可实现高效、准确的关键共性技术识别,为国家制定创新扶持政策提供支撑。[局限]研究仍需扩大科技文献的收集范围,以实现更全面的关键共性技术识别。  相似文献   

12.
[研究目的]新兴领域由于发展时间不长,相关研究的文本量不够充足,先切分文本后关联主题的演化方法可能会导致各时间窗主题重复等问题,因此提出一种先整体识别热点,后切片分析演化的方法,解决新兴领域演化分析中文本量不足的问题。[研究方法]以制氢领域的核心中文期刊文献为数据源,通过构建指标体系先对整体语料库进行热点主题识别,再进行时间切片。对每个时间窗口的文本进行LDA主题抽取,并利用Word2Vec训练词向量,通过相似度计算进行热点主题的子话题关联及其主路径的词汇关联,从而分析各热点主题的结构演化和内容演化。[研究结论]绘制了各热点主题的结构演化图,并以热点主题光催化剂性能及其制备为例,揭示了其在各时间窗内的热点转移关系;同时绘制了其内容演化图,揭示了其各时间窗内的研究重点。实现了演化研究方面的精细化表达,为文本量不够充足的新兴领域演化分析提供了有效可行的思路。  相似文献   

13.
LDA模型在专利文本分类中的应用   总被引:1,自引:0,他引:1  
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。  相似文献   

14.
[目的/意义]使用深度学习中Doc2vec文本向量化的方法进行专利与行业间类目相似度的计算,旨在为用计算机进行类目映射时提供新的方法和思路。[方法/过程]实验通过《国际专利分类表》的小类及其下级类目大组与《国民经济行业分类表》中的小类展开,通过Doc2vec文本向量化和余弦相似度的方法求取三组相似值(专利小类与行业小类、专利大组与行业小类、每组专利小类下大组与行业小类相似度的平均值),并以农业类目为例进行解释说明。[结果/结论]通过计算专利大组与行业小类相似度平均值的方法进行映射更具合理性。  相似文献   

15.
[目的/意义]为减少医疗资源的浪费、推动患者更高效的针对性就医,提出一种基于在线问诊文本信息的线下就诊医院推荐方法。[方法/过程]首先,利用LDA主题模型对在线医院问诊文本进行建模,识别出其中的隐藏疾病主题,并以疾病主题代表医院诊疗优势。然后,根据患者所患疾病,筛选出具备该疾病优势下的医院。结合多种相关数据,运用熵值法确定各维度数据的权重。最后,使用TOPSIS计算该优势下每家医院的推荐指数,并将排名前五的医院推荐给患者。[结果/结论]以“好大夫在线”平台中的问诊文本作为实验数据集,进行验证。实验结果表明,本研究提出的推荐方法降低了单一维度和人为主观性对结果造成的影响,具有良好的推荐效果。  相似文献   

16.
[目的/意义]产业变革快速演进,技术创新成为驱动社会经济发展、提高国家和企业科技竞争力的关键所在,如何对前沿技术进行识别和预测,成为国家科技政策研究和企业技术创新活动关注的热点。[方法/过程]以人工智能作为重点研究领域,首先以LDA模型进行技术主题抽取,并结合K-means算法进行专利文本聚类;在此基础上,以Z分数表示技术主题创新度,以Sen's斜率估计技术主题授权趋势,两个指标结合形成技术主题前沿度并将二者映射到二维空间,识别前沿技术主题以及划分技术主题类型;再,计算前沿技术主题的新颖度和关注度,二者融合形成技术主题趋势度指标;最后,采用三次指数平滑法对前沿技术主题的发展趋势进行预测。[结果/结论]人工智能领域的前沿技术主题有“智能家居”“电动汽车”和“自动化控制系统”,其中“智能家居”在未来3年的发展呈下降态势,而“电动汽车”和“自动化控制系统”的发展呈明显上升趋势。  相似文献   

17.
[目的/意义]为了实现从非结构化的在线评论中有效提取用户需求,文章提出了数据驱动下产品需求识别的方法。[方法/过程]利用Word2vec表示学习方法,获取评论文本内容的语义向量表示;结合K-means算法和LSA模型实现评论文本聚类,识别产品需求主题;在此基础上,通过网络分析方法探索需求主题间的关联关系。以华为手机的评论数据为例进行方法验证。[结果/结论]结果表明,基于语义的文本特征可以取得较好的聚类效果,与传统方法相比,CH指标和SC指标均得到显著提高,验证了该方法的有效性。研究方法和结果能够为企业产品创新和运营决策提供一定参考。[局限]样本数据集规模不够,缺少跨平台实验计算和比较。  相似文献   

18.
王婧  武帅 《情报探索》2024,(2):1-11
[目的/意义]现有学科研究主题的梳理多为领域专家的定性分析和学科学者的文献梳理,一定程度会由于研究思维的局限性和获取知识的片面性造成学科研究主题误判,为有效避免漏判误判现象的发生,提出识别模型。[方法/过程]首先,运用传统LDA模型分析主题特征词;其次,结合上下文语义信息进行中文分词,形成学科主题词库;最后,结合隐含位置聚类算法发现潜在社区,提高主题识别效果。[结果/结论]提出的方法一定程度上优化了主题挖掘算法在识别短文本主题的效果,消除主观意愿。由计算机自行分类并实现科学研究前沿主题的预测,揭示前沿领域的研究热点,为致力于研究前沿学科的新兴学者提供参考价值。  相似文献   

19.
[目的/意义] 通过文献和专利进行文本挖掘获取技术热点主题的方法已逐步成熟,但相关研究未充分考虑社会公众对技术未来发展方向的影响。以社交媒体微信公众平台作为数据源,嵌入社会公众感知,可从更全面的视角识别技术热点主题并分析其发展态势。提出基于微信公众平台的技术热点主题识别与发展态势分析框架,弥补了现有方法未考虑社会公众对技术主题变化影响的不足。[方法/过程] 首先,通过微信传播指数(WCI)筛选可用于技术热点主题识别的微信公众平台。其次,采用文本挖掘的方法,应用LDA主题模型提取技术主题。然后,结合社会感知识别技术热点,并利用IPA分析法分析技术主题的发展态势。最后,以石墨烯技术为例进行实证分析以检验方法的可实施性和效果。[结果/结论] 识别出2015-2018年石墨烯技术热点,并结合社会感知视角定位出当前处于优势区、维持区、机会区、改进区的技术主题,实现对石墨烯技术热点的发展态势的分析与评价。  相似文献   

20.
【目的/意义】基于Rao-Stirling 指数和LDA模型进行领域学科交叉主题识别,并以纳米科技为例验证将 Rao-Stirling 指数和LDA模型用于领域学科交叉主题识别的有效性和适用性。【方法/过程】基于Rao-Stirling 指数 测度领域文献学科交叉程度,设定阈值发现高度学科交叉文献。基于LDA模型对筛选出的学科交叉文献进行主题 识别,发现学科交叉点和学科交叉研究主题。【结果/结论】基于Rao-Stirling 指数从引文的角度进行领域文献学科 交叉测度可以有效地发现与某领域相关的学科交叉文献,且有利于大数据集的学科交叉文献发现研究的实现。基 于LDA模型进行学科交叉主题识别可以有效地发现学科交叉主题。两方法的组合应用为发现某领域学科交叉主 题研究提供一种新视角。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号