首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 735 毫秒
1.
[目的/意义] 针对SAO结构短文本分类时面临的语义特征短缺和领域知识不足问题,提出一种融合语义联想和BERT的SAO分类方法,以期提高短文本分类效果。[方法/过程] 以图情领域SAO短文本为数据源,首先设计了一种包含"扩展-重构-降噪"三环节的语义联想方案,即通过语义扩展和SAO重构延展SAO语义信息,通过语义降噪解决扩展后的噪声干扰问题;然后利用BERT模型对语义联想后的SAO短文本进行训练;最后在分类部分实现自动分类。[结果/结论] 在分别对比了不同联想值、学习率和分类器后,实验结果表明当联想值为10、学习率为4e-5时SAO短文本分类效果达到最优,平均F1值为0.852 2,与SVM、LSTM和单纯的BERT相比,F1值分别提高了0.103 1、0.153 8和0.140 5。  相似文献   

2.
[目的/意义] 稷下思想是先秦百家争鸣时期的沧海遗珠,研究如何从稷下研究文献中自动识别出稷下思想,为稷下学数字人文研究提供方法基础。[方法/过程] 选取《管子学刊》作为研究数据源,对其收录的部分文本进行11大类附属42小类的思想类别归纳,构建训练数据集,提出一种基于ERNIE微调的JixiaERNIE模型,将稷下思想自动识别映射为文本自动分类问题,利用模型进行自动分类识别。[结果/结论] 通过实验对比得出,构建的JixiaERNIE模型在学习率4e-5、迭代次数为10分类效果达到最优,与基线模型相比,F值提高了7.9%。为进一步增强模型识别分类效果,在模型连接层的基础上加入分类器对比,有效实现面向数字人文研究的稷下思想自动分类任务。  相似文献   

3.
[目的/意义] 针对现有弱信号全自动识别研究尚不完善的问题,提出基于LDA-BERT融合模型的弱信号全自动识别方法。[方法/过程] 基于无监督的LDA主题模型对文本数据集进行主题分类,构建主题和术语双层过滤函数从主题分类的结果中提取早期预警信号,通过紧密中心度、主题权重以及主题自相关性三大度量函数评价主题的弱性,并基于主题内术语的归一化频率和概率提取出弱信号。最后,运用BERT深度学习模型从语义层面对弱信号上下文及其类似词进行扩展。[结果/结论] 以2021年1月初疫情重爆发事件为例,使用爆发前三月的社交媒体新闻数据集对构建的系统模型进行验证。实验结果表明,该方法可有效检测出相关弱信号,并挖掘出弱信号随时间推移逐渐增强的演化特性。此外,该融合模型在实现弱信号全自动识别的同时,也表现出较单一模型更强的结果可解释能力。  相似文献   

4.
[目的/意义]从定量分析和定性分析两个方面对英文网络书评进行内容挖掘,形成一套基于信息分类的英文网络书评的内容挖掘方法体系,实现多文本书评的信息整合。[方法/过程]对书评文本中句子的分类方法、关键信息的提取方法、情感分类的方法以及内容的呈现方式等几方面进行实验和改进。[结果/结论]用户评价结果表明,本文所设计的内容挖掘方法所生成的书评信息摘要在生成质量和有用性两方面都有较好的表现。  相似文献   

5.
[目的/意义] 为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法。[方法/过程] 通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案。[结果/结论] 实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高。  相似文献   

6.
[目的/意义]面向专利文本进行更细粒度的技术实体识别和技术预测,利于更详细地把握专利技术布局与趋势。[方法/过程]首先利用深度学习方法自动识别专利技术术语类实体,通过实验对比多组深度学习算法的优劣。其次,提出新的半监督标注和自定义标注方案,提高人工标注效率。最后,执行训练得到的最优模型,结合链路预测方法,对合成生物技术进行细粒度的技术预测。[结果/结论]实证结果表明RoBERTa-BiLSTM-CRF模型更适用于语义复杂的专利技术实体识别,F1值可达到86.8%,技术识别结果比传统IPC分析方法更精细。同时,细粒度的技术预测结果表明,合成生物学的合成方法在不断改进创新,合成物研究向合成燃料发展。  相似文献   

7.
[目的/意义]基于网络招聘文本和学科数据,提出"行业-岗位-知识-学科"的人才需求及供给分析框架,以人工智能领域为例进行挖掘与分析,同时对其他领域的人才供需分析也具有借鉴意义。[方法/过程]采集招聘网站中与人工智能相关的职位招聘公告,综合对比CRF、BiLSTM-CRF、BERT-BiLSTM-CRF、BERT模型对招聘文本的实体抽取效果,并运用社会网络分析方法与学科数据进行关联分析。[结果/结论]BERT-BiLSTM-CRF实体抽取实验效果最佳,分别构建"行业-岗位""岗位-知识"以及"知识-学科"3种关系网络,得到与人工智能领域联系最紧密的行业、岗位、知识及学科。该框架能充分地挖掘人才需求现状,并能较精准地将需求定位到人才培养的学科,对于国家发展战略以及高等院校人才培养计划的制订具有现实意义。  相似文献   

8.
[目的/意义] 旨在对大量的中文专利实现快速分类,满足专利审查以及情报分析等工作的要求。[方法/过程] 结合专利文本的固有格式以及存在多个IPC分类号的实际情况,将多示例多标签学习应用于专利自动分类中,在介绍几种经典的多示例多标签模型的基本原理之后,将这些模型运用于中文专利IPC分类号的确定。[结果/结论] 实验证明,多示例多标签模型适合运用在专利的自动分类中,并且从Average precision、Hamming Loss、Ranking Loss、One Error、Coverage、Training time等指标分析可以发现,MIMLRBF模型能快速、准确地运用在中文专利IPC分类号的确定中,为大规模专利的自动分类提供借鉴。  相似文献   

9.
叶兰 《图书情报工作》2021,65(16):138-147
[目的/意义] 对比分析FAIR数据评估模型与工具,为数据建设和数据管理过程中利益相关者评估FAIR数据的遵循度提供参考。[方法/过程] 通过文献综述及模型文本的研究,从评估指标和评估方法两方面介绍国际上7个评估FAIR数据遵循度的指标模型与工具,采用比较分析法从评估方法的类型、评估方法的自动化程度、评估方法的可操作性、指标数量与分布、元数据指标设置、指标清晰度等6个方面对比分析各模型与工具。[结果/结论] 基于对比与评析结果,为选择与应用FAIR数据评估模型与工具提出"FAIRsFAIR数据对象评估+FAIR数据成熟度模型"的方案。  相似文献   

10.
梁爽  刘小平 《图书情报工作》2022,66(13):138-149
[目的/意义]梳理国内外基于文本挖掘的科技文献主题演化相关研究,对主题演化分析中使用的各种方法进行分类、归纳与总结,并提出现有研究存在的不足,为主题演化研究提供新的思路与借鉴意义。[方法/过程]依照国内外学者进行主题演化研究的一般流程,对数据集选取与对象分析、主题识别研究、主题演化研究(主题演化时序分析、主题强度演化分析、主题内容演化分析)3个分析层面中所使用的各类模型、指标与方法进行梳理比较与优缺点总结,提出现有研究的局限性并对未来发展做出展望。[结果/结论]当前研究已具有一定规模和较为成熟的分析体系,但仍存在以下不足:数据来源较为单一;LDA及相关扩展模型存在的弊端需进一步克服;缺乏对其他机器学习及深度学习算法的探索应用;演化分析方法需相互结合、互补互融。未来应针对以上问题做出相应改进与深入探究。  相似文献   

11.
[目的 /意义]现有研究进行技术融合差异度测度时仅在分类号层面开展、尚未涉及到分类号背后的技术语义内涵层面,且泰对测度方法的效果进行对比,对此,本研究从揭示技术语义的角度进行技术融合差异度测度方法研究和效果比较研究,助力其方法论的完善.[方法/过程]表示学习技术能够利用海量先验知识计算研究对象的语义差异,因此,提出基于...  相似文献   

12.
[目的/意义] 科技文献中的概念是对文献中知识高度凝练的表达,通常以定义句的形式出现在科技文献中。自动从概念定义句中抽取概念,能够进一步挖掘科技文献中蕴含的重要知识。[方法/过程] 通过分析概念定义句的结构、句式等模式特征,提出以WCL数据集为基础的语料构建方案,并采用BERT+BiLSTM+CRF模型学习概念定义句的模式,从而实现概念短语抽取。[结果/结论] 结合以往对概念定义句模式特征的研究,创新性地提出一种基于序列标注学习概念定义句的组成模式,从而实现概念短语抽取。通过BERT+BiLSTM+CRF模型,有效学习了概念定义句中的上下文语义、句式结构、组成项分布等模式特征,实现了句子中概念短语的抽取。  相似文献   

13.
[目的/意义] 专利技术相关性研究对专利分析、专利管理等意义重大。综述专利技术相关性研究的典型方法,并进行客观分析和评价,以期为进一步研究提供新的思路。[方法/过程] 在界定专利技术相关性概念的基础上,对专利技术相似性和专利技术互补性的研究方法进行调研、归纳与分析,评述该领域的研究现状,提出未来可能的研究方向。[结果/结论] 专利技术相似性的研究方法可分为基于专利分类、专利引证和文本挖掘3种,且各自有其优势和局限;当前专利技术互补性研究比较薄弱,研究方法有待丰富;专利技术相似性和互补性的协同研究不足;专利技术相关性的应用范围有待进一步扩展。  相似文献   

14.
[目的 /意义]构建完整、清晰的产业链是我国宏观调控产业战略的基础,其对于增强我国关键领域产业链、供应链自主可控能力具有重要意义。[方法 /过程]从专利数据出发,基于规则和语法挖掘专利文本中蕴含的产品关联关系,从而构建产业技术链中要素的上下位关系,并借助可视化软件和图数据库构建与存储产业技术链图谱。[结果 /结论 ]该方法可构建产业技术链结构,实现动态监测,及时发现产业链中的技术(产品)新动向。以锂离子电池为例实证该方法下的产业技术链构建效果,通过文献调研和专家意见,初步验证方法的可行性。该方法适用不同产业的产业链动态构建。  相似文献   

15.
[目的/意义] 基于社交媒体,探索突发事件信息生命周期中不同利益相关者的动态分类及其关注主题的演变规律,为更精准的危机信息监测与动态决策提供依据。[方法/过程] 以特定危机事件的事实文本数据为来源,以利益相关者理论和动态主题模型为指导,构建三维动态主题演化模型以对社交媒体危机事件中不同利益相关者的分类与话题关注进行主题挖掘。其中包括时间粒度划分、利益相关者的定量评估、基于时间和主体的危机主题观点识别与刻画,并利用可视化工具对该动态趋势进行表征。[结果/结论] 基于三维动态主题演化模型,利益相关者的组成与分类在不同阶段中具有明显的差异性,同时其关注主题与行为特征也体现出不同的偏好性和动态差异性。危机主体的动态与危机主题的动态有效结合,能够更加全面地表达舆情传播的特点和规律。  相似文献   

16.
[目的/意义]分析《欧盟数字化单一市场指令提案》中著作权例外条款,以期为我国图书馆相关实践工作提供学术建议及启示。[方法/过程]采用文献综述、案例分析、法理剖析及比较论证等研究方法,解读《欧盟数字化单一市场指令提案》中著作权例外条款,评析该类条款对我国图书馆界实践工作的影响及借鉴。[结果/结论]我国图书馆界应当在立法、政策以及实践层面有理有节地推动图书馆永久馆藏的数字保存、争取文献传递基于非商业性目的的合理使用以及引领文本与数据挖掘在参考咨询以及检索查新等实践工作中的广泛开展。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号