首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于论文题录的数据线索识别与知识图谱构建
引用本文:聂磊,何杨煜琪,王继民,王若佳.基于论文题录的数据线索识别与知识图谱构建[J].情报理论与实践,2023(6):161-167+154.
作者姓名:聂磊  何杨煜琪  王继民  王若佳
作者单位:1. 北京外国语大学;2. 对外经济贸易大学;3. 北京大学;4. 北京中医药大学
基金项目:国家社会科学基金青年项目“面向多语种社会科学数据的线索发现方法研究”的成果,项目编号:22CTQ025;
摘    要:目的/意义]从研究成果中抽取数据线索,进而构建针对特定主题的数据索引,有助于提升研究者查找数据的全面性。方法/过程]以社会科学领域所有学科中文核心期刊中关于“COVID-19”论文的题录信息为例,分三步进行了探索。(1)随机抽取1000篇摘要进行人工标注,然后以此为基础使用自适应增强等模型训练分类器,进而使用分类器识别出使用了数据的论文。(2)从使用数据的论文摘要中标注出数据线索实体,进而使用隐马尔可夫、长短期记忆网络等模型进行实体识别。(3)使用Neo4j数据库,基于抽取出的数据线索与题录中的其他信息构建知识图谱。结果/结论]在判断论文是否使用了数据的任务中,自适应增强模型的F1值最高,达到0.869。在数据线索实体识别任务中,隐马尔可夫模型的F1值最高,达到0.805。由抽取出的数据线索与论文关键词、作者、期刊等信息融合构建的知识图谱能够实现基于主题词查找数据线索、基于数据线索查找其他信息等应用。

关 键 词:数据线索  机器学习  题录  实体识别  知识图谱
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号