基于先精确后召回策略的作者名消歧模型研究 |
| |
引用本文: | 沈喆,王毅,鞠秀芳,成颖.基于先精确后召回策略的作者名消歧模型研究[J].情报学报,2022(4):350-363. |
| |
作者姓名: | 沈喆 王毅 鞠秀芳 成颖 |
| |
作者单位: | 1. 南京大学信息管理学院;2. 南京大学中国社会科学研究评价中心 |
| |
基金项目: | 国家社会科学基金项目“学术文献颠覆性创新评价的理论及实证研究”(20BTQ086); |
| |
摘 要: | 学者完整且准确的学术成果集为科学计量与科研人才评价等研究提供了重要的数据基础。在现有基于机器学习模型的作者姓名消歧方法尚未达到实用要求的背景下,本研究面向高层次科研人才,充分利用基于规则方法精确率高的优势,提出了“先面向精确率,后面向召回率”的“两步法”作者姓名消歧模型。得益于该群体易于从网络中搜集其履历、研究方向和代表作等信息,消歧模型可采用的特征更加丰富,从而保证了消歧模型的优异性能。本研究以国家杰出青年科学基金获得者为例对模型进行了验证,结果表明,本研究提出的高层次科研人才作者名消歧模型在精确率与召回率两个方面均表现良好,在两组不同特征集上的F1值分别达到了0.93和0.95,较基线模型有较大提升。
|
关 键 词: | 作者名消歧 规则消歧 高层次科研人才 两步法 |
|
|