基于学术论文全文内容的特定领域算法实体抽取研究CSSCI |
| |
引用本文: | 丁睿祎王玉琢章成志.基于学术论文全文内容的特定领域算法实体抽取研究CSSCI[J].数字图书馆论坛,2022(3):2-14. |
| |
作者姓名: | 丁睿祎王玉琢章成志 |
| |
作者单位: | 1.南京理工大学经济管理学院210094; |
| |
基金项目: | 江苏省社会科学基金项目“多维视角下学术创新力评估与预测研究”(编号:18TQD003)资助。 |
| |
摘 要: | 对学术论文中的算法实体进行研究,能够促进深入了解算法对科学研究的作用,而从全文数据中抽取算法实体是相关研究的基础。学术论文全文内容中算法实体的抽取可以看作一种特殊的命名实体识别。本文通过人工识别的方法,从4641篇论文中抽取出977种算法实体并构建算法实体词列表,以此为基础构建标注语料,训练算法实体自动抽取模型,在剩余语料上抽取得到221种新算法实体,并将自动抽取结果与人工抽取结果进行整合得到全部算法实体1198种。研究结果表明:人工抽取法的结果能够为自动抽取法构建一定数量的标注语料,所构建的算法实体自动抽取模型能够有效地抽取出人工方法中遗漏的新算法实体,同时还能够抽取出已有算法实体的全新表达形式,进一步对人工抽取结果进行扩充和完善。
|
关 键 词: | 学术论文全文内容 算法实体 实体抽取 学术文本挖掘 |
本文献已被 维普 等数据库收录! |
|