基于文本生成技术的历史古籍事件识别模型构建研究 |
| |
引用本文: | 王彦莹,王昊,朱惠,李晓敏.基于文本生成技术的历史古籍事件识别模型构建研究[J].图书情报工作,2023(3):119-130. |
| |
作者姓名: | 王彦莹 王昊 朱惠 李晓敏 |
| |
作者单位: | 1. 南京大学信息管理学院;2. 江苏省数据工程与知识服务重点实验室(南京大学) |
| |
基金项目: | 国家自然科学基金面上项目“关联数据驱动下我国非遗文本的语义解析与人文计算研究”(项目编号:72074108);;中央高校基本科研项目“面向人文计算的方志文本的语义分析和知识图谱研究”(项目编号:010814370113)研究成果之一; |
| |
摘 要: | 目的 /意义]针对历史古籍事件识别问题,对比序列标注方法和文本生成方法,探究两种方法在古汉语上的表现,构建模型实现历史古籍事件识别自动化,以提高面向历史古籍构建知识图谱的效率。方法 /过程]选取《三国志》为原始语料,序列标注实验对《三国志》事件数据集进行BMES标注,构建BBCN-SG模型,文本生成实验构建T5-SG模型,对比两种方法的表现。接下来,构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。最后,结合三个文本生成模型,融入Stacking集成学习的思想,构建Stacking-TRN-SG模型。结果 /结论 ]在历史古籍事件识别建模问题上,文本生成方法的表现明显优于序列标注方法。而在文本生成方法中,RoBERTaSG模型的识别效果综合最好。Stacking集成学习能够大大提高生成模型的识别效果,构建的Stacking-TRN-SG模型达到70.35%的召回率,初步实现历史古籍的自动事件识别。
|
关 键 词: | 历史古籍 事件识别 文本生成 序列标注 集成学习 |
|
|