首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于文本生成技术的历史古籍事件识别模型构建研究
引用本文:王彦莹,王昊,朱惠,李晓敏.基于文本生成技术的历史古籍事件识别模型构建研究[J].图书情报工作,2023(3):119-130.
作者姓名:王彦莹  王昊  朱惠  李晓敏
作者单位:1. 南京大学信息管理学院;2. 江苏省数据工程与知识服务重点实验室(南京大学)
基金项目:国家自然科学基金面上项目“关联数据驱动下我国非遗文本的语义解析与人文计算研究”(项目编号:72074108);;中央高校基本科研项目“面向人文计算的方志文本的语义分析和知识图谱研究”(项目编号:010814370113)研究成果之一;
摘    要:目的 /意义]针对历史古籍事件识别问题,对比序列标注方法和文本生成方法,探究两种方法在古汉语上的表现,构建模型实现历史古籍事件识别自动化,以提高面向历史古籍构建知识图谱的效率。方法 /过程]选取《三国志》为原始语料,序列标注实验对《三国志》事件数据集进行BMES标注,构建BBCN-SG模型,文本生成实验构建T5-SG模型,对比两种方法的表现。接下来,构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。最后,结合三个文本生成模型,融入Stacking集成学习的思想,构建Stacking-TRN-SG模型。结果 /结论 ]在历史古籍事件识别建模问题上,文本生成方法的表现明显优于序列标注方法。而在文本生成方法中,RoBERTaSG模型的识别效果综合最好。Stacking集成学习能够大大提高生成模型的识别效果,构建的Stacking-TRN-SG模型达到70.35%的召回率,初步实现历史古籍的自动事件识别。

关 键 词:历史古籍  事件识别  文本生成  序列标注  集成学习
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号