基于文本生成技术的历史古籍事件识别模型构建研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于文本生成技术的历史古籍事件识别模型构建研究

引用本文：	王彦莹,王昊,朱惠,李晓敏.基于文本生成技术的历史古籍事件识别模型构建研究[J].图书情报工作,2023(3):119-130.

作者姓名：	王彦莹王昊朱惠李晓敏

作者单位：	1. 南京大学信息管理学院;2. 江苏省数据工程与知识服务重点实验室(南京大学)

基金项目：	国家自然科学基金面上项目“关联数据驱动下我国非遗文本的语义解析与人文计算研究”（项目编号：72074108）；;中央高校基本科研项目“面向人文计算的方志文本的语义分析和知识图谱研究”（项目编号：010814370113）研究成果之一；

摘要：	目的 /意义]针对历史古籍事件识别问题，对比序列标注方法和文本生成方法，探究两种方法在古汉语上的表现，构建模型实现历史古籍事件识别自动化，以提高面向历史古籍构建知识图谱的效率。方法 /过程]选取《三国志》为原始语料，序列标注实验对《三国志》事件数据集进行BMES标注，构建BBCN-SG模型，文本生成实验构建T5-SG模型，对比两种方法的表现。接下来，构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。最后，结合三个文本生成模型，融入Stacking集成学习的思想，构建Stacking-TRN-SG模型。结果 /结论 ]在历史古籍事件识别建模问题上，文本生成方法的表现明显优于序列标注方法。而在文本生成方法中，RoBERTaSG模型的识别效果综合最好。Stacking集成学习能够大大提高生成模型的识别效果，构建的Stacking-TRN-SG模型达到70.35%的召回率，初步实现历史古籍的自动事件识别。
关键词：	历史古籍事件识别文本生成序列标注集成学习

设为首页 | 免责声明 | 关于勤云 | 加入收藏