首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于SciBERT与ChatGPT数据增强的研究流程段落识别
引用本文:张恒,赵毅,章成志.基于SciBERT与ChatGPT数据增强的研究流程段落识别[J].情报理论与实践,2024(1):164-172+153.
作者姓名:张恒  赵毅  章成志
作者单位:南京理工大学经济管理学院信息管理系
基金项目:国家自然科学基金项目“基于学术文献全文内容的细粒度算法实体抽取与评估研究”的成果,项目编号:72074113;
摘    要:目的/意义]在阅读文献的过程中,研究流程是研究者需要特别关注的一个重要方面,自动识别学术文本中描述研究流程的段落对辅助文献阅读、学习研究设计等有着重要意义。方法/过程]文章以自然语言处理领域为例,收集代表性会议论文构建数据集。分别基于传统机器学习模型、神经网络分类工具以及预训练语言模型构建分类器识别研究流程段落,然后对不同模型的分类效果进行评估,确定性能最优的模型。为进一步提升研究流程段落识别效果,在最优模型的基础上,基于ChatGPT进行了数据增强。结果/结论]实验结果表明,在所有分类器中,SciBERT具有最好的研究流程段落识别效果。基于ChatGPT的数据增强可使SciBERT模型的分类性能进一步提高,最终准确率(Acc)和F1值分别达到了0.9414和0.9409。

关 键 词:学术文本  研究流程段落  文本分类  SciBERT  ChatGPT数据增强
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号