首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于句子主题发现的中文多文档自动摘要研究
引用本文:唐晓波,顾娜,谭明亮.基于句子主题发现的中文多文档自动摘要研究[J].情报科学,2020,38(3):11-16.
作者姓名:唐晓波  顾娜  谭明亮
作者单位:武汉大学信息资源研究中心;武汉大学信息管理学院
基金项目:国家自然科学基金项目“基于文本和Web语义分析的智能咨询服务研究”(71673209).
摘    要:【目的/意义】目前在多文档自动摘要方面,研究者们主要关注于获取多文档集合中的重要主题内容,提出的很多自动摘要方法在提高摘要代表性的同时却忽略了文档中的潜在主题。【方法/过程】针对于多文档自动摘要中存在的冗余度较高且不能全面反映主题内容的问题,本文提出了一种基于句子主题发现的多文档自动摘要方法。该方法将多篇文档转换为句子集合,利用LDA主题模型对句子进行聚类分析与主题发现,并通过word2vec训练词向量计算句子的相似度;最终在主题之下通过TextRank算法来计算句子重要性,并结合句子的统计特征生成多文档集合的摘要。【结果/结论】通过人工测评的结果表明,本文提出的多文档自动摘要方法在主题覆盖性、简洁性、语法性等方面都取得了不错的效果。

关 键 词:多文档自动摘要  主题发现  LDA主题模型  信息抽取

The Study of Multi-Documents Summarization in Chinese Based on Sentence Topic Discovery
TANG Xiao-bo,GU Na,TAN Ming-liang.The Study of Multi-Documents Summarization in Chinese Based on Sentence Topic Discovery[J].Information Science,2020,38(3):11-16.
Authors:TANG Xiao-bo  GU Na  TAN Ming-liang
Institution:(Center for Studies of Information Resources,Wuhan 430072,China;School of Information Management,Wuhan 430072,China)
Abstract:【Purpose/significance】Today, in the aspect of automatic text summarization of multi-documents, Many researchers ignore the potential subjects in texts while improving the representativeness of abstracts.【Method/process】Aiming at the above problems, this paper proposes a method based on sentence topic discovery, which views the multi-documents as a set of sentences. It uses LDA topic model to get the sentence clusters of the same topics, and calculates the similarity of sentence with the help of the word vectors via word2vec, then gets the abstract combining the importance of sentence via TextRank and the statistical characteristics of it.【Result/conclusion】The result of manual evaluation shows that the model of multi-documents automatic summarization proposed in this paper has achieved good results in terms of theme coverage, brevity and grammar.
Keywords:multi-documents summarization  topic discovery  LDA topic model  information extraction
本文献已被 维普 等数据库收录!
点击此处可从《情报科学》浏览原始摘要信息
点击此处可从《情报科学》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号