共查询到19条相似文献,搜索用时 234 毫秒
1.
文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块。首先对新闻文本进行预处理和指代消解,然后在第二模块使用文本外部特征(如:主题词、线索词语、关键词与其同义词、时间、地点、命名实体等)来计算原文中句子的重要程度,句子与新闻主题的相关度,并且对每个句子第一次打分。然后在第三模块采用图排序的算法再从原文中计算句子之间的连贯程度,并且第二次对每个句子打分。最后在第四模块通过两个不同算法的得分计算原文中句子的总得分并且按原文中句子出现的顺序摘出新闻文本的摘要。文章以汉语、英语、孟加拉语为例,实现该系统并进行摘要测试。实验表明系统能够从三个不同语种的多文档新闻文本中有效地摘出摘要。 相似文献
2.
3.
4.
[目的/意义]社交网络快速发展的时代,越来越需要自动摘要技术来解决产品评论信息过载。针对现有图模型方法在评论摘要抽取中存在信息不充分、准确性差的问题,提出一种融合主题聚类和语义图模型的多文本摘要方法。[方法/过程]首先运用FCM(Fuzzy C-means)聚类算法对评论文本进行主题划分;然后利用Word2vec模型获取分类评论句子的向量化表达,并根据句子间的语义相似度进行图模型构建;最后利用加权图排序算法,自动抽取出重要性高的句子形成文本摘要。[结果/结论]实验结果显示,该方法能有效识别出产品评论的关键内容,与传统方法相比,融合主题聚类和语义图模型的方法在信息覆盖率和信息多样性指标方面得到了更高的分数,提高了摘要抽取的质量和效率。 相似文献
5.
[目的/意义]现有新闻文档实体排序研究大多以文档或实体为中心,如文本分类、实体链接等,关注实体在文本中的重要性的研究较少,本研究探讨基于重要性的新闻文档实体排序。[方法/过程]给定一篇文档,判断文档中实体相对文档而言的重要性,并基于此对实体进行排序。在搜狗全网新闻数据集上进行实验,并利用NDCG和逆序对比率两个指标对实体排序结果进行评价。[结果/结论]实验结果表明,基于实体频率、TF*IDF、信息熵、TextRank等的方法以及集成方法都达到了较好的效果,基于聚集系数的方法效果一般。其中基于TF*IDF的方法NDCG值为95.86%,是该指标下的最好结果;基于集成方法的逆序对比率值为84.46%,是该指标下的最好结果。 相似文献
6.
7.
8.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。 相似文献
9.
基于句子选择的自动文本摘要方法及其评价 总被引:1,自引:0,他引:1
王知津 《现代图书情报技术》1998,14(1):46-51
简要评述了自动摘要的文献, 介绍了一个基于句子选择的自动文本摘要系统, 分析了该系统的运行, 指出这种方法对于自动文本摘要的意义。 相似文献
10.
提出一种基于基本要素方法的中文自动文本摘要模型(BESM)。该模型主要借鉴基本要素的思想进行建立,和单纯的基于词的自动文摘模型相比,它将语义信息作为评估句子重要程度的一部分,实现基本要素中提出的将语义信息和统计方法的结合。通过与普通方法的实例对比,突出基本要素方法的优越性和BESM模型的可行性。 相似文献
11.
本文提出了几个可以改善中文自动文摘系统的文摘效果的措施 :1 将字频统计方法和词频统计方法有机结合起来 ;2 进一步研究人工文摘中理解性文摘句的形成机理 ,完善仿人算法 ;3 将自动聚类的方法引入自动文摘研究。 相似文献
12.
13.
Summarizing Similarities and Differences Among Related Documents 总被引:10,自引:0,他引:10
In many modern information retrieval applications, a common problem which arises is the existence of multiple documents covering similar information, as in the case of multiple news stories about an event or a sequence of events. A particular challenge for text summarization is to be able to summarize the similarities and differences in information content among these documents. The approach described here exploits the results of recent progress in information extraction to represent salient units of text and their relationships. By exploiting meaningful relations between units based on an analysis of text cohesion and the context in which the comparison is desired, the summarizer can pinpoint similarities and differences, and align text segments. In evaluation experiments, these techniques for exploiting cohesion relations result in summaries which (i) help users more quickly complete a retrieval task (ii) result in improved alignment accuracy over baselines, and (iii) improve identification of topic-relevant similarities and differences. 相似文献
14.
一种使用自动聚类思想的自动文摘方法 总被引:5,自引:0,他引:5
本文提出了一种使用自动聚类思想的自动文摘方法 ,这种方法是进行自动文摘研究的一种新的有益的尝试。该方法首先利用词频统计方法得到文献的关键词向量、每个段落的关键词向量 ,然后利用自动聚类的方法将文献分为若干个段落类 ,从中选出与文献主题相关的段落类作为候选的用来挑出文摘句的段落类 ,最后从候选段落类中选出文摘句构成文摘 相似文献
15.
16.
Xiaojun Wan 《Information Retrieval》2008,11(1):25-49
In recent years graph-ranking based algorithms have been proposed for single document summarization and generic multi-document
summarization. The algorithms make use of the “votings” or “recommendations” between sentences to evaluate the importance
of the sentences in the documents. This study aims to differentiate the cross-document and within-document relationships between
sentences for generic multi-document summarization and adapt the graph-ranking based algorithm for topic-focused summarization.
The contributions of this study are two-fold: (1) For generic multi-document summarization, we apply the graph-based ranking
algorithm based on each kind of sentence relationship and explore their relative importance for summarization performance.
(2) For topic-focused multi-document summarization, we propose to integrate the relevance of the sentences to the specified
topic into the graph-ranking based method. Each individual kind of sentence relationship is also differentiated and investigated
in the algorithm. Experimental results on DUC 2002–DUC 2005 data demonstrate the great importance of the cross-document relationships
between sentences for both generic and topic-focused multi-document summarizations. Even the approach based only on the cross-document
relationships can perform better than or at least as well as the approaches based on both kinds of relationships between sentences.
相似文献
Xiaojun WanEmail: |
17.
本文系统性地研究面向查询的观点摘要任务,旨在构建一种查询式观点摘要模型框架,探究不同的摘要方法对摘要效果的影响。通过综合考虑情感倾向与句子相似度,从待检文档中抽取出待摘要语句,再结合神经网络和词嵌入技术生成摘要,进而构建面向查询的观点摘要框架。从Debatepedia网站上爬取议题和论述内容构建观点摘要实验数据集,将本文方法应用到该数据集上,以检验不同模型的效果。实验结果表明,在该数据集上,仅使用基于抽取式的方法生成的观点摘要质量更高,取得了最高的平均ROUGE分数、深度语义相似度分数和情感分数,较生成式方法分别提高6.58%、1.79%和11.52%,而比组合式方法提高了8.33%、2.80%和13.86%;同时,本文提出的句子深度语义相似度和情感分数评估指标有助于更好地评估面向查询的观点摘要模型效果。研究结果对于提升面向查询的观点摘要效果,促进观点摘要模型在情报学领域的应用具有重要意义。 相似文献
18.
在理解自动摘要处理流程和梳理国内外重要研究成果的基础上,重点对自动摘要研究在文本分词、冗余度控制、质量评价、短文本自动摘要以及多语言与跨语言文本自动摘要等方面所面临的若干基本问题及其主要解决方法进行归纳和总结,并对部分研究内容的发展方向进行展望,以期为未来的自动摘要和自然语言处理研究提供有意义的参考。 相似文献
19.
自动文摘系统的评测是自动文摘技术研究与发展的关键部分.随着摘要技术的快速发展,国外学者十分重视评测技术,研究工作也如火如荼,而国内相关工作相对贫乏.文摘评测对文摘系统的性能有重大影响,对自然语言处理、信息检索等相关技术有着促进作用.本文详细介绍了文摘评测的两大方法:内部评测和外部评测,并对多年来文摘评测中应用的关键技术做了简要总结,最后指出文摘评测面临的挑战及未来需要努力的方向. 相似文献