首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 578 毫秒
1.
杨建林 《情报学报》2001,20(4):460-463
本文提出了几个可以改善中文自动文摘系统的文摘效果的措施 :1 将字频统计方法和词频统计方法有机结合起来 ;2 进一步研究人工文摘中理解性文摘句的形成机理 ,完善仿人算法 ;3 将自动聚类的方法引入自动文摘研究。  相似文献   

2.
适用于隐含主题抽取的K最近邻关键词自动抽取   总被引:1,自引:0,他引:1  
众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现.本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法.现有的关键词抽取技术仅仅是对正文词汇的抽取,不能抽取隐含主题.隐含主题的抽取是关键词自动抽取技术的难点,但是该方法可以有效抽取隐含主题.该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理.实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题.  相似文献   

3.
汉语文本结构的自动分析   总被引:5,自引:1,他引:4  
薛翠芳  郭炳炎 《情报学报》2000,19(4):319-325
本文试图运用向量空间模型来确定文本段落之间内容的相关性,从而实现文本主题的自动分析,找出构成文本大主题的各个小主题,从这些小主题入手来实现自动文摘,可为自动文摘技术探索一条新途径。另一方面,通过文本结构的自动分析,可确定文本结构的类型,也为全文检索等信息处理技术提供一些有用的信息。  相似文献   

4.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

5.
常娥 《图书情报工作》2012,56(11):89-92
结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。  相似文献   

6.
本文介绍了HIT—97Ⅰ型英文自动文摘系统,给出了该系统的设计思想和控制结构。然后叙述了本系统的处理步骤,即词频统计、词类标记、意义段划分、确定关键词、关键句提取、关键句压缩、文摘结果生成。最后给出了一个文摘实例  相似文献   

7.
中文文献摘要的自动编制   总被引:9,自引:0,他引:9  
本文简要地介绍了对自动编制中文科技文献文摘系统的改进和对其应用领域的扩充 ,以形成中文文献摘要的自动编制系统 ,并着重介绍了自动编制主题词词典、自动选取摘要句以及自动形成中文文献摘要的基本设计思想。  相似文献   

8.
与传统静态聚类系统相比,动态自动聚类系统有以下特点:聚类是动态进行的,它是在检索结果返回的基础上进行的实时操作;每次聚类的文献对象数量有限;用来作为聚类依据的文献数据只是文献的局部;参与聚类的资源在整个资源集合中的分布是随机的。动态自动聚类方法有:直接将专指性短语作为揭示类目相似性识别的依据;更多使用线性聚类策略;使用等级显示、多维聚类的形式;采用优化算法;扩大预处理的应用。表1。图1。参考文献12。  相似文献   

9.
为了便于用户浏览搜索引擎返回结果,本文提出了一种基于TFIDF新的文本相似度计算方法,并提出使用具有近似线性时间复杂度的增量聚类算法对文本进行多层聚类的策略。同时,提出了一种从多文本中提取关键词的策略:提取簇中的名词或名词短语作为候选关键词,综合考虑每个候选关键词的词频、出现位置、长度和文本长度设置加权函数来计算其权重,不需要人工干预以及语料库的协助,自动提取权重最大的候选关键词作为类别关键词。在收集的百度、ODP语料以及公开测试的实验结果表明本文提出方法的有效性。  相似文献   

10.
王涛 《图书馆学研究》2007,(12):40-43,46
本文简要介绍了国内外文本自动分类的发展概况,论述了自动分类的定义,自动归类和自动聚类的几种常见方法,并对应用实例进行了分析。  相似文献   

11.
论自动文摘及其分类   总被引:11,自引:1,他引:10  
自动文摘 ,即利用计算机自动编制文摘 ,是信息时代的需要。本文讨论了文摘的不同定义、特点和功能。目前 ,文摘的分类方法不适用于自动文摘的分类 ,因此 ,本文试着从多角度对自动文摘系统进行了分类 ,这样的分类根据自动文摘的特点进行的划分 ,是对自动文摘分类的一种总结 ,可以作为构造自动文摘系统和思考自动文摘发展方向的参考和借鉴。最后 ,概述了中文自动文摘系统的研究状况 ,展望了自动文摘的发展趋势。  相似文献   

12.
自动综述是指针对特定的主题进行多文档自动摘要,最终提供简洁、重要的信息.新闻专题自动综述是多文档自动摘要的一种应用形式,它可以帮助人们快速了解某个新闻事件的概貌.提出了一种基于名实体的新闻专题自动综述方法.该方法首先从新闻专题的文章集合中识别并挑选出代表新闻要素的时间、地点、人物、机构等名实体,经过语义处理后进行名实体的频率统计.然后根据句子中名实体的频率,结合句子位置、长度等因素计算句子的综合权值选出摘要句,最后根据句子的时间戳信息对句子排序输出得到最终的新闻专题综述.实验结果表明,该方法是有效的,具有实用价值.  相似文献   

13.
自动摘要方法综述   总被引:2,自引:0,他引:2  
谭翀  陈跃新 《情报学报》2008,27(1):62-68
自动摘要是计算机语言学领域的一个研究重点,自动摘要的研究和应用受到了计算机学、语言学、认知心理学等相关学科的广泛关注.本文讨论了摘要的定义及其分类.依据自动摘要的特点对其分类,并作为构造自动摘要系统和思考自动摘要技术发展的参考和启示.本文概述了自动摘要的发展历史和研究现状,并将现有的自动摘要方法分为三类,分别阐述了这三类方法的基本特征和研究方法,并剖析了它们的优点和不足.本文着重讨论了基于篇章结构的方法的几个不同研究方向及其局限和趋势.最后,文章讨论了自动摘要研究存在的问题,并指出自动摘要的研究趋势.  相似文献   

14.
一种基于词共现图的文档自动摘要研究   总被引:1,自引:0,他引:1  
耿焕同  蔡庆生  赵鹏  于琨 《情报学报》2005,24(6):651-656
本文提出了一种基于词共现图的文档自动摘要算法。该算法以统计方法为基础,又利用词共现图形成的主题信息以及不同主题间的连接特征信息,旨在能够有效地生成既全面反映文档的主要内容,又不受领域限制的文档摘要;同时该方法能动态地确定文档摘要长度。在实验评估中,该文档自动摘要方法取得了令人满意的摘要效果。  相似文献   

15.
在理解自动摘要处理流程和梳理国内外重要研究成果的基础上,重点对自动摘要研究在文本分词、冗余度控制、质量评价、短文本自动摘要以及多语言与跨语言文本自动摘要等方面所面临的若干基本问题及其主要解决方法进行归纳和总结,并对部分研究内容的发展方向进行展望,以期为未来的自动摘要和自然语言处理研究提供有意义的参考。  相似文献   

16.
自动文摘系统评价方法的研究与实践   总被引:7,自引:2,他引:5  
自动文摘系统作为一种信息压缩精选工具 ,越来越引起人们广泛的兴趣。但是 ,目前仍未有一种客观公认的评价方法来对已有的系统进行评价 ,从而极大地阻碍了自动文摘领域的研究。本文首先阐述了自动文摘系统评价所面临的问题 ,随后综述了当前国内外自动文摘的评价方法 ,最后提出并实践了一种参照Turing测试的思想进行自动文摘系统评价的方法  相似文献   

17.
自动文本摘要中一个关键的步骤是确定文章的主旨并将反映文章主旨的句子提取出来.在讨论分析k-means, k-medoids等聚类算法的基础上,根据对文本摘要的实际要求以及文档自身的特点,提出一种基于聚类算法的主旨句提取方法.实验结果表明,在提高聚类准确性的基础上,新方法较其他聚类算法能够更加有效地避免遗漏主题的问题,能较全方位地反映全文的主旨,提取出的摘要既覆盖全面又突出重点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号