首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
基于TFIDF和词语关联度的中文关键词提取方法   总被引:1,自引:0,他引:1  
张建娥 《情报科学》2012,(10):1542-1544,1555
关键词提取技术是文本分类、文本聚类、信息检索等技术的基础,在自然语言处理领域有着非常广泛的应用。结合TFIDF关键词抽取方法的特点和中文具有的自然语言词语间相互关联的特性,提出一种基于TFIDF和词语关联度的中文关键词提取方法。该方法通过引入词语关联度,有效避免了单纯采用TFIDF算法产生的偏差。实验结果表明,该方法的平均召回率与传统方法相比得到明显提升。  相似文献   

2.
《科技风》2016,(1)
关键词在文本分类,文献检索,文本自动抽取方面有着重要的作用。种子扩散策略是以关键字为基础,向左右两端扩散汉字而形成词组的过程。本文通过种子扩散策略对新生成的词组计算其权重值,并对权重值进行排序,从而抽取文本集的关键词。实验表明,该方法省去了其它关键词抽取方法的文本分词步骤,从而节省大量时间和空间,而准确率和召回率并不低于其它方法。  相似文献   

3.
郑阳  莫建文 《大众科技》2012,14(4):20-23
针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。  相似文献   

4.
陈玫  蒙祖强 《大众科技》2010,(11):140-142
文章对目前现有的一些中文分词算法进行简单介绍,结合医学词汇的特点,在基于字符串匹配的中文分词方法基础上,对医学知识的中文分词词典进行设计,构建树型的子关系词词典和数组型的同义词词典,同时给出对应的匹配算法,从而使得分词的同时将与用户输入的关键词相关的医学中的专业子关系词与同义词同时获取,进而为用户的网页搜索提供更为全面的关键词集合。  相似文献   

5.
结合新闻网页的内容特征对中文网页关键词的构成特点进行阐述;对经典的TF-IDF加权公式进行改进,构建一个综合考虑多种影响因素的候选关键词评分加权公式;对SharpICTCLAS分词进行改进,增加位置标注;选择评分较高的词作为候选关键词,利用词的位置标注进行关键词抽取优化操作,将切碎的候选关键词进行组配,形成正式抽取的关键词。实验结果表明:该方法明显优于基准方法,能够抽取到令人满意的关键词。  相似文献   

6.
【目的/意义】学术文本关键词抽取是从文本中自动抽取具有主题性、代表性的词或短语,是学术信息服务 的重要环节。传统的方法大多仅依靠候选关键词有限的词频、文档频率等统计信息,没有考虑学术文本内候选关 键词在对应学术领域的使用情况,使得关键词抽取的准确率受到限制。针对这一问题,本文提出一种基于先验知 识TextRank的学术文本关键词抽取算法。【方法/过程】首先计算候选关键词的使用情况作为先验概率特征值,然 后运用基于图排序的关键词抽取算法TextRank计算候选关键词的文本内特征值,最后结合以上两个特征计算得到 候选关键词的综合权值并对关键词进行排序。【结果/结论】在计算机科学领域的多个文献集上进行了实验评估,其 结果相较于传统的关键词抽取方法有了明显的提高,证明了基于先验知识TextRank的学术文本关键词抽取算法的 有效性。  相似文献   

7.
中文分词算法综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的关键技术之一,本文对多种中文分词算法、自动分词理论模型进行了详细的阐述和讨论,为中文分词的进一步发展提供基础和方向。  相似文献   

8.
全文检索搜索引擎中文信息处理技术研究   总被引:2,自引:0,他引:2  
唐培丽  胡明  解飞  刘钢 《情报科学》2006,24(6):895-899,909
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。  相似文献   

9.
近年尽管针对中文本文分类的研究成果不少,但基于深度学习对中文政策等长文本进行自动分类的研究还不多见。为此,借鉴和拓展传统的数据增强方法,提出集成新时代人民日报分词语料库(NEPD)、简单数据增强(EDA)算法、word2vec和文本卷积神经网络(TextCNN)的NEWT新型计算框架;实证部分,基于中国地方政府发布的科技政策文本进行算法校验。实验结果显示,在取词长度分别为500、750和1 000词的情况下,应用NEWT算法对中文科技政策文本进行分类的效果优于RCNN、Bi-LSTM和CapsNet等传统深度学习模型,F1值的平均提升比例超过13%;同时,NEWT在较短取词长度下能够实现全文输入的近似效果,可以部分改善传统深度学习模型在中文长文本自动分类任务中的计算效率。  相似文献   

10.
对如何优化地方性新闻搜索进行了探讨,通过运用IKAnalyzer所提供的开源程序对每个网站的源代码中的中文进行分词处理,再利用TF-IDF算法对每个网站的关键词进行权重的计算,由高到低列出关键词向量。将这些网站的关键词向量逐一与标准关键词向量进行比较,从而将网站进行分类处理。以达到快速准确的搜索目的。  相似文献   

11.
科技文献著作权资产评估研究   总被引:3,自引:1,他引:2  
科技文献著作权评估是对传统评估方法的一种扬弃,是随着网络的出现和发展而逐渐凸显的一个重要问题,旨在对科技文献著作权作为一种资产的价值量予以尝试性的量化研究.基于此,本文首先论述科技文献著作权评估,然后对评估依据与标准、评估指标体系搭建以及评估方法进行探讨.  相似文献   

12.
[目的/意义]旨在将科技文献的价值进行量化,提高PageRank算法应用在科技文献排名中的准确性。[方法/过程]在加入时间因子的PageRank算法的改进算法WPageRank的基础上,加入引用相关度进行改进,并计算文献的固有价值,与文献的PageRank值进行加权求和,得到文献的最终价值。[结果/结论]本文提出的方法使新发表的高质量文献也可以获得较高排名,并且使领域内的高质量文献更容易被检索到,同时保证了检索的时效性和主题集中性。  相似文献   

13.
This research has investigated the feasibility of using a distance measure, called the Bayesian distance, for automatic sequential document classification. It has been shown that by observing the variation of this distance measure as keywords are extracted sequentially from a document, the occurrence of noisy keywords may be detected. This property of the distance measure has been utilized to design a sequential classification algorithm which works in two phases. In the first phase keywords extracted from a document are partitioned into two groups—the good keyword group and the noisy keyword group. In the second phase these two groups of keywords are analyzed separately to assign primary and secondary classes to a document. The algorithm has been applied to several data bases of documents and very encouraging results have been obtained.  相似文献   

14.
为了给教育研究和管理提供可靠的决策支持,对网络信息进行分类处理就成为了一种需要。鉴于TFIDF对短文本分类存在的缺陷,本文采用基于迭代的TFIDF算法对文本向量进行了优化。试验结果表明,基于迭代的TFIDF算法可以有效提高短文本文档分类的准确率。  相似文献   

15.
尹桂秀 《情报理论与实践》2002,25(2):115-116,122
This article introduces a Chinese text automatic classification method, including its principle and classification process. The article focuses on some key theoretical problems, such as word classification, keyword collection and keyword matching.  相似文献   

16.
Using lexical chains for keyword extraction   总被引:9,自引:0,他引:9  
Keywords can be considered as condensed versions of documents and short forms of their summaries. In this paper, the problem of automatic extraction of keywords from documents is treated as a supervised learning task. A lexical chain holds a set of semantically related words of a text and it can be said that a lexical chain represents the semantic content of a portion of the text. Although lexical chains have been extensively used in text summarization, their usage for keyword extraction problem has not been fully investigated. In this paper, a keyword extraction technique that uses lexical chains is described, and encouraging results are obtained.  相似文献   

17.
刘思琼 《情报探索》2013,(12):22-27
对中国科学引文数据库(CSCD)收录的2001-2010年菌根真菌类研究文献,从年代分布、来源期刊分布、基金类别、被引情况、合著度、关键词、主题词7个方面进行统计分析.发现:2001-2007年间,我国菌根真菌研究文献量呈不断上升的趋势,但是自2008年起开始下滑;来源期刊中有83%是核心期刊,获得基金支持的论文比例高达90.39%,文献质量较高;主要作者群为高校教学科研人员,且论文多以合著形式发表;研究重点主要集中在丛枝菌根;未来研究重点将是菌根植物的生物修复作用.  相似文献   

18.
科技查新中通常采用官方免费专利数据库和商业集成专利数据库相结合的方式获取专利文献,检索时需要注意检索词的合理确定和检索字段的适当限制。对于检索到的专利文献,查新人员应当依据查新点新颖性判断原则选取最适合的对比文献,并将其以恰当的形式,准确的措辞有效地呈现在科技查新报告中。本文依据专利文献的特点,阐述了在科技查新过程中如何有效检索及正确对比分析专利文献,旨在为科技查新人员提供借鉴和参考。  相似文献   

19.
A method of automatic document classification was developed as part of a larger research project in materials selection. Documents classed as QA by the Library of Congress classification system were clustered at six thresholds by keyword using the single link technique. The automatically generated clusters were then compared to the Library of Congress subclasses to which the documents had been assigned by human classifiers. Finally, a partial classified hierarchy was formed from the individual document clusters within a single threshold. Implications of the utility of grouping documents for on-line searching are discussed.  相似文献   

20.
A method is introduced to recognize the part-of-speech for English texts using knowledge of linguistic regularities rather than voluminous dictionaries. The algorithm proceeds in two steps; in the first step information concerning the part-of-speech is extracted from each word of the text in isolation using morphological analysis as well as the fact that in English there are a reasonable number of word endings which are characteristic of the part-of-speech. The second step is to look at a whole sentence and, using syntactic criteria, to assign the part-of-speech to a single word according to the parts-of-speech and other features of the surrounding words. In particular, those parts-of-speech which are relevant for automatic indexing of documents, i.e. nouns, adjectives, and verbs, are recognized. An application of this method to a large corpus of scientific text showed the result that for 84% of the words the part-of-speech was identified correctly and only for 2% definitely wrong; for the rest of the words ambiguous assignments were made. Using only word lists of a limited extent, the technique thus may be a valuable tool aiding automatic indexing of documents and automatic thesaurus construction as well as other kinds of natural language processing.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号