首页 | 本学科首页   官方微博 | 高级检索  
     检索      

无词典中文高频词快速抽取算法
引用本文:江华,苏晓光.无词典中文高频词快速抽取算法[J].现代图书情报技术,2012(6):50-53.
作者姓名:江华  苏晓光
作者单位:海军工程大学装备经济管理系
摘    要:在PAT数组的基础上,引入LCP数组记录文本后缀串的相同前缀长度,通过扫描LCP数组快速抽取文本高频词。该算法不依赖于分词词典,通过探测重复出现串来提取高频词,并能够抽取任意重复字符串,对新词、组合词抽取特别有效。实验结果表明,该算法抽取的高频词可以达到较高的可接受率,在与ICTCLAS系统关键词抽取的比较中也有较高的相同率,且在发现组合词方面更具优势。

关 键 词:中文信息处理  高频词抽取  PAT数组  中文分词  关键词分析

Chinese High-frequency Words Extraction Algorithm Without Thesaurus
Jiang Hua Su Xiaoguang.Chinese High-frequency Words Extraction Algorithm Without Thesaurus[J].New Technology of Library and Information Service,2012(6):50-53.
Authors:Jiang Hua Su Xiaoguang
Institution:Jiang Hua Su Xiaoguang (Department of Equipment Economics and Management,Naval University of Engineering,Wuhan 430033,China)
Abstract:
Keywords:
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号