首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于多重哈希词典和K-最短路径算法的中文粗分词方案研究
引用本文:岑咏华.一种基于多重哈希词典和K-最短路径算法的中文粗分词方案研究[J].情报理论与实践,2009,32(3).
作者姓名:岑咏华
作者单位:南京大学,信息管理系,江苏,南京,210093;南京理工大学,经济管理学院信息管理系,江苏,南京,210094
摘    要:本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想.最后,论文对所研究技术方案进行了系统实现.系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能.

关 键 词:哈希词典  算法  中文分词

Research on the Web Information Extraction Method Based on Vision Block
Cen Yonghua.Research on the Web Information Extraction Method Based on Vision Block[J].Information Studies:Theory & Application,2009,32(3).
Authors:Cen Yonghua
Abstract:Focusing on the Chinese word rough segmentation, this paper designs a dictionary structure based on Multiple Hash to improve the efficiency of dictionary matching, and meanwhile improve the K-shortest path searching mechanism applied in ICTCLAS based on Deletion Algorithm. Finally, the paper constructs the Chinese word rough segmentation system by the use of the proposed technological schemes. The experimental results prove the good performance of the Chinese word rough segmentation proposed by this paper t...
Keywords:Hash dictionary  algorithm  Chinese word segmentation  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号