首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于N-Gram的专业领域中文新词识别研究
引用本文:段宇锋,鞠菲.基于N-Gram的专业领域中文新词识别研究[J].现代图书情报技术,2012(2):41-47.
作者姓名:段宇锋  鞠菲
作者单位:华东师范大学商学院
基金项目:教育部人文社会科学研究青年基金项目“基于深度语义标注的网络中文学术信息抽取研究——以生物多样性描述为例”(项目编号:10YJC870004)的研究成果之一
摘    要:以植物学作为专业领域的样本,对专业领域的新词自动化识别进行探索。研究选取《中国植物志》作为样本集,在ICTCLAS切词的基础上采用N-Gram统计的方法提取新词的候选项,然后分别按照词频(TF)、文档频率(D)和平均词频(TF/D)对新词候选项排序,取一定范围内的候选项作为识别出的新词。实验结果表明,词频TF筛选新词候选项的识别效果最好,F值为0.65。该方法能够自动产生专业领域的用户词典,具有较强的可移植性。

关 键 词:N-Gram  新词识别  词频统计

Research on Chinese New Word Recognition in Specialized Field Based on N-Gram
Duan Yufeng Ju Fei.Research on Chinese New Word Recognition in Specialized Field Based on N-Gram[J].New Technology of Library and Information Service,2012(2):41-47.
Authors:Duan Yufeng Ju Fei
Institution:Duan Yufeng Ju Fei(Business School,East China Normal University,Shanghai 200241,China)
Abstract:
Keywords:N-Gram New word recognition Term frequency
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号