首页 | 本学科首页   官方微博 | 高级检索  
     检索      

中国古籍文本分词的一次试验
引用本文:黄建年,侯汉清.中国古籍文本分词的一次试验[J].情报学报,2011,30(6).
作者姓名:黄建年  侯汉清
作者单位:1. 南京财经大学图书馆,南京,210046
2. 南京农业大学信息科技学院,南京,210095
基金项目:国家社会科学基金重点项目,教育部人文社会科学基金
摘    要:综合采用切分标志、分词词典和N元语法3种方法对古籍文本进行分词,并采用子串比较过滤、相邻词过滤、高频词过滤、低频词过滤等方法对分词结果进行过滤,分别以12种农业古籍和379种<广东方志物产>为语料进行了古籍分词测试.从12种农业古籍中共识别出已有词1164个,约占总词汇量的31%;未登录词2530个,占总词汇的69%.从379种<广东方志物产>资料中共识别出已有词6314个,占总词汇的8%;未登录词75 438个,则占总词汇的92%.通过对379种<广东方志物产>分词结果的分析发现,当词频等级位于区间(2000,8000)时,词频等级与频次乘积基本为常数23 000 000.这一结果说明齐夫定律在古籍文本中同样适用.

关 键 词:分词  切分算法  切分标记  N元语法  农业古籍

An Experiment on Word Segmentation for Ancient Agricultural Books
Huang Jiannian,Hou Hanqing.An Experiment on Word Segmentation for Ancient Agricultural Books[J].Journal of the China Society for Scientific andTechnical Information,2011,30(6).
Authors:Huang Jiannian  Hou Hanqing
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号