首页 | 本学科首页   官方微博 | 高级检索  
     检索      

利用三元模型及依存分析查找中文文本错误
引用本文:马金山,张宇,刘挺,李生.利用三元模型及依存分析查找中文文本错误[J].情报学报,2004,23(6):723-728.
作者姓名:马金山  张宇  刘挺  李生
作者单位:哈尔滨工业大学计算机学院,哈尔滨,150001
基金项目:国家自然科学基金资助项目 (6 0 2 0 30 2 0 )
摘    要:自动校对是自然语言处理领域中有着广阔应用前景的一个研究方向。针对目前查错方法的诸多不足 ,本文应用n gram模型进行文本局部错误的查找 ,并对用 4种方法建立的模型分别进行了自动校对的实验 ,从中选出查找局部错误效果最好的三元字模型。同时将依存文法分析应用于自动校对中 ,进行远距离搭配错误的查找 ,较好地解决了文本中的一些全局错误。结合对文本的散串处理 ,该方法获得了 6 4 91%的准确率和 6 9 0 5 %的召回率 ,证明了三元字结合依存分析及散串处理这种方法的可行性

关 键 词:自动校对  n-gram模型  依存分析
修稿时间:2003年3月10日

Detecting Chinese Text Errors Based on Trigram and Dependency Parsing
Ma Jinshan,Zhang Yu,Liu Ting and Li Sheng.Detecting Chinese Text Errors Based on Trigram and Dependency Parsing[J].Journal of the China Society for Scientific andTechnical Information,2004,23(6):723-728.
Authors:Ma Jinshan  Zhang Yu  Liu Ting and Li Sheng
Abstract:Automatic proofreading opens up broad possibilities for the application of natural language processing. In this paper, n-gram is used to analyze the part of sentence and detect local errors, and experiments made with the different four methods show that character trigram is the best. Then dependency parsing is introduced into automatic proofreading and helps to detect collocation errors with long distance. Dependency grammar parses the whole sentence and denotes dominating and dominated relation among the words, efficiently filling up the deficiency of n-gram. Finally an ideal system of automatically detecting errors is obtained with processing separate string of text. Experiments show that our method achieves precision of 64 91% and recall of 69 05%.
Keywords:automatic proofreading  n-gram model  dependency parsing  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号