共查询到20条相似文献,搜索用时 109 毫秒
1.
神经网络技术在汉语歧义切分中的应用 总被引:4,自引:1,他引:3
针对目前汉语自动分词系统中切分歧义的难点,本文提出利用神经网络模式识别的方法帮助消歧。介绍了所建立的实验系统,并进行了实验分析。 相似文献
2.
3.
基于双向最大匹配和HMM的分词消歧模型* 总被引:1,自引:0,他引:1
提出一种消减分词切分歧义的模型。利用正向和逆向最大匹配方法对中文文本信息进行分词,基于隐马尔科夫模型对两次最大匹配的分词结果进行对比消歧,得到较为精确的结果。整个过程分为歧义发现、歧义抽取、歧义消除3个过程。测试结果显示,该模型能有效地降低分词歧义引起的错误切分率。 相似文献
4.
歧义字段的处理是汉语自动分词系统中重要而困难的问题之一.歧义处理正确率的高低直接影响着分词的质量.为了解决汉语自动分词系统中的歧义问题,本文基于<知网>的义原关系,在分析了影响词语语义相关度的主要因素后,引入相关度计算,利用<知网>中义原之间的纵向和横向关系及实例因素计算出不同词性的相关度,根据相似度的对称性计算实例的影响因素,由此来提高语义相关度的准确率,同时针对所提出的方法给出了实例验证.实验结果表明,该方法计算得到的语义相关度结果更加合理,为消除汉语自动分词中的歧义问题提供了良好的支撑依据,也使得汉语自动分词系统处理歧义字段更有效. 相似文献
5.
随着计算机科学的发展,自然语言处理技术在计算机信息检索系统中的应用越来越广泛。对自然语言处理的研究已经成为信息处理系统中的一个重要课题。语词切分是汉语自然语言处理的第一个阶段。目前,计算机自动分词系统的精度尚不能满足实际需求。本文针对影响切分精度的根本因素——歧义现象,提出了采用神经网络模式识别来消除歧义的方法,以达到提高切分精度的目的。 文中对歧义字段进行了分类,分析了其表现形式和现有的消歧机制,以及歧义切分与模式识别之间的关系,研究了神经网络模式识别方法与歧义切分问题相适应的特点。遵循模式识别的一般步骤,对歧义字段进行特征提取,然后,选用神经网 相似文献
6.
7.
8.
9.
针对中文自动标引过程中经常会产生诸多歧义词,导致检出的信息不切题或漏检这一问题,在论述自动标引中歧义词消除方法的相关研究基础上,提出一种将穷举法和消歧规则相结合的歧义词消除方法。测试结果表明,这是一种行之有效的消除歧义词的方法。 相似文献
10.
基于两字词簇的汉语快速自动分词算法 总被引:10,自引:1,他引:9
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现 相似文献
11.
汉语自动分词是计算机中文信息处理中的难题。文章通过对现有分词方法的探讨,指出了汉语自动分词研究未来的发展趋势,即传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。参考文献35。 相似文献
12.
13.
汉语自动分词研究展望 总被引:13,自引:1,他引:13
汉语自动分词是计算机中文信息处理中的难题。本文通过对现有分词方法的分析,指出了今后汉语自动分词研究的三个发展方向,即对传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。 相似文献
14.
基于既定词表的自适应汉语分词技术研究 总被引:3,自引:0,他引:3
提出一种汉语分词算法,在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。 相似文献
15.
基于哈希算法的中文分词算法的改进 总被引:1,自引:0,他引:1
中文分词是中文信息处理一个重要的部分,一些应用不仅要准确率,速度也很重要,通过对已有算法的分析,特别是对快速分词算法的分析,本文提出了一种新的词典结构,并根据新的词典给出了新的分词算法,该算法不仅对词首字实现了哈希查找,对词余下的字也实现哈希查找。理论分析和实验结果表明,算法在速度和效率比现有的几种分词算法上有所提高。 相似文献
16.
17.
单汉字标引方法的改进研究 总被引:2,自引:1,他引:1
本文根据信息论中的交互信息,给出了相邻汉字相关度的测量方法,在此基础上提出了基于字串预分割的单汉字标引检索方法,对当前具有代表性的单汉字标引方法进行了改进研究。试验证明本文提出的方法具有较好的性能 相似文献
18.
Xiangji Huang Fuchun Peng Dale Schuurmans Nick Cercone Stephen E. Robertson 《Information Retrieval》2003,6(3-4):333-362
We propose a self-supervised word segmentation technique for text segmentation in Chinese information retrieval. This method combines the advantages of traditional dictionary based, character based and mutual information based approaches, while overcoming many of their shortcomings. Experiments on TREC data show this method is promising. Our method is completely language independent and unsupervised, which provides a promising avenue for constructing accurate multi-lingual or cross-lingual information retrieval systems that are flexible and adaptive. We find that although the segmentation accuracy of self-supervised segmentation is not as high as some other segmentation methods, it is enough to give good retrieval performance. It is commonly believed that word segmentation accuracy is monotonically related to retrieval performance in Chinese information retrieval. However, for Chinese, we find that the relationship between segmentation and retrieval performance is in fact nonmonotonic; that is, at around 70% word segmentation accuracy an over-segmentation phenomenon begins to occur which leads to a reduction in information retrieval performance. We demonstrate this effect by presenting an empirical investigation of information retrieval on Chinese TREC data, using a wide variety of word segmentation algorithms with word segmentation accuracies ranging from 44% to 95%, including 70% word segmentation accuracy from our self-supervised word-segmentation approach. It appears that the main reason for the drop in retrieval performance is that correct compounds and collocations are preserved by accurate segmenters, while they are broken up by less accurate (but reasonable) segmenters, to a surprising advantage. This suggests that words themselves might be too broad a notion to conveniently capture the general semantic meaning of Chinese text. Our research suggests machine learning techniques can play an important role in building adaptable information retrieval systems and different evaluation standards for word segmentation should be given to different applications. 相似文献
19.
20.
针对目前中文文献自动分词的技术现状,利用数据库语言Visual FoxPro,设计出一种简洁而有特色的切分算法,列出算法流程图和核心程序代码,并通过大量实验,给予客观的评价。 相似文献