共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
汉语自动分词研究展望 总被引:13,自引:1,他引:13
汉语自动分词是计算机中文信息处理中的难题。本文通过对现有分词方法的分析,指出了今后汉语自动分词研究的三个发展方向,即对传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。 相似文献
3.
本文讨论了书面汉语的人工辅助分词和自动分词,并以汉语语言学为依据归纳了用汉语词素构词的类型。就书面汉语自动分词的复杂性和依赖于汉语词素构词法的自动分词的可行性进行了分析。本文给出了该自动切分方法分层处理的基本构思和程序框图。 相似文献
4.
汉语自动分词研究进展 总被引:11,自引:0,他引:11
汉语自动分词是计算机中文信息处理中的难题,文章通过对现有自动分词方法研究进展的分析。指出了今后汉语自动分词研究的三个发展方向,即对传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。 相似文献
5.
汉语自动分词是计算机中文信息处理中的难题。文章通过对现有分词方法的探讨,指出了汉语自动分词研究未来的发展趋势,即传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。参考文献35。 相似文献
6.
神经网络技术在汉语歧义切分中的应用 总被引:4,自引:1,他引:3
针对目前汉语自动分词系统中切分歧义的难点,本文提出利用神经网络模式识别的方法帮助消歧。介绍了所建立的实验系统,并进行了实验分析。 相似文献
7.
基于神经网络的汉语自动分词系统的设计与分析 总被引:14,自引:1,他引:14
应用神经网络进行汉语自动分词研究是中文信息处理领域的重要课题。本文从分析神经网络的一个主要模型和算法入手,阐述了基于神经网络的汉语自动分词系统的设计方法,较详细地介绍了该系统的实验结果,并给出了必要的分析。 相似文献
8.
汉语自动分词研究的现状与新思维 总被引:17,自引:2,他引:15
汉语自动分词是机器翻译、文献标引、智能检索、自然语言理解与处理的基础。本文对十余年来的汉语自动分词的研究方法与成果进行了综合论述, 分析了现有分词方法的特点, 提出了把神经网络和专家系统结合起来建立集成式汉语自动分词系统的新思维。 相似文献
9.
基于词形的汉语文本切分方法 总被引:3,自引:0,他引:3
本文在分析汉语分词一般模型基础上,引入词形概率、词整合系数和词形网格等概念,提出了一个基于词形的汉语文本切分模型,并实现了一个反向动态规划和正向栈解码相结合的二次扫描的汉语文本切分算法。由于引入了词形概率、词整合系数,本模型不仅反映了词形统计构词规律,而且在一定程度上体现了长词优先的切分原则。初步测试表明,本方法的切分准确率和消歧率分别可达996%和9344%。 相似文献
10.
随着计算机科学的发展,自然语言处理技术在计算机信息检索系统中的应用越来越广泛。对自然语言处理的研究已经成为信息处理系统中的一个重要课题。语词切分是汉语自然语言处理的第一个阶段。目前,计算机自动分词系统的精度尚不能满足实际需求。本文针对影响切分精度的根本因素——歧义现象,提出了采用神经网络模式识别来消除歧义的方法,以达到提高切分精度的目的。 文中对歧义字段进行了分类,分析了其表现形式和现有的消歧机制,以及歧义切分与模式识别之间的关系,研究了神经网络模式识别方法与歧义切分问题相适应的特点。遵循模式识别的一般步骤,对歧义字段进行特征提取,然后,选用神经网 相似文献
11.
汉语自动分词模式自动机构造研究 总被引:1,自引:2,他引:1
吴绍根 《现代图书情报技术》2006,1(5):47-49
基于有限状态自动机,提出一种新型的有限自动机模型--模式自动机,并以该模型为基础,设计出一种新的汉语自动分词模型,给出构造汉语自动分词模型的核心数据结构和构造算法,并分析该分词算法的复杂度。 相似文献
12.
歧义字段的处理是汉语自动分词系统中重要而困难的问题之一.歧义处理正确率的高低直接影响着分词的质量.为了解决汉语自动分词系统中的歧义问题,本文基于<知网>的义原关系,在分析了影响词语语义相关度的主要因素后,引入相关度计算,利用<知网>中义原之间的纵向和横向关系及实例因素计算出不同词性的相关度,根据相似度的对称性计算实例的影响因素,由此来提高语义相关度的准确率,同时针对所提出的方法给出了实例验证.实验结果表明,该方法计算得到的语义相关度结果更加合理,为消除汉语自动分词中的歧义问题提供了良好的支撑依据,也使得汉语自动分词系统处理歧义字段更有效. 相似文献
13.
全文检索中的汉语自动分词及其歧义处理 总被引:3,自引:0,他引:3
歧义处理是汉语自动分词的核心问题,汉语自动分词是中文信息检索的基础性课题。目前有基于词典的分词方法、基于统计的分词方法、基于语义的分词方法和基于人工智能的分词方法。自动分词的歧义处理,目前主要有:利用“长词优先”排歧,利用特征词消歧,利用“互信息”和“t-信息差”消歧,利用专家系统分词消歧。参考文献15。 相似文献
14.
15.
基于既定词表的自适应汉语分词技术研究 总被引:3,自引:0,他引:3
提出一种汉语分词算法,在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。 相似文献
16.
基于EM算法的汉语自动分词方法 总被引:9,自引:1,他引:8
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。 相似文献
17.
在中文切分算法设计上,好的算法一般要注重两个方面,一个是提高切分精度,另一个是提高切分速度。本文在逆向最大匹配的算法切分基础上,结合临近匹配算法在中文切分速度方面的优势,提出了一种逆向匹配快速切分算法。此算法由于使用了索引排序查找,所以在速度上比一般的全库扫描更快;在切分精度上,根据汉语语句中心语偏后的特点,采用了逆序匹配,可以更进一步提高切分精度。并通过在综合语料库中的语料上的分析,交集型歧义的自动消解上有着很好的优势。 相似文献
18.
基于两字词簇的汉语快速自动分词算法 总被引:10,自引:1,他引:9
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现 相似文献
19.
一种面向中文信息检索的汉语自动分词方法 总被引:3,自引:1,他引:3
孙巍 《现代图书情报技术》2006,1(7):33-36
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。 相似文献
20.
用于汉语文献自动标引的词典结构研究 总被引:1,自引:0,他引:1
用于汉语文献自动标引的词典组织结构对自动标引的效率有很大影响,自动标引中运用的词典查找算法有其自身的特点,符合这种特点的词典结构能提高自动标引过程中分词的速度。本文在分析了几种常用的词典结构的空间效率和时间效率之后,提出了一种通用而高效的词典组织方法。采用这种方法的词典,其体积可以减小到原来的0.4倍,分词速度提高到原来的2.5倍。 相似文献