首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 630 毫秒
1.
深入探讨基于词典的分词过程、常见词典结构以及分词算法。在分析现有系统的基础上,设计一个新的词典结构,对经典的分词算法进行改进,通过词典加载功能改善未登录词的识别问题,通过双向匹配算法获取最优分词结果,改善歧义识别问题。  相似文献   

2.
基于组合度的汉语分词决策算法研究   总被引:1,自引:0,他引:1  
提出了汉字组合的组合度概念,讨论了组合度与组合的成词能力之间的关系,利用决策树的方法挖掘了组合度与分词模板的关系.在此基础上得出了一种新的分词算法.实验表明组合度对组合成词能力的影响远远大于组合频率的影响.这种分词方法对汉语分词的歧义问题、人名、地名识别问题;新词识别问题等都有一定的作用.  相似文献   

3.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。  相似文献   

4.
现代汉语分词虽已取得较大进展,但是古籍文本分词由于受到古代汉语词汇特征、语义、语法等限制,始终没有形成一种行之有效的方法。通过互信息与邻接熵的新词发现方法从《汉书》中寻找未登录词,结合古代汉语词汇表、古代人名词表和古代地名表构建古籍文本分词词典,以此为基础,使用pyNLPIR对《汉书》进行分词操作。实验结果显示,新词发现方法可以在一定程度上完善古籍文本分词所需的用户词典全面性,但是对3字以上的词语识别效果较差。实验证明使用新词发现结合词典信息的方法对古籍文本进行分词能够有效提高古代汉语分词准确度。  相似文献   

5.
分词不一致问题一直严重影响带标注语料库的标注质量,利用词库与词法知识,可以合理地阐释分词不一致产生的根源,并结合建立的规则库、组合型歧义库、固定词表和特殊单字词表,可以解决汉语分词语料库中相同结构类型的分词不一致问题。计算机利用这些知识较好地识别出了“大+动词(单字)”“动补结构”和“颜色词+物体名”,召回率在96%以上,精确率在95%以上,并能根据用户的要求统一处理成“分”或“合”的形式。  相似文献   

6.
基于神经网络的人工智能分词是中文分词技术的一个重要发展方向。介绍了当前神经网络分词的研究现状,给出神经网络分词的一般模型,重点阐述BP等算法在歧义解决中的应用,介绍了BP算法在未登录词识别方面的应用,最后对分词技术的发展进行了展望。  相似文献   

7.
为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技术成为近年来一个新的研究课题。挖掘通常涉及输入文本的处理过程,中文分词是中文信息处理的基础,汉语文本基于单字,汉语的书面表达方式也是以汉字作为最小单位,词与词之间没有显性的分界标志,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,因此分词成为汉语文本分析处理中首要解决的问题。就中文分词技术进行讨论,并以2-gram模型为例,研究用JA-VA实现中文分词的过程。  相似文献   

8.
中文自然语言处理在舆情系统信息预处理中起着重要作用。提出一种基于ICTCLAS的中文舆情语料分词方法。它通过采用层叠隐马尔科夫模型将中文分词、词性标注、歧义词处理和未登录词识别进行系统集成,形成整体的系统框架。实验结果表明,该方法能够有效识别网络舆情用语,提高了分词准确率,为进一步发现高校网络舆情奠定了基础。  相似文献   

9.
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。  相似文献   

10.
分词是非谓语动词的一种形式 ,它包括现在分词和过去分词。分词的逻辑主语决定着分词的使用形式 ,所以 ,找出逻辑主语是关键的一步。但是分词的逻辑主语在句子中没有固定的位置 ,要找出它 ,就要弄清分词在句子中作什么成分。下面就从四个方面谈谈这个问题。一、作定语时 ,分词的逻辑主语是被修饰的词。如果逻辑主语是分词动作的执行者 ,就用现在分词形式 ;如果逻辑主语是分词动作的承受者 ,就用过去分词形式。例如:Thegirlsittingunderthattreeismysister.Doyouknowtheboylying…  相似文献   

11.
汉语是否应该分词连写?许多专家学者对汉语分词连写的利与弊进行了分析和阐释,但是最终没有一个定论。本文将讨论的范围缩小,对对外汉语教材是否需要分词连写进行分析和阐释。本文首先总结了以往对于汉语分词连写的研究成果,再从对外汉语教材进行分词连写的必要性和可能性两个方面进行分析,并对比日语学习教材,提出笔者的一些编写建议和解决分词连写问题的方案,希望能够对对外汉语教材的编写有所帮助。  相似文献   

12.
中分词一直是大规模语料库加工的基础,它需要能够正确识别出语料中的已知词和未登录词,而各种基于规则和统计的方法在识别已知词和未登录词时各有优劣。本试分别从已知词和未登录词识别两个方面,对ACL—SIGHAN第一届国际中分词竞赛中各参赛系统进行比较,指出中分词既需要提高已知词识别的准确率,还要能够较好地预测语料中出现的未登录词,并处理好它们之间的平衡关系。  相似文献   

13.
现代汉语新词特征探析   总被引:1,自引:0,他引:1  
新词的识别是自动分词的一大难点,也是影响分词性能的重要因素.本文主要探析了新词的内外部特征.内部特征主要探析了新词的长度特征、构词规则、构词模式、词缀化倾向,外来词和功能字的问题;外部特征主要探析了新词的局部相对词频和上下文的自由度.  相似文献   

14.
中文人名数量众多,规律各异,使得中文人名识别成为中文分词的重点和难点,中文人名识别技术的突破将对提高汉语自动分词和句法分析的准确性有着很重要的作用。本文根据中文人名的特点,利用条件随机场模型进行人名识别,通过第四届Bakeoff评测语料上测试,召回率为80.97%,准确率为94.42%,综合指标F为87.18%。  相似文献   

15.
“悬垂分词” (DanglingParticiple) ,又叫做“无依着分词” (UnattachedParticiple) ,指 -ing分词或 -ed分词结构在句中找不到它的逻辑主语 ,因而处于一种“悬垂”状态 ,即“无依着”状态。由于悬垂分词是个比较复杂的语言现象 ,如果没有对它作过深入全面的了解或掌握判断悬垂分词对与错的标准 ,在理解和使用时就可能出差错 ,本文将对悬垂分词的误用以及其可接受性作一些探讨  相似文献   

16.
垂悬分词(hangingparticiple)指的是在句子中做状语,但其逻辑主语不是句子的主语,又没有构成独立主格的动词现在分词或过去分词结构。目前,对这一语法现象说法不一,有无依附分词(unattachedparticiple)、非关系分词(unrelatedparticine)、悬吊分词(pendantpeciple)、垂悬分词(danglingparticiple)、误属分词(misrelatedparticiple)、孤立分词(isolstedpeciple)、游离分词(looseparticiple)、不合逻辑分词(illogicalparticiple)、误依着分词(wrongattachedparticiple)之说。我们知道,分词作状语一般情况下其逻辑主…  相似文献   

17.
《分词规范》与《正词法》1在中文信息处理中有着同样重要作用,两者既有各自的侧重点又存在一些共性的,两者所规定的词均与"语法词"、"词汇词"存在着联系,但《正词法》规定的分词连写方式并不能够解决中文信息处理的分词问题,只有充分利用《正词法》的研究成果,再结合中文信息处理的特点,才能使《分词规范》更加完善,促进中文信息处理分词问题的解决。  相似文献   

18.
李海波 《现代语文》2010,(7):117-118
本文在对《老屋窗口》一文进行手工分词和词性标注的基础上,归纳总结了手工分词和词性标注存在的问题,为中文信息处理中的分词与词性标注提供一定的参考价值。  相似文献   

19.
—ing分词短语无论在句中担任什么成分,都有它的逻辑主语。除非它的逻辑主语是句子的主语,否则就应根据语义意图在—ing分词短语之前标出它的逻辑主语。被标出的逻辑主语该使用什么格?各种语法书对这个问题都讲得简单、零散。本文拟对这个问题进行归纳和说明,以期对学生在掌握这个问题时有所帮助。 一、作主语用的—ing分词短语的逻辑主语的格的使用 〈一〉这一逻辑主语通常是用名词和代的属格。例如:  相似文献   

20.
“悬垂分词”(Dangling Participle),又叫做“无依着分词”(Unattached Participle),指-ing分词或-ed词结构在句中找不到它的逻辑主语,因而处于一种“悬垂”状态,即“无依着”状态。由于悬垂分词是个比较复杂的语言现象,如果没有对它作过深入全面的了解或掌握判断悬垂分词对与错的标准,在理解和使用时就可能出差错,本将对悬垂分词的误用以及其可接受性作一些探讨。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号