首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
深入探讨基于词典的分词过程、常见词典结构以及分词算法。在分析现有系统的基础上,设计一个新的词典结构,对经典的分词算法进行改进,通过词典加载功能改善未登录词的识别问题,通过双向匹配算法获取最优分词结果,改善歧义识别问题。  相似文献   

2.
本文介绍了汉语自动分词和网络语言的特点,利用双字哈希索引分词词典机制进行汉语分词,证明其方法的有效性.  相似文献   

3.
中文分词技术综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的基础,分词系统也是中文信息处理中的一个主要组成部分,对中文文本的分词处理目前已经应用到了中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统等领域。本文对现有的中文分词技术进行了综述,分析了现有分词方法的技术特点,指出了部分分词方法存在的优缺点。  相似文献   

4.
基于碎片分词的未登录词识别方法   总被引:1,自引:0,他引:1  
提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片中的未登录词。实验证明该方法开放测试的准确率达到82.88%,召回率达到87.51%。  相似文献   

5.
现代汉语分词虽已取得较大进展,但是古籍文本分词由于受到古代汉语词汇特征、语义、语法等限制,始终没有形成一种行之有效的方法。通过互信息与邻接熵的新词发现方法从《汉书》中寻找未登录词,结合古代汉语词汇表、古代人名词表和古代地名表构建古籍文本分词词典,以此为基础,使用pyNLPIR对《汉书》进行分词操作。实验结果显示,新词发现方法可以在一定程度上完善古籍文本分词所需的用户词典全面性,但是对3字以上的词语识别效果较差。实验证明使用新词发现结合词典信息的方法对古籍文本进行分词能够有效提高古代汉语分词准确度。  相似文献   

6.
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。  相似文献   

7.
互联网信息飞速增长,网络资源不断增加,于是搜索引擎应运而生,它的出现为我们在网络上搜集我们所需要的资源提供了很大的方便,但是人们并不满足于早期的搜索引擎的功能和速度,于是搜索引擎开始不断地被更新和完善,而分词对于搜索引擎的更新和完善起着很重要的作用。分词作为搜索引擎的重要组成部分,对搜索引擎的查找正确率以及查找速度具有很大的影响。它将用户输入的语句分割成一个个词语和单字,这样检索程序就能很容易地理解用户所需要的信息,从而为用户返回正确且有价值的信息资料。本文通过对正向最大匹配、逆向最大匹配等分词算法以及词典的整词二分、TRIE索引树、逐字二分和双哈希构造方法进行理论分析,了解各种分词算法和词典构造方法的优点和缺点,并用Java编程实现正向最大匹配、逆向最大匹配的分词算法以及一维线性表、首字哈希、双哈希三种词典构造方法,最终整合实现了Java分词系统。  相似文献   

8.
王立忠 《甘肃教育》2005,(12):44-44
动词是NMET考查的重点内容,而分词则是每年NMET动词部分的必考项目。学好现在分词及过去分词的关键.主要是看分词与相关的名词或代词之间的关系。相关的名词、代词是分词动作的执行者.即主动意义,用现在分词;相关的名词、代词是分词动作的承受者.即被动意义.则用过去分词。作形容词用的分词也不例外。下面结合近年来NMET中相关的考点,作简要分析。  相似文献   

9.
綦冬芳 《学子》2004,(6):53-53
分词包括现在分词和过去分词,现在分词有主动的意思,而过去分词有被动的意思;现在分词表示动作正在发生,而过去分词表示动作已经发生。分词是动词的一种非谓语形式,在句中可以做状语、定语、表语和宾语补足语,它是英语学习中重要语法内容之一。为更容易、更有效地掌握好分词,我尝试用以下五种方法。现分述如下,供同学们学习时参考。  相似文献   

10.
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合,从而实现中文文本结构化的表示。  相似文献   

11.
分析现有的词表切分法、自动切分算法的不足,通过改进Lucene系统的分词功能,设计了一个基于Lucene的中文数码产品搜索引擎,重点探讨了该搜索引擎的中文分词功能,实验证明本方法对中文词语可以设定正向匹配的字数,从而灵活的有效地进行中文分词。  相似文献   

12.
描述了汉语自动分词中切分歧义的发现和歧义字段的消除,给出了基于词典的汉语词自动切分和基于统计的词类与词性歧义消除的模型和实现方法.  相似文献   

13.
提出一种基于近邻匹配新的分词算法Jlppeccz,该算法首先把一篇文章以标点符号为界线分成若干个句子,然后用近邻匹配方法把一句话切分成1~4字的词,通过对词库的搜索,对已分的词进行重组,把小词合并成大词,再将处理过的词存储到一个临时的词库里,以备后续的句子查找,并可实现对词库添加词的功能.与经典MM算法和词频统计方法相比,本文算法有较大的改进.  相似文献   

14.
语素的切分是各种语法理论都不能回避的问题.汉语语素的切分与提取存在各种争议.对汉语素切分中存在的问题,从方法论角度分析了汉语语素提取中的双项对比、不定位双项对比以及剩余语素的解释力,提出汉语语素切分的两个必要条件:1.平行;2.切分出的最小音义结合体能够在构词层面直接参与构词.此外,从共时角度,在重新认识汉语语素的基础上提出汉语语素的切分程序.  相似文献   

15.
为扩展分词知识库,提高自动分词能力,本文提出了一种基于自学习机制的汉语自动分词系统。该系统通过对逐词匹配法进行改进,结合分词规则来实现自动分词,并采用统计提取等自学习机制来完善和丰富分词知识库。模拟结果表明该系统能有效获取知识,获得较高的字段切分正确率。  相似文献   

16.
借助于统计语言模型将汉语分词转换为字序列标注并实现汉语分词已经成为近年来汉语分词的主流方法,但统计语言模型训练时间较长一直是这一方法中的最大问题.提出了一种基于三词位的字标注汉语分词方法,并在bakeoff2005提供的语料上进行了对比实验,结果表明该方法可以取得接近四词位字标注分词方法的性能,但在模型的训练时间上明显优于四词位标注方法.  相似文献   

17.
词切分是指在阅读过程中把连续的语言信息切分成有意义的单元,以促进文本的阅读与加工。拼音文字中的词间空格起到了词切分的作用;而中文属于表意文字,书写方式与拼音文字不同,没有词间空格。拼音文字阅读词切分的研究发现,词间空格标示了词切分的位置,是词切分的依据,而且,空格有效地引导读者的眼动行为;而中文的文本没有类似空格的词边界的标记,人为标记词边界不能促进阅读,但是人为添加的词间空格能够促进单词的早期识别。关于中文的词切分已有大量研究,但仍存在如下需要解决的问题:(1)对中文词切分的切分依据的研究还没有一致的结论;(2)中文阅读眼动控制模型的构建还不成熟;(3)词切分与初学者学习之间的关系有待研究;(4)对外汉语教学的教材如何有效处理词切分;等等。未来研究应在以上方面加以探讨。  相似文献   

18.
图像分割是图像分析和处理的关键步骤,医学图像分割是图像分割的一个重要应用领域。本文讨论了医学图像分割的目的和意义,对医学图像分割的常用技术进行了研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号