共查询到18条相似文献,搜索用时 171 毫秒
1.
2.
3.
4.
基于碎片分词的未登录词识别方法 总被引:1,自引:0,他引:1
周蕾 《常熟理工学院学报》2007,21(2):77-81
提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片中的未登录词。实验证明该方法开放测试的准确率达到82.88%,召回率达到87.51%。 相似文献
5.
现代汉语分词虽已取得较大进展,但是古籍文本分词由于受到古代汉语词汇特征、语义、语法等限制,始终没有形成一种行之有效的方法。通过互信息与邻接熵的新词发现方法从《汉书》中寻找未登录词,结合古代汉语词汇表、古代人名词表和古代地名表构建古籍文本分词词典,以此为基础,使用pyNLPIR对《汉书》进行分词操作。实验结果显示,新词发现方法可以在一定程度上完善古籍文本分词所需的用户词典全面性,但是对3字以上的词语识别效果较差。实验证明使用新词发现结合词典信息的方法对古籍文本进行分词能够有效提高古代汉语分词准确度。 相似文献
6.
甘秋云 《唐山师范学院学报》2013,(5):55-57
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。 相似文献
7.
互联网信息飞速增长,网络资源不断增加,于是搜索引擎应运而生,它的出现为我们在网络上搜集我们所需要的资源提供了很大的方便,但是人们并不满足于早期的搜索引擎的功能和速度,于是搜索引擎开始不断地被更新和完善,而分词对于搜索引擎的更新和完善起着很重要的作用。分词作为搜索引擎的重要组成部分,对搜索引擎的查找正确率以及查找速度具有很大的影响。它将用户输入的语句分割成一个个词语和单字,这样检索程序就能很容易地理解用户所需要的信息,从而为用户返回正确且有价值的信息资料。本文通过对正向最大匹配、逆向最大匹配等分词算法以及词典的整词二分、TRIE索引树、逐字二分和双哈希构造方法进行理论分析,了解各种分词算法和词典构造方法的优点和缺点,并用Java编程实现正向最大匹配、逆向最大匹配的分词算法以及一维线性表、首字哈希、双哈希三种词典构造方法,最终整合实现了Java分词系统。 相似文献
8.
动词是NMET考查的重点内容,而分词则是每年NMET动词部分的必考项目。学好现在分词及过去分词的关键.主要是看分词与相关的名词或代词之间的关系。相关的名词、代词是分词动作的执行者.即主动意义,用现在分词;相关的名词、代词是分词动作的承受者.即被动意义.则用过去分词。作形容词用的分词也不例外。下面结合近年来NMET中相关的考点,作简要分析。 相似文献
9.
10.
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合,从而实现中文文本结构化的表示。 相似文献
11.
刘敏娜 《咸阳师范学院学报》2012,27(2):55-57
分析现有的词表切分法、自动切分算法的不足,通过改进Lucene系统的分词功能,设计了一个基于Lucene的中文数码产品搜索引擎,重点探讨了该搜索引擎的中文分词功能,实验证明本方法对中文词语可以设定正向匹配的字数,从而灵活的有效地进行中文分词。 相似文献
12.
描述了汉语自动分词中切分歧义的发现和歧义字段的消除,给出了基于词典的汉语词自动切分和基于统计的词类与词性歧义消除的模型和实现方法. 相似文献
13.
提出一种基于近邻匹配新的分词算法Jlppeccz,该算法首先把一篇文章以标点符号为界线分成若干个句子,然后用近邻匹配方法把一句话切分成1~4字的词,通过对词库的搜索,对已分的词进行重组,把小词合并成大词,再将处理过的词存储到一个临时的词库里,以备后续的句子查找,并可实现对词库添加词的功能.与经典MM算法和词频统计方法相比,本文算法有较大的改进. 相似文献
14.
冯佳 《昆明师范高等专科学校学报》2013,(1):132-135
语素的切分是各种语法理论都不能回避的问题.汉语语素的切分与提取存在各种争议.对汉语素切分中存在的问题,从方法论角度分析了汉语语素提取中的双项对比、不定位双项对比以及剩余语素的解释力,提出汉语语素切分的两个必要条件:1.平行;2.切分出的最小音义结合体能够在构词层面直接参与构词.此外,从共时角度,在重新认识汉语语素的基础上提出汉语语素的切分程序. 相似文献
15.
16.
借助于统计语言模型将汉语分词转换为字序列标注并实现汉语分词已经成为近年来汉语分词的主流方法,但统计语言模型训练时间较长一直是这一方法中的最大问题.提出了一种基于三词位的字标注汉语分词方法,并在bakeoff2005提供的语料上进行了对比实验,结果表明该方法可以取得接近四词位字标注分词方法的性能,但在模型的训练时间上明显优于四词位标注方法. 相似文献
17.
词切分是指在阅读过程中把连续的语言信息切分成有意义的单元,以促进文本的阅读与加工。拼音文字中的词间空格起到了词切分的作用;而中文属于表意文字,书写方式与拼音文字不同,没有词间空格。拼音文字阅读词切分的研究发现,词间空格标示了词切分的位置,是词切分的依据,而且,空格有效地引导读者的眼动行为;而中文的文本没有类似空格的词边界的标记,人为标记词边界不能促进阅读,但是人为添加的词间空格能够促进单词的早期识别。关于中文的词切分已有大量研究,但仍存在如下需要解决的问题:(1)对中文词切分的切分依据的研究还没有一致的结论;(2)中文阅读眼动控制模型的构建还不成熟;(3)词切分与初学者学习之间的关系有待研究;(4)对外汉语教学的教材如何有效处理词切分;等等。未来研究应在以上方面加以探讨。 相似文献
18.
朱文婕 《安徽科技学院学报》2011,25(3):39-42
图像分割是图像分析和处理的关键步骤,医学图像分割是图像分割的一个重要应用领域。本文讨论了医学图像分割的目的和意义,对医学图像分割的常用技术进行了研究。 相似文献