共查询到20条相似文献,搜索用时 37 毫秒
1.
藏文分词是藏文信息处理的基础,歧义问题是藏文分词的一个难点,而交集型歧义问题占藏文分词歧义问题的90%以上,因此,对交集型歧义问题的研究是藏文分词研究的一个重点。本文通过统计分析,按藏文文本中交集型歧义的规则特点,给出了一种改进的藏文分词交集型歧义消解方法,从而进一步提高了藏文自动分词的准确率。 相似文献
2.
微软公司以叠置引擎和OpenType字库技术为基础,于2007年推出了基于藏文国际标准编码Unicode字符动态组合的藏文系统。该系统支持与藏文书写方式相一致的输入法,并能解决国内其他藏文系统普遍存在的缺字问题,其发展趋势很强,已成为藏文资源及藏文应用软件开发的主流平台。藏文分词作为信息处理的基础性工作之一,在藏文信息检索、自动校对、机器翻译等领域有着广泛的应用,所以很有必要对Unicode藏文文本进行分词研究。 相似文献
3.
4.
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望. 相似文献
5.
6.
7.
一种基于词典的中文分词法的设计与实现 总被引:1,自引:0,他引:1
中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动摘要、自动校对等领域。就中文分词的基本方法作了简单阐述,并介绍了一种基于词典采用最大匹配法实现中文分词的方法。 相似文献
8.
9.
10.
汉语自动分词技术的最新发展及其在信息检索中的应用 总被引:2,自引:0,他引:2
分析了汉语自动分词与自然语言处理、自动分词与信息检索之间的关系,在此基础上,介绍了近年来自动分词系统实现的技术,分析了自动分词技术在信息检索中应用的有关问题。 相似文献
11.
12.
本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。 相似文献
13.
句型转换的机器翻译理论模型与一些处理方法 总被引:3,自引:0,他引:3
自动分词和译文生成处理是混合式汉英机器翻译的两个重要阶段。本文主要工作有:第一,讨论了机器翻译的理论模型;第二,给出了一个自动分词算法,提出了一个初步消歧方法;第三,建立汉英机器翻译的时态转换及相关匹配规则。 相似文献
14.
【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分
词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后
的共4个月新时代的人民日报分词语料为研究对象,通过统计词频、词长、从合度等信息,从名词、动词、数词、量词、
副词、形容词、区别词、方位词、处所词、时间词、代词、介词、连词、助词、习用语、否定词、前后缀等类型来讨论变异
词的切分规律。【结果/结论】结果发现新时代的人民日报语料中的切分变异大部分为假歧义,相同语法结构的二字
词要比三字词、四字词的切分变异从合度更高。【创新/局限】本文首次面向新时代的人民日报语料讨论了中文分词
歧义的问题,但缺少与旧语料的对比分析。 相似文献
15.
16.
17.
信息检索中的中文分词问题研究 总被引:1,自引:0,他引:1
分析了信息检索中的中文分词歧义问题, 引入N元文法和平滑算法对切分歧义问题和数据稀疏问题进行处理解决, 从而来提高信息检索速度和质量. 相似文献
18.
基于相邻知识的汉语自动分词系统研究 总被引:2,自引:0,他引:2
本文通过对计算机汉语自动分词的分析和研究,提出了基于相邻知识的自动分词方法。介绍了汉语分词系统,该系统的自学习机制,提高系统运行效率的方法,指出了进一步发展的方向。 相似文献
19.
20.
汉语文献自动分词与标引研究综述 总被引:3,自引:0,他引:3
本文根据近年来国内发表的有关自动分词与标引的部分文章,对汉语文献自动分词方法和自动标引技术进行了分析和归纳,并提出了自动标引质量评价和标引模型评价指标的问题。 相似文献