首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 37 毫秒
1.
藏文分词是藏文信息处理的基础,歧义问题是藏文分词的一个难点,而交集型歧义问题占藏文分词歧义问题的90%以上,因此,对交集型歧义问题的研究是藏文分词研究的一个重点。本文通过统计分析,按藏文文本中交集型歧义的规则特点,给出了一种改进的藏文分词交集型歧义消解方法,从而进一步提高了藏文自动分词的准确率。  相似文献   

2.
微软公司以叠置引擎和OpenType字库技术为基础,于2007年推出了基于藏文国际标准编码Unicode字符动态组合的藏文系统。该系统支持与藏文书写方式相一致的输入法,并能解决国内其他藏文系统普遍存在的缺字问题,其发展趋势很强,已成为藏文资源及藏文应用软件开发的主流平台。藏文分词作为信息处理的基础性工作之一,在藏文信息检索、自动校对、机器翻译等领域有着广泛的应用,所以很有必要对Unicode藏文文本进行分词研究。  相似文献   

3.
藏语文信息监测与发布关键技术难点主要包括网络爬虫算法设计、藏文自动分词及词性标注和藏文命名实体识别。文章围绕以上三个方面分别探索了网络爬虫技术、藏文自动分词及词性标注规则算法和藏文命名实体识别构思,致力于形成与舆情、安全相关的藏语文信息监测技术方案。  相似文献   

4.
熊泉浩 《科技广场》2009,(11):222-225
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望.  相似文献   

5.
董晓芳  曹晖  江涛 《科技风》2012,(17):60-61
本文针对藏文词法及句法的特点,借助开源统计机器翻译平台,搭建起基于短语的藏汉统计机器翻译系统,重点描述了系统中的藏文编码转换和藏文自动分词的实现方法.最后采用500句新闻领域藏文语料对翻译系统进行测试,取得了 Bleu值为0.3425的较好结果.  相似文献   

6.
虽然现代藏文自动校对技术研究是藏文信息处理技术中一项具有广阔前景和极具挑战性的研究课题,但目前对藏文自动校对技术的研究主要是集中在自动侦错上,对自动纠错的研究要滞后得多,鲜见有专门的研究。文章主要对国内开展藏文自动校对研究的相关工作进行了介绍和评价,在此基础上对现代藏文自动校对的进一步发展进行了展望。  相似文献   

7.
一种基于词典的中文分词法的设计与实现   总被引:1,自引:0,他引:1  
中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动摘要、自动校对等领域。就中文分词的基本方法作了简单阐述,并介绍了一种基于词典采用最大匹配法实现中文分词的方法。  相似文献   

8.
汉语自动分词与中华民族文化复兴紧密相联 ,但汉语自动分词又是目前中文信息处理中的难题。通过分析现有汉语词自动分词方法及其局限性、汉语词自动分词中存在的困难、汉语同西方语言和日语的差别 ,认为传统汉语文本具有不可自动切分性 ,从汉语自动分词的成本、影响和汉语言发展的前途出发 ,必须对传统汉语文本进行改革。提出了一种新的自动分词思维 :“无词典切分” ,即改变汉语书写习惯 ,在汉语文本生成时在汉语词之间增加分隔信息 ,使汉语适于计算机自动处理。  相似文献   

9.
基于词典的藏文自动分词系统中,紧缩格的识别较大程度上影响着切分效果。本文针对紧缩格的语法特点,在才智杰老师提出的利用紧缩格的添接规则还原藏文原文的还原法基础上,提出了识别末尾添接的字符"■"是否为再后加字,以提高识别紧缩格"■"的准确率;提出了切分紧缩格"■"后将对黏附紧缩格的藏字进行复原的算法,以避免切分中造成切分错误现象,提高了切分准确率。  相似文献   

10.
汉语自动分词技术的最新发展及其在信息检索中的应用   总被引:2,自引:0,他引:2  
岳涛 《情报杂志》2005,24(4):55-57,60
分析了汉语自动分词与自然语言处理、自动分词与信息检索之间的关系,在此基础上,介绍了近年来自动分词系统实现的技术,分析了自动分词技术在信息检索中应用的有关问题。  相似文献   

11.
近几年来在我国政府和有关部委的大力支持下,藏文信息处理技术得到了空前的发展,基于国际国家标准的藏文应用软件相继研发成功.本文就围绕国内外第一款基于藏文编码字符集(基本集、扩充集A和B准)国际国家标准的中标普华藏文办公软件,重点论述了在藏文办公软件中解决藏文文本自动断行的问题和藏文自动排版技术的实现方法.  相似文献   

12.
吉向东 《现代情报》2010,30(6):125-127
本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。  相似文献   

13.
句型转换的机器翻译理论模型与一些处理方法   总被引:3,自引:0,他引:3  
杨宪泽  雷开彬 《科技通报》2007,23(2):253-257
自动分词和译文生成处理是混合式汉英机器翻译的两个重要阶段。本文主要工作有:第一,讨论了机器翻译的理论模型;第二,给出了一个自动分词算法,提出了一个初步消歧方法;第三,建立汉英机器翻译的时态转换及相关匹配规则。  相似文献   

14.
彭秋茹  王东波  黄水清 《情报科学》2021,39(11):103-109
【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分 词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后 的共4个月新时代的人民日报分词语料为研究对象,通过统计词频、词长、从合度等信息,从名词、动词、数词、量词、 副词、形容词、区别词、方位词、处所词、时间词、代词、介词、连词、助词、习用语、否定词、前后缀等类型来讨论变异 词的切分规律。【结果/结论】结果发现新时代的人民日报语料中的切分变异大部分为假歧义,相同语法结构的二字 词要比三字词、四字词的切分变异从合度更高。【创新/局限】本文首次面向新时代的人民日报语料讨论了中文分词 歧义的问题,但缺少与旧语料的对比分析。  相似文献   

15.
藏语文语转换系统主要由三个部分组成:文本顿处理模块、劫律生成模块和语音合成模块。文章围绕以上三方面分别研究了藏语文语转换中文本预处理的藏文分词技术、韵律标注规则和韵律标注内容,并实现了韵律标注时所需藏文拉丁转写算法和语音处理后端合成的一些方案设想。  相似文献   

16.
提出了一种基于条件随机场(Conditional Random Fields,简称CRF)的中文分词方法.CRF模型利用词的上下文信息,对歧义词和未登陆词进行分词统计处理取得了理想的效果.以SIGHAN2006 Chinese Language Processing Bakeoff提供的数据作为实验数据.实验数据表明,基于CRF的中文分词方法取得了很好的效果,在Uppen,Msra两种语料的封闭测试中准确率分别达到了95.8%和95.9%.  相似文献   

17.
信息检索中的中文分词问题研究   总被引:1,自引:0,他引:1  
分析了信息检索中的中文分词歧义问题, 引入N元文法和平滑算法对切分歧义问题和数据稀疏问题进行处理解决, 从而来提高信息检索速度和质量.  相似文献   

18.
基于相邻知识的汉语自动分词系统研究   总被引:2,自引:0,他引:2  
本文通过对计算机汉语自动分词的分析和研究,提出了基于相邻知识的自动分词方法。介绍了汉语分词系统,该系统的自学习机制,提高系统运行效率的方法,指出了进一步发展的方向。  相似文献   

19.
中文分词算法综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的关键技术之一,本文对多种中文分词算法、自动分词理论模型进行了详细的阐述和讨论,为中文分词的进一步发展提供基础和方向。  相似文献   

20.
汉语文献自动分词与标引研究综述   总被引:3,自引:0,他引:3  
湛述勇 《情报科学》1992,13(5):66-71
本文根据近年来国内发表的有关自动分词与标引的部分文章,对汉语文献自动分词方法和自动标引技术进行了分析和归纳,并提出了自动标引质量评价和标引模型评价指标的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号