首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
藏文分词是藏文信息处理的基础,歧义问题是藏文分词的一个难点,而交集型歧义问题占藏文分词歧义问题的90%以上,因此,对交集型歧义问题的研究是藏文分词研究的一个重点。本文通过统计分析,按藏文文本中交集型歧义的规则特点,给出了一种改进的藏文分词交集型歧义消解方法,从而进一步提高了藏文自动分词的准确率。  相似文献   

2.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。  相似文献   

3.
董晓芳  曹晖  江涛 《科技风》2012,(17):60-61
本文针对藏文词法及句法的特点,借助开源统计机器翻译平台,搭建起基于短语的藏汉统计机器翻译系统,重点描述了系统中的藏文编码转换和藏文自动分词的实现方法.最后采用500句新闻领域藏文语料对翻译系统进行测试,取得了 Bleu值为0.3425的较好结果.  相似文献   

4.
藏语文信息监测与发布关键技术难点主要包括网络爬虫算法设计、藏文自动分词及词性标注和藏文命名实体识别。文章围绕以上三个方面分别探索了网络爬虫技术、藏文自动分词及词性标注规则算法和藏文命名实体识别构思,致力于形成与舆情、安全相关的藏语文信息监测技术方案。  相似文献   

5.
音节判定是藏文字典排序的基础。建立了基于Unicode编码的现代藏文音节结构判定算法。针对受语法影响的现代藏文音节进行预处理,使其满足一般现代藏文音节的结构;对含有占位辅音和含有不占位辅音两种情况分别进行判定。本算法能正确地判断所有藏文音节的结构。  相似文献   

6.
藏语文语转换系统主要由三个部分组成:文本顿处理模块、劫律生成模块和语音合成模块。文章围绕以上三方面分别研究了藏语文语转换中文本预处理的藏文分词技术、韵律标注规则和韵律标注内容,并实现了韵律标注时所需藏文拉丁转写算法和语音处理后端合成的一些方案设想。  相似文献   

7.
基于词典的藏文自动分词系统中,紧缩格的识别较大程度上影响着切分效果。本文针对紧缩格的语法特点,在才智杰老师提出的利用紧缩格的添接规则还原藏文原文的还原法基础上,提出了识别末尾添接的字符"■"是否为再后加字,以提高识别紧缩格"■"的准确率;提出了切分紧缩格"■"后将对黏附紧缩格的藏字进行复原的算法,以避免切分中造成切分错误现象,提高了切分准确率。  相似文献   

8.
汉语自动分词技术的最新发展及其在信息检索中的应用   总被引:2,自引:0,他引:2  
岳涛 《情报杂志》2005,24(4):55-57,60
分析了汉语自动分词与自然语言处理、自动分词与信息检索之间的关系,在此基础上,介绍了近年来自动分词系统实现的技术,分析了自动分词技术在信息检索中应用的有关问题。  相似文献   

9.
藏文文献是藏民族最宝贵的文化遗产,是藏学研究藏民族古老文明、社会历史形态、生产生活的重要依据。随着现代化网络信息技术的不断发展,藏文也在计算机信息化处理方面取得了显著成绩,本课题研发的藏文文献管理系统,实现对藏文文献资料进行编目、整理、维护、检索、借阅等功能。本文阐述了藏文文献管理系统的主要功能及系统实现。  相似文献   

10.
基于相邻知识的汉语自动分词系统研究   总被引:2,自引:0,他引:2  
本文通过对计算机汉语自动分词的分析和研究,提出了基于相邻知识的自动分词方法。介绍了汉语分词系统,该系统的自学习机制,提高系统运行效率的方法,指出了进一步发展的方向。  相似文献   

11.
本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想.最后,论文对所研究技术方案进行了系统实现.系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能.  相似文献   

12.
熊泉浩 《科技广场》2009,(11):222-225
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望.  相似文献   

13.
现阶段,绝大多数自动分词系统都是基于词典的方法,词典的完备性是决定分词系统性能的基础和关键,但词典的完备性一直都是很难完善的。本文介绍了机械分词法与无词典分词法,并利用两种分词法各自的优点将其整合,提出了具有自学习功能的智能词典这个概念,以弥补分词词典无法完备的缺陷。  相似文献   

14.
本文探讨了神经网络算法在中文分词中的研究和应用,利用误差反向传播的理念,设计出一种基于神经网络的分词系统。并针对BP神经网络在中文分词技术中存在的一些缺陷,如收敛速度慢、易陷入局部极小等,引入输出值调整等相关优化技术,达到了提高分词精度、提升模型稳定的目的。  相似文献   

15.
自然语言检索中的中文分词技术研究进展及应用   总被引:1,自引:0,他引:1  
何莘  王琬芜 《情报科学》2008,26(5):787-791
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。  相似文献   

16.
刘赛 《人天科学研究》2011,(11):165-166
针对目前国内少数民族文字"女书"信息化处理不便的问题,设计了输入汉字然后将其直接转换为女书的系统。该系统使得用户能够实现女书的快速输入,并提供女书文本导出、Unicode编码查询等功能,经过实验证明该系统有效地提高了女书的输入效率。  相似文献   

17.
设计了全文检索系统,系统由三大功能模块组成:索引模块、检索模块和存储模块.分析PDF数据转换、XML文档设计、索引的分词等技术难点,并对中文分词分析器、索引文件膨胀率、索引影响因子进行测试,在此基础上设计全文检索系统并对检索响应时间进行测试.在结论中指出应关注XML数据库的安全性.  相似文献   

18.
德萨 《西藏科技》2014,(9):77-80
现今的民族地区图书馆或收藏藏文文献的机构,若想顺应信息化、数字化、网络化时代发展的步伐,与时俱进,谋求发展,使藏文文献资源的建设、管理、利用尽快实现信息化,就必须依靠特色数据库及特色服务、将藏文文献相关数据建立产权属于自己的数据库,它是网络化时代藏文文献资源共享的基础。鉴于目前藏文文献数据库建设中存在诸多问题的现状,对藏文文献数据库建设与调查研究就显得尤为重要。文章通过对国内外藏文文献数据库建设的理论与实践研究现状进行概括性述评,阐述藏文文献数据库建设实证调查研究的必要性及其价值与意义,以期为藏文文献数据库的建设与研究者提供参考。  相似文献   

19.
探讨构建了一种基于人工智能的参考咨询系统模型,通过对咨询数据分词和分词向量化,利用词向量的余弦相似度作为评估依据,以实现为读者提供最接近的咨询结果,克服了传统的基于关键词检索的参考咨询系统不够灵活、无法处理自然语言检索需求的缺点。  相似文献   

20.
设计和实现了一个超链接符合度测试系统.首先通过Crawler技术爬取超链接文本和链接指向内容,然后采用中文分词技术对其分别进行分词,得到相应的词语列表.对链接指向的文本内容,分别依据标题、段首句、段尾句和正文进行分词,最后根据设计的符合度计算模型,计算链接文本和链接指向文本的符合度.经过和人工判断的符合度对比,系统计算的符合度较好,和人工判断的符合度有很好的相关性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号