首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 515 毫秒
1.
丁亮  姚长青  何彦青  李辉 《情报工程》2017,3(3):064-076
统计机器翻译往往存在待翻译文本来源多样和领域不一致的问题。为了提升面向不同领域的文本的翻译质量,需要根据待翻译文本对训练语料进行筛选以达到领域自适应的目的。目前统计机器翻译的领域自适应方法以目标数据为基准,着重利用统计技术对训练数据或者翻译模型进行领域的适应调整,缺乏明确的领域标签。本研究在本组之前研究基础上利用深度学习中卷积神经网络 (Convolutional neural network, CNN)对短文本进行建模,构建合适的网络结构进行有监督学习,获取完整的句子语义信息,按照待翻译文本的领域信息对训练语料进行归类筛选,获取与待翻译文本领域一致的训练数据,并将其应用到统计机器翻译中。本文采用万方英文摘要在统计机器翻译系统上进行测试,仅利用部分训练数据就得到了超越原始训练数据BLEU 打分的翻译结果,证明了本研究的有效性和可行性。  相似文献   

2.
张家俊  宗成庆 《情报工程》2017,3(3):021-028
近两年来,神经机器翻译(Neural Machine Translation, NMT)模型主导了机器翻译的研究,但是统计机器翻译(Statistical Machine Translation, SMT)在很多应用场合(尤其是专业领域)仍有较强的竞争力。如何利用深度学习技术提升现有统计机器翻译的水平成为研究者们关注的主要问题。由于语言模型是统计机器翻译中最核心的模块之一,本文主要从语言模型的角度入手,探索神经网络语言模型在统计机器翻译中的应用。本文分别探讨了基于词和基于短语的神经网络语言模型,在汉语到英语和汉语到日语的翻译实验表明神经网络语言模型能够显著改善统计机器翻译的译文质量。  相似文献   

3.
面向专利领域的机器翻译近年来已成为机器翻译的重要应用领域之一。本文提出了一个汉英专利文本机器翻译融合系统,该系统以规则系统为主导搭建,并把规则翻译方法和基于短语的统计翻译系统相结合。在融合系统中,规则系统主要负责源语言的分析和转换阶段的处理,生成相应的源语言句法分析树与转换树,并确定目标语言的基本句法框架。统计翻译系统则在目标语生成阶段根据生成的目标语句法结构寻找合适的对译词形,并产生最终的候选译文。通过利用自动评测指标对融合系统进行测试,融合系统的结果均优于单个规则系统和统计系统的结果,表明了融合方法的有效性和可行性,可以改善系统的翻译性能,提高翻译质量。  相似文献   

4.
机器翻译研究用计算机实现不同自然语言之间的翻译。自第一台计算机诞生开始,人们一直在研究和探索高质量高效率的机器翻译技术。近年来,基于规则的机器翻译、基于实例的机器翻译和基于统计的机器翻译这几种主要的翻译模式共同存在且相互补充,并有不断融合之势。随着中国和日本在科技、经济和文化交流的不断深入,机器翻译研究对于打破汉语和日语之间的语言壁垒进而推进中日两国各个领域的交流与合作具有重要的应用价值。中国和日本两国机器翻译研究人员已经开展了大量的汉日/日汉机器翻译的理论研究与系统研制,已取得了有效的成果,但距离大规模实际应用和高标准的翻译质量的要求尚有差距。为此,中日两国机器翻译人员有必要在汉日/日汉机器翻译技术与系统研制方面展开合作,特别是在对齐平行文本、实例词典、专业术语词典以及句法分析等共同课题方面展开合作。文章介绍了中日两国机器翻译研究的进展并加以比较,对中日两国在机器翻译领域的合作做了分析与展望。  相似文献   

5.
多机器翻译系统融合技术能够对不同机器翻译系统的输出结果有效地进行融合,产生更好的翻译性能,因此该技术成为机器翻译研究领域的一个热点问题。文章介绍了中国科学技术信息研究所(ISTIC)参加第七届全国机器翻译研讨会机器翻译评测的情况。本单位参加了英汉科技领域的机器翻译评测项目。文章阐述了本单位机器翻译系统的实现框架以及实施细节,并分析了它们在评测数据上的性能表现,最后对机器翻译系统融合方法目前的现状进行讨论,并对该系统融合方法进行总结和展望。  相似文献   

6.
跨语言检索中机器翻译技术的应用和进展   总被引:2,自引:0,他引:2  
本文以跨语言检索为背景,主要介绍了机器翻译技术的应用和进展.文章介绍了跨语言检索中机器翻译技术的应用形式,简单回顾了机器翻译技术发展历史中出现的各种方法及其基本思想和优缺点,特别是近年来统计机器翻译的发展.本文通过一个实例较为详细地介绍了目前主流的基于短语的统计机器翻译原理,然后通过一个实际的新闻长句子对几个典型的基于规则的和基于统计的机器翻译系统的翻译结果给出了细致的比较和分析.最后对机器翻译在跨语言检索中的应用前景做出了展望.  相似文献   

7.
平行语料库的规模对于统计机器翻译性能的提高具有重要作用,但是平行语料库的人工构建成本很高。针对这个问题,本文提出了一种低成本高效率的平行语料构建方法,利用枢轴语言作为桥梁,借助已有的机器翻译技术并融合主动学习方法构建目标语言对的大规模高质量平行语料库。本文通过以英语作为枢轴语言构建日汉平行语料库的实例研究,利用成熟的基于短语的统计机器翻译技术,描述了基于译文自动评测的良好译文选择方法、基于主动学习的语料选取方法、以及翻译系统的更新迭代和评价实验。实验结果表明,本文提出的方法能够快速构建日汉平行语料,并有效提高日汉翻译系统的性能。  相似文献   

8.
针对专利文献句子偏长的特点,将统计机器翻译中的训练语料进行子句切割获取双语的子句序列,再采 用统计和规则相结合的策略来生成子句对齐,建立基于简单子句的双语语料来重新训练统计机器翻译系统,在一定程 度上改善了原有双语训练语料中的短语对齐和词对齐,可以更为深入地利用平行语料中蕴含的翻译信息,应用于专利 统计机器翻译中,在NTCIR-9的测试集上进行实验比较,获得较为满意的翻译效果。  相似文献   

9.
多机器翻译系统融合技术能够对不同机器翻译系统的输出结果有效地进行融合产生更好的翻译性能,因此该技术成为机器翻译研究领域的一个热点问题.常用的多机器翻译系统融合技术可以分为句子级、短语级和词级融合.在对不同级别的系统融合技术进行分析的基础上,本文提出基于词和短语的多机器翻译系统融合方法.首先,采用词级的系统融合技术构建混淆网络,将混淆网络转化为短语表.然后,基于该短语表利用短语级的系统融合技术中的再解码方法进行混淆网络解码生成融合结果.该方法既保证了融合系统所构建的混淆网络的最大可能性,又可以利用更多的特征进行混淆网络解码.我们将基于词和短语的多机器翻译系统融合方法在两个测试集上分别实验并进行比较,获得了较为满意的翻译效果.  相似文献   

10.
刘凯  王永成  毛军 《情报学报》2005,24(3):294-298
本文提出了一种适合机器翻译的标记语言MTML(MachineTranslationMarkupLanguage)。针对机器翻译研究中对混合策略处理的需求,我们将传统的机器翻译方法与模式匹配及XML等技术相结合,形成了一套灵活的、可扩展的处理机制,方便了基于规则的翻译与数据驱动的翻译之间的交互。目前已经将该标记语言应用到翻译试验系统之中,获得了较好的效果  相似文献   

11.
本文比较各种机器翻译方法的特点,借鉴短语结构、GPSG、HPSG和语料库等计算语言学理论,采用以单词为核心的方法,建立一组以1000单词为背景的英汉翻译规则,并实现以单词规则、通用规则为准,进行英汉翻译的机译系统。本文还对机译系统构成、设计、词典结构等技术问题进行了探讨,并提出一套规则和结点的评价方法,为消除机器翻译中的句法歧义做了有益的尝试。  相似文献   

12.
如何提高多语言信息服务质量已成为数字图书馆等科技信息服务领域的重要研究问题。文章首先介绍了国内外多语言信息服务相关研究,然后具体从跨语言信息检索和机器翻译两个方面介绍了国家科技文献中心多语言信息服务研究成果在国家科技文献在线服务系统中的应用。将跨语言信息检索功能和文摘翻译服务功能引入数字图书馆在线查询系统,在国内数字图书馆信息服务领域尚属探索性尝试,可以为进一步提高数字图书馆多语言信息服务质量提供经验。  相似文献   

13.
本文以多语言科技信息服务为立足点,结合中日两国面向科技文献的机器翻译研究现状,介绍了两国近几年开展的机器翻译合作项目的情况,包括合作背景与基础、知识产权、具体合作内容与成果,以及在机器翻译实用化方面的一些思考。  相似文献   

14.
This article describes a process of developing a set of best practices for machine translation at an off-site storage facility. Optical Character Recognition (OCR) software is tested, along with various machine translation programs, to develop a free system to translate non-English materials for staff and users. There is also a brief literature review regarding some reasons why libraries should be concerned with translating materials into other languages.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号