共查询到19条相似文献,搜索用时 500 毫秒
1.
2.
3.
双语语料库在机器翻译、跨语言信息检索以及翻译词典编纂等自然语言处理领域有着越来越重要的用途。该研究利用同族专利文献信息作为双语语料的来源,探讨了基于同族专利获取双语语料的可行性,以获取汉英双语语料为实例提出了双语语料的获取流程,同时进行双语对译部分的对齐规则的研究,从而构建出科技领域的平行双语语料库。最后,还阐述了该方法的相关注意事项以及应用前景。 相似文献
4.
平行语料库的规模对于统计机器翻译性能的提高具有重要作用,但是平行语料库的人工构建成本很高。针对这个问题,本文提出了一种低成本高效率的平行语料构建方法,利用枢轴语言作为桥梁,借助已有的机器翻译技术并融合主动学习方法构建目标语言对的大规模高质量平行语料库。本文通过以英语作为枢轴语言构建日汉平行语料库的实例研究,利用成熟的基于短语的统计机器翻译技术,描述了基于译文自动评测的良好译文选择方法、基于主动学习的语料选取方法、以及翻译系统的更新迭代和评价实验。实验结果表明,本文提出的方法能够快速构建日汉平行语料,并有效提高日汉翻译系统的性能。 相似文献
5.
术语的抽取是领域本体构建的基础工作,决定了本体构建的质量.获取的术语除了要求有准确的短语识别率,还要求有较高的术语领域度.本文试图研究一种不依赖于背景语料的术语领域度筛选方法.本文的主要工作集中在两个方面:一是通过统计和规则相结合的方法从领域语料中抽取候选术语(短语),二是提出了通过候选术语的分布度、活跃度以及主题度进行计算的多策略术语抽取方法,并通过实验进行了验证和分析.实验结果表明,在小规模航空航天领域语料库上进行验证性实验后发现,在不大量增加计算时间复杂度的情况下,能够有效提高领域术语抽取的质量,获得令人较满意的结果. 相似文献
6.
7.
王昊 《现代图书情报技术》2007,2(5):62-68
重点讨论非结构化中文文本中表达式命名实体(ENE)的抽取和分类过程,尝试构造匹配模式集合,建立基于层次模式匹配的ENE识别模型(HPM_ENE_EM),作为竞争情报系统、用户兴趣度获取等情报学应用研究的基础,并以学术论文中的术语缩略语识别为例探讨该模型的具体应用。 相似文献
8.
Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求.Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见.本文首先给出了结合Web内容和使用挖掘技术的用户浏览模式分类的原型系统框架.系统中主要的过程是:对数据集中原始的Web服务器日志进行清理,使用Web使用挖掘技术从用户浏览会话中挖掘出有代表性的用户浏览模式,根据模式中每一个相关的页面内容抽取出一个N-gram集合,构建基于N-gram的用户浏览模式简档.最后本文对用户浏览会话作了分类实验分析,实验结果表明这个方法在N-gram=6,df=10%的情况下取得了较高的分类精确度. 相似文献
9.
10.
本文提出了一种用于受限领域自动问答的新方法.与传统的自动问答方法不同,该方法不对用户问题进行语言分析以生成结构化的查询,而是利用文本蕴涵技术从自动生成的假设问题库中寻找用户问题所蕴涵的假设问题,然后利用该假设问题所附的答案指南获取用户问题的答案.该方法的优点之一是不需要复杂的语言处理就可以回答复杂的问题,而且正确率较高;优点之二是可以利用本体方便地生成不同语种的假设问题,实现跨语言问答.本文基于英文提问对该方法进行了测评,测评结果表明几乎所有的用户问题都可以基于生成的假设问题来直接或间接地回答,回答的正确率达到65.6%. 相似文献
11.
国外术语注册与术语服务综述 总被引:1,自引:1,他引:0
本文对国外上最具代表性的三个术语注册与术语服务系统(FAO注册系统与术语服务,OCLC术语服务,Open Metadata Registry)和四个相关研究项目(STAR,HILT,ADL地名表与叙词表协议,PoolParty)进行了详细的调研分析,在此基础上对我国术语注册与术语服务系统的开发与构建提出建议,主要包括:采用新兴的语义网和关联数据技术开发兼具术语注册与术语服务功能的完整系统,提供人与机器对注册词表元数据和词表内容的访问,采用RESTful Web服务构建术语服务,支持以关联数据方式发布词表内容等。图5。表4。参考文献30。 相似文献
12.
机器翻译研究用计算机实现不同自然语言之间的翻译。自第一台计算机诞生开始,人们一直在研究和探索高质量高效率的机器翻译技术。近年来,基于规则的机器翻译、基于实例的机器翻译和基于统计的机器翻译这几种主要的翻译模式共同存在且相互补充,并有不断融合之势。随着中国和日本在科技、经济和文化交流的不断深入,机器翻译研究对于打破汉语和日语之间的语言壁垒进而推进中日两国各个领域的交流与合作具有重要的应用价值。中国和日本两国机器翻译研究人员已经开展了大量的汉日/日汉机器翻译的理论研究与系统研制,已取得了有效的成果,但距离大规模实际应用和高标准的翻译质量的要求尚有差距。为此,中日两国机器翻译人员有必要在汉日/日汉机器翻译技术与系统研制方面展开合作,特别是在对齐平行文本、实例词典、专业术语词典以及句法分析等共同课题方面展开合作。文章介绍了中日两国机器翻译研究的进展并加以比较,对中日两国在机器翻译领域的合作做了分析与展望。 相似文献
13.
《Journal Of Archival Organization》2013,11(3):41-55
ABSTRACT The study investigated implications of variations in EAD-encoded finding aids on the Web. A content analysis methodology was used to examine five different aspects of EAD finding aids: (1) data elements; (2) labeling terminology; (3) navigation; (4) browsing; (5) searching. Seventeen EAD finding aid web sites selected from 161 RLG member institution web sites, were examined. The results of the study showed that variations in EAD finding aids existed. These include inconsistency in the use of data elements, labeling terminology, and browsing attributes. In addition, some of the EAD finding aid web sites did not provide navigational aids within a finding aid or search functions for access to it. Findings suggest that increased navigational aids, as well as more browsing and search functions are needed to provide better access to EAD-encoded finding aids. 相似文献
14.
以往的术语抽取研究大多将语言学方法和统计方法分别进行单独的处理,并且只考虑候选术语本身的术语度,而没有考虑候选术语所在句子的术语度对术语抽取性能的影响.本文将语言学方法与统计方法进行并行融合,综合考虑候选术语及其所在语句的术语度,进行基于多层术语度的一体化术语抽取.该研究有两个特色:首先,采用条件随机场模型,能有效融合语言学方法和统计方法,实验结果表明了基于一体化策略的术语抽取方法的有效性;其次,通过语料库比较方法,提出基于多层术语度的术语抽取方法,该方法能抽取多字术语,实验结果表明了利用多层术语度进行术语抽取的有效性. 相似文献
15.
[目的/意义]针对目前情报学界的"情报"术语争议现象,反思情报学学科基本术语的混用与混乱对学术交流与学科建设带来的影响,呼吁规范情报学术语,重构情报研究理论和情报方法体系。[方法/过程]根据术语学的原理和思想,从术语语境、概念层次、多语术语翻译操作3个方面分析情报学现存术语争议产生的原因。[结果/结论]研究认为,对情报术语的探讨是情报学随社会发展的必然,情报学对术语体系规范的需求反映出对理论重建的期待。 相似文献
16.
汉语科技词系统的Web服务研究与实现* 总被引:2,自引:0,他引:2
对国内外词汇知识的Web服务研究现状进行调研分析,比较OCLC术语服务、英国高级叙词表、FAO多语种农业叙词表、STAR、中文叙词表本体网络术语学服务等国内外主要研究项目。介绍汉语科技词系统的基本架构、数据模型、功能模块和基于Web服务的汉语科技词系统应用模型、接口封装、部署、以及性能测试情况。最后对下一步研究工作进行展望。 相似文献
17.
[目的/意义] 探讨高校图书馆用户在使用图书馆OPAC系统查找相关资源时调整提问的行为模式。[方法/过程] 以北京师范大学图书馆OPAC日志数据为对象,采用S.Y.Rieh与Xie Hong提出的提问调整模式类型,利用内容分析法对提问日志进行内容编码和统计分析。[结果/结论] 高校图书馆用户的OPAC提问调整基本模式与网络信息检索提问调整模式基本一致,并且,在动态调整模式过程中,还可以细化为直线、阶梯、锯齿、凹凸、循环等子模式。针对如何优化OPAC系统和提升用户信息素养提出若干建议。 相似文献
18.
19.
本文以web2.0时代下的网络信息自组织现象为研究对象,以自组织的基础理论为研究方法论,证明其自我组织的决定因素是其"社会性"所在。文章具体围绕着网络循环圈自组织的过程,从宏观、中观、微观三个层次上,探讨了网络信息自组织的各种表现、产生机理、变化过程等。 相似文献