首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 19 毫秒
1.
本文通过借鉴参与式发展理论,对参与式建设语料库的定义进行界定,并对其与传统语料库建设的区别进行阐释,以构建参与式建设语料库体系为例,分析了图书馆在各参与主体中的地位,指出图书馆在参与式建设土家语语料库中应该发挥激活土家语、收集活态语料、长期保存等六大作用。  相似文献   

2.
双语语料库在机器翻译、跨语言信息检索以及翻译词典编纂等自然语言处理领域有着越来越重要的用途。该研究利用同族专利文献信息作为双语语料的来源,探讨了基于同族专利获取双语语料的可行性,以获取汉英双语语料为实例提出了双语语料的获取流程,同时进行双语对译部分的对齐规则的研究,从而构建出科技领域的平行双语语料库。最后,还阐述了该方法的相关注意事项以及应用前景。  相似文献   

3.
魏建国 《图书馆学刊》2009,31(11):93-96
分析了基于音频编辑软件Cool Edit Pro 2.1的图书馆英语听说学习服务系统的结构与功能,提出了基于CE软件的听说语料库建设的基本步骤及其语料建设的要求。探讨了CE软件在大学英语听说学习服务中的应用,包括提取音频、单句听力训练、语料的变速处理。  相似文献   

4.
[目的/意义] 构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程] 在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。[结果/结论] 新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长。选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要。  相似文献   

5.
平行语料库的规模对于统计机器翻译性能的提高具有重要作用,但是平行语料库的人工构建成本很高。针对这个问题,本文提出了一种低成本高效率的平行语料构建方法,利用枢轴语言作为桥梁,借助已有的机器翻译技术并融合主动学习方法构建目标语言对的大规模高质量平行语料库。本文通过以英语作为枢轴语言构建日汉平行语料库的实例研究,利用成熟的基于短语的统计机器翻译技术,描述了基于译文自动评测的良好译文选择方法、基于主动学习的语料选取方法、以及翻译系统的更新迭代和评价实验。实验结果表明,本文提出的方法能够快速构建日汉平行语料,并有效提高日汉翻译系统的性能。  相似文献   

6.
基于标注语料库的有指导学习方法是词义消歧取得性能最好的方法,优于无指导学习方法和基于词典的方法.它的准确率极大地依赖于标注语料库的规模,而目前人工标注语料库数量极少,缺乏标注语料就成为制约词义消歧发展的瓶颈,如何生成大规模标注语料成为词义消歧研究热点.自举是解决上述问题的重要方法,它以小规模标注语料作为种子,运用机器学习算法生成大规模标注语料.本文对自举在词义消歧中的应用和关键问题进行介绍.首先对自举进行算法描述,然后分别从中英文词义消歧领域介绍自举的应用情况,最后对自举应用涉及的初始种子、自举参数、未标注语料集的选择和互联网应用等几个关键问题进行总结.  相似文献   

7.
黔西北濒危彝族钞本文献语料库构建类型不是单一的,本语料库的构建方法从语料调查到文本生成,都要以科学的原则与彝族地方历史文献实际相结合;本语料库不仅为学科研究服务,而且有利于濒危彝族钞本文献的抢救和保护。  相似文献   

8.
面向双语术语抽取这一应用目标,提出专业领域可比语料库的构建方案并进行实验论证。针对给定的主题领域分别进行中英文专业语料的采集,从中分别获取中英文关键词,根据词语共现统计获取该主题领域的其他相关关键词;以这些关键词作为查询入口,通过学术搜索引擎从网络获取候选可比语料;对可比语料进行定量评估,以剔除不符合要求的语料,最终得到特定主题领域的可比语料库。  相似文献   

9.
本文对中外新闻传播领域应用语料库的研究进行梳理分析,发现当前中外新闻传播领域应用语料库的研究主要集中在分析媒体报道的内容特点、语言结构、传播路径、舆论舆情等方面,运用了批评性话语分析、评价理论等理论框架进行研究。本文还总结出当前中外研究存在偏重政治文化层面、复制式研究泛滥、跨文化传播语料研究较为缺乏等不足,并依此提出了下一步进行该类研究应该注意的问题。  相似文献   

10.
徐琳宏  丁堃  陈娜  李冰 《情报学报》2020,39(1):25-37
基于内容的引文情感分析克服了传统基于引用频次的引用同一化问题,是引文内容分析领域一个重要的研究热点。然而引文情感分析依赖于带标注的数据集,目前大规模高质量的引文情感语料资源匮乏,严重制约了该领域的研究。因此,本文在分析引文情感表达方式的基础上提出了一套适用于引文情感表示的标注体系,并详细阐述了语料库建设的技术和方法。采用人机结合的标注策略,借助完善的引文标注系统,构建了规模较大的中文文献的引文情感语料库。统计结果显示,在中文信息处理和科技管理领域情感褒义和贬义总的引用的占比分别为22%和6%,引文情感标注kappa值达到0.852,表明该语料库能够客观地反映作者的情感倾向性,可为论文评价、引文网络分析和情感分析等相关领域的研究提供数据支撑。  相似文献   

11.
语料库翻译学是一种新的研究范式。关于语料库的建设、研究及应用越来越受到学者们的重视,这大大推进了语料库翻译学的繁荣与发展。文章通过自建小型语料库的方式来研究语料库翻译学,总结了语料库翻译学的几个发展阶段和主要研究内容,以期完整呈现其来龙去脉。  相似文献   

12.
张嘉展 《大观周刊》2011,(16):158-158
自建小型料库因语料的选择具有针对性并能不断更新,比大型语料库更具有实用价值。所以为弥补翻译教学中的不足,该论文提出用自建小型语料库来指导教学。自建小型语料库的使用,不仅可以优化翻译教学模式还有利于英语专业学生综合素质培养和提高。  相似文献   

13.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

14.
[目的/意义] 自动识别项目申请书摘要中的科学要素,对于揭示科技项目中的科学知识具有重要的研究意义。这些科学要素的识别依赖于结构化项目摘要文本,然而目前结构化项目摘要语料资源匮乏,严重制约着相关研究的进一步发展。拟构建项目申请书摘要文本的语步语料集,为相关研究提供数据支撑。[方法/过程] 首先将项目摘要内容归纳为背景及问题、目标及任务、方法内容、价值意义4种语步类型,总结每个语步结构中出现的标志性特征并制定语步标注规范;其次相继利用基于规则和基于深度学习的方法辅助人工进行项目摘要的语步结构标注,并对每轮标注后的语料进行质量评估。[结果/结论] 两种方法共计标注近25 000条语句,语料标注的一致性系数达到0.983 9,表明该语料集基本能够区分项目摘要内的不同语步结构,初步达到了语料库建设的基本要求。  相似文献   

15.
基于语料库的双语词典编纂软件设计与实现   总被引:4,自引:0,他引:4  
CONULEXID是一个基于语料库的双语词典编纂软件系统,其目的是为词典编纂提供新鲜的语料,并且实现词典信息自动查找、自动派生词典、自动修订、自动排版等。介绍了该系统的数据来源、功能模块、系统设计以及SGML文档组织技术等相关实现技术。该系统是语料库语言学在双语词典编纂领域的一个应用实例。  相似文献   

16.
语料库是大量自然素材的有序集合,不仅为语言研究提供新的手段,也可以为自然语言信息处理相关研究提供重要支持。探讨了影响语料库标注的各种原因,以基于蒙古文语料库的《汉语人名拉丁转写方案》为例,分析了各项因子对语料库建设产生的作用,认为标注的规范化发展、标注的准确性、一致性、中立性、通用性是衡量语料库标注质量的关键因素。  相似文献   

17.
提出维吾尔语情感语料库的构建规范,设计和实现维吾尔语情感语料库辅助整理系统。该系统结合维吾尔语情感语料的具体特点,多方面分析维吾尔语情感词汇的特征,利用条件随机场(CRFs)模型进行维吾尔语情感词汇的自动识别。测试结果验证该系统能够大幅度降低人工劳动,高效快速地标注维吾尔语情感词语料。  相似文献   

18.
论述当前语料库建设的最新发展趋势以及建立我国大规模、国家级科学技术语料库对应用于科技信息领域的自然语言处理技术、知识技术等智能信息技术研究发展的意义和重要性,探讨国家科技语料库的建设目标、设计原则、加工功能、组成结构及其他一些相关问题,目的是推动我国科技语料库的建设,并得到国家有关部门的关注与支持。  相似文献   

19.
国内语料库建设已有多年,取得了丰硕成果,但其版权问题一直制约着我国语料库建设的发展。文章按照"语料库建设现状——分析存在的具体版权问题——综合列举国内外各种解决的办法——适合我国语料库版权保护的具体措施"的思路来探究语料库建设中的版权问题。  相似文献   

20.
随着信息技术的迅速发展和网络技术的普及,语料库得到了快速发展,不同类型的语料库和语料库工具的开发为语料库资源共享提供了广阔的空间.文章通过对语料库共享平台建设现状以及建设必要性的分析,提出由图书馆起主导作用的语料库资源共享平台建设的设想.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号