首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
基于语料库的译文选择   总被引:1,自引:0,他引:1  
源语言中单词的目标语译文选择问题,一直是人们广泛关注的难题,直接决定译文的质量。本文采用基于语料库的统计方法,利用单词与单词的共现概率来消除多义选择歧义,应用约束传播算法同时解决句子中所有的歧义词。考虑到语料库的大小限制,不可能覆盖所有的词词搭配,我们采用了较好的平滑技术,提高了语料库的覆盖率。另外,对于译文选择的统计显著性也作出了定量的分析。为解决汉译英中的英语译文选择的问题,我们利用该方法对汉语动词、名词、形容词的译文选择进行消歧实验,与基于规则的方法相比准确率增加了9%  相似文献   

2.
全文检索中的汉语自动分词及其歧义处理   总被引:3,自引:0,他引:3  
歧义处理是汉语自动分词的核心问题,汉语自动分词是中文信息检索的基础性课题。目前有基于词典的分词方法、基于统计的分词方法、基于语义的分词方法和基于人工智能的分词方法。自动分词的歧义处理,目前主要有:利用“长词优先”排歧,利用特征词消歧,利用“互信息”和“t-信息差”消歧,利用专家系统分词消歧。参考文献15。  相似文献   

3.
面向专利领域的机器翻译近年来已成为机器翻译的重要应用领域之一。本文提出了一个汉英专利文本机器翻译融合系统,该系统以规则系统为主导搭建,并把规则翻译方法和基于短语的统计翻译系统相结合。在融合系统中,规则系统主要负责源语言的分析和转换阶段的处理,生成相应的源语言句法分析树与转换树,并确定目标语言的基本句法框架。统计翻译系统则在目标语生成阶段根据生成的目标语句法结构寻找合适的对译词形,并产生最终的候选译文。通过利用自动评测指标对融合系统进行测试,融合系统的结果均优于单个规则系统和统计系统的结果,表明了融合方法的有效性和可行性,可以改善系统的翻译性能,提高翻译质量。  相似文献   

4.
在深入分析NSTL篇级元数据特点的基础上,结合模糊匹配算法,提出一种适合NSTL现有数据的人名消歧规则集,并给出基于该规则集的人名消歧算法。通过对实际数据集的实验,该算法在准确率、召回率等指标方面都有良好的表现,具备较好的消歧效果。  相似文献   

5.
基于网络协作标注的标签消歧方法述评   总被引:1,自引:0,他引:1  
以网络协作标注中的标签为研究对象,调研标签消歧方法,并将其划分为基于数据挖掘方法消歧、基于统计分析方法消歧、利用相关知识组织工具消歧、引入控制机制消歧和开发可视化组件消歧5类。比较这5类消歧方法在用户参与度、消歧时机、消歧性质、实验与应用情况和发展前景5个方面存在的区别和联系。  相似文献   

6.
沈喆  王毅  鞠秀芳  成颖 《情报学报》2022,(4):350-363
学者完整且准确的学术成果集为科学计量与科研人才评价等研究提供了重要的数据基础。在现有基于机器学习模型的作者姓名消歧方法尚未达到实用要求的背景下,本研究面向高层次科研人才,充分利用基于规则方法精确率高的优势,提出了“先面向精确率,后面向召回率”的“两步法”作者姓名消歧模型。得益于该群体易于从网络中搜集其履历、研究方向和代表作等信息,消歧模型可采用的特征更加丰富,从而保证了消歧模型的优异性能。本研究以国家杰出青年科学基金获得者为例对模型进行了验证,结果表明,本研究提出的高层次科研人才作者名消歧模型在精确率与召回率两个方面均表现良好,在两组不同特征集上的F1值分别达到了0.93和0.95,较基线模型有较大提升。  相似文献   

7.
平行语料库的规模对于统计机器翻译性能的提高具有重要作用,但是平行语料库的人工构建成本很高。针对这个问题,本文提出了一种低成本高效率的平行语料构建方法,利用枢轴语言作为桥梁,借助已有的机器翻译技术并融合主动学习方法构建目标语言对的大规模高质量平行语料库。本文通过以英语作为枢轴语言构建日汉平行语料库的实例研究,利用成熟的基于短语的统计机器翻译技术,描述了基于译文自动评测的良好译文选择方法、基于主动学习的语料选取方法、以及翻译系统的更新迭代和评价实验。实验结果表明,本文提出的方法能够快速构建日汉平行语料,并有效提高日汉翻译系统的性能。  相似文献   

8.
基于标注语料库的有指导学习方法是词义消歧取得性能最好的方法,优于无指导学习方法和基于词典的方法.它的准确率极大地依赖于标注语料库的规模,而目前人工标注语料库数量极少,缺乏标注语料就成为制约词义消歧发展的瓶颈,如何生成大规模标注语料成为词义消歧研究热点.自举是解决上述问题的重要方法,它以小规模标注语料作为种子,运用机器学习算法生成大规模标注语料.本文对自举在词义消歧中的应用和关键问题进行介绍.首先对自举进行算法描述,然后分别从中英文词义消歧领域介绍自举的应用情况,最后对自举应用涉及的初始种子、自举参数、未标注语料集的选择和互联网应用等几个关键问题进行总结.  相似文献   

9.
本文通过研究开源自然语言处理平台GATE和条件随机场模型,提出一种高效的电子产品领域命名实体识别策略,为实习项目中的初步工作--通过计算机智能方法识别出电子产品领域的产品品牌、属性等命名实体提出解决方案,并为下一步可能开展的领域内自动问答系统等高层应用提供底层支撑.该方法是基于层叠模型的规则与统计相结合的新的方法,分别继承了基于规则和基于统计识别方法的优点.最终,通过分析电子产品领域自身的领域特点实现了如品牌、重量等二十余种命名实体的识别.对比实验结果表明,该系统达到了令人满意的识别效果.  相似文献   

10.
一个构造良好的查询是信息检索质量的基本保证,语义查询扩展技术解决了传统信息检索系统不能很好理解用户查询意图的问题,在提高检索查全率的同时保证了检索准确率。本文以查询关键字之间的语义关联为切入点,辅以隐式反馈技术获取消歧上下文,以WordNet本体库和WordNet Domains扩展库作为消歧数据源,使用基于局部上下文和基于图论的两类无导词义消歧方法进行查询关键字到本体概念的映射,最后基于概念词汇关联完成基于语义的查询扩展。综合WordNet本体库和WordNet Domains扩展库中的各项知识源对查询词义进行判定,保证了词义消歧的精度;采用无导词义消歧实现查询词义的快速判定,保证了信息检索的实时性;根据查询关键词的多寡分别提出两类消歧方法,满足了各种查询需求。  相似文献   

11.
付媛  朱礼军  韩红旗 《情报工程》2016,2(1):053-058
为应对日益严重的姓名歧义现象给提高搜索引擎查全率和查准率带来的挑战,同时给姓名消歧方法研究提供参考建议,对研究现状和主要成果进行总结.首先,介绍研究姓名消歧的目的和意义.其次,对国内外现有姓名消歧方法研究进展进行梳理,主要方法包括基于特征的、基于机器学习的、基于社会网络的、基于网络知识资源的姓名消歧等多种方法来解决姓名歧义问题.最后,文章分析各种方法的特征和不足,总结姓名消歧待解决的问题以及未来的研究方向.  相似文献   

12.
徐羡文  郑厦君 《大观周刊》2011,(28):203-203
简要地介绍数据挖掘和关联规则的概念,并在零售企业和电子商务运营机制基础上提出了基于数据挖掘关联规则理论的营销策略构建方法,最后分析了关联规则挖掘在零售业中的支持评价。  相似文献   

13.
借鉴现代汉语词义消歧的研究成果,提出一种改进的向量空间模型词义消歧方法,即在古汉语义项词语知识库的支持下,将待消歧多义词上下文与多义词的义项映射到向量空间模型中,完成语义消歧任务。以中国农业古籍全文数据库为统计语料,对10个典型古汉语多义词,共29个义项、1 836条待消歧上下文进行义项标注的实验,消歧平均正确率达到79.5%。  相似文献   

14.
提出一种基于DNA序列和混沌映射的图像加密算法。首先通过原图获取混沌映射的初始值,利用Chebyshev混沌对原图像素点进行基于位平面的置乱,然后将置乱后的图像根据本文定义的DNA编码规则编码,得到的DNA矩阵和天然DNA矩阵对应进行加运算,根据天然DNA获取分段线性混沌映射(PWLCM)的初始值,混沌序列对加运算得到DNA矩阵进行碱基互补,最后将DNA矩阵解码得到加密图像。实验结果表明,该算法密钥空间大,安全性高,能有效抵御穷举攻击、统计攻击和差分攻击。  相似文献   

15.
在外文期刊数据库中,同一姓名简称代表多位作者的现象十分普遍,严重影响作者检索的精度。本次研究将规则与算法相结合,依据规则为分类算法标注训练数据,从而在无监督条件下使用有监督算法,实现作者的精确检索。该算法适用于论文查证等已知作者身份的姓名消歧问题,相比通用的消歧方法,该方法结合无监督算法无需人工标注的优点,以及有监督算法高效率、易对应实体的优点。实践结果表明,该方法具有较高的准确度。  相似文献   

16.
应用社会网络分析的方法解决多属性关联规则挖掘的问题,这是解决这类问题全新的视角.首先,从啤酒的不同品牌与尿不湿不同颜色的搭配引出了多属性关联规则挖掘的问题,并指出这类问题也包含着广泛的评价和推荐问题;而后,基于社会网络分析的视角,建立了相应的图模型及与之等价的矩阵,通过对图和矩阵的分析,引出了多属性关联规则挖掘的方法;为了进一步使方法有助于程序化表达,将既有的方法通过引入"指标向量"实现了统一表达,这有助于程序递归的实现;最后,给出了本文方法的算法步骤,并将其应用在一个100 000评估量规模的数据集上对方法进行实证分析.结果表明:本文通过社会网络分析的视角将抽象的关联规则挖掘变得可视化,这便于矩阵表达的引入,使得到的方法具有算法复杂度低、直观和易于把握的特征,相比于既有的多属性关联规则挖掘算法有优势.  相似文献   

17.
自然语言语义分析研究进展   总被引:5,自引:0,他引:5  
按照自然语言的构成层次——词语、句子和篇章,分析各层次语义分析的内涵、现有的研究策略、理论依据及存在的主要方法,并对现存的两类主要研究策略进行对比分析.认为词语语义分析是指确定词语意义,衡量两个词之间的语义相似度或相关度;句子语义分析研究包含句义分析和句义相似度分析两方面;文本语义分析就是识别文本的意义、主题、类别等语义信息的过程.当前的自然语言语义分析主要存在两种主要的研究策略:基于知识或语义学规则的语义分析和基于统计学的语义分析.基于统计与规则相融合的语义分析方法是未来自然语言语义分析的主流方法,本体语义学是自然语言语义分析的重要基础.  相似文献   

18.
基于统计的自动分类是网页层次分类中常用的技术,但其有不足之处,主要表现为当子类之间出现严重的特征交叉现象时,分类精确率将大大下降。而网页层次分类的本质决定了同一大类下的子类存在许多相同的特征。针对这一局限性,结合基于规则的自动分类技术的优点,提出一种基于统计-规则方法的网页层次分类技术。实验表明,基于统计-规则方法的网页层次分类技术能够获得比较理想的分类效果。  相似文献   

19.
基于本体概念的矢量检索模型研究   总被引:1,自引:0,他引:1  
聂卉  龙朝晖 《图书情报工作》2007,51(9):121-123,134
针对传统矢量空间模型文本特征值的计算,给出将文本的评价由基于语法的词条空间转化为概念空间的方法和策略:基于领域本体,依据本体概念间的各种关联,先以一定的映射规则,将词条映射到领域的概念术语空间;然后用概念统计和语义归纳替代传统的词频统计,从概念语义的层次计算文本的特征矢量。实验证明,基于本体概念的矢量检索模型能够有效地表达文本的语义内容,获得更好的检索效果。  相似文献   

20.
借助特征聚类进行特征抽取是信息检索领域进行文本特征降维的重要手段之一.本文通过χ2统计和特征聚类相结合的模式,在尽量减少信息缺失的前提下两次对特征项维数进行压缩,通过分析特征的类别分布信息,实现了基于统计的特征降维;进而在基于类别概率分布的模式下实现了文本的矩阵表示,借助矩阵范数进行文本分类.实验结果表明,该方法的分类效率较高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号