首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
神经网络技术在汉语歧义切分中的应用   总被引:4,自引:1,他引:3  
针对目前汉语自动分词系统中切分歧义的难点,本文提出利用神经网络模式识别的方法帮助消歧。介绍了所建立的实验系统,并进行了实验分析。  相似文献   

2.
汉语自动分词是中文信息处理的首要工作。衡量一个分词系统性能优劣指标主要有两个,一个是切分的速度,一个是切分的精度。本文提出的基于知识评价的汉语自动分词算法,可大大提高系统的切分速度,而且利用基于复杂特征集的规则、模式等可处理掉大部分切分歧义。最后,本文对消歧提出了一些设想。  相似文献   

3.
基于双向最大匹配和HMM的分词消歧模型*   总被引:1,自引:0,他引:1  
提出一种消减分词切分歧义的模型。利用正向和逆向最大匹配方法对中文文本信息进行分词,基于隐马尔科夫模型对两次最大匹配的分词结果进行对比消歧,得到较为精确的结果。整个过程分为歧义发现、歧义抽取、歧义消除3个过程。测试结果显示,该模型能有效地降低分词歧义引起的错误切分率。  相似文献   

4.
歧义字段的处理是汉语自动分词系统中重要而困难的问题之一.歧义处理正确率的高低直接影响着分词的质量.为了解决汉语自动分词系统中的歧义问题,本文基于<知网>的义原关系,在分析了影响词语语义相关度的主要因素后,引入相关度计算,利用<知网>中义原之间的纵向和横向关系及实例因素计算出不同词性的相关度,根据相似度的对称性计算实例的影响因素,由此来提高语义相关度的准确率,同时针对所提出的方法给出了实例验证.实验结果表明,该方法计算得到的语义相关度结果更加合理,为消除汉语自动分词中的歧义问题提供了良好的支撑依据,也使得汉语自动分词系统处理歧义字段更有效.  相似文献   

5.
随着计算机科学的发展,自然语言处理技术在计算机信息检索系统中的应用越来越广泛。对自然语言处理的研究已经成为信息处理系统中的一个重要课题。语词切分是汉语自然语言处理的第一个阶段。目前,计算机自动分词系统的精度尚不能满足实际需求。本文针对影响切分精度的根本因素——歧义现象,提出了采用神经网络模式识别来消除歧义的方法,以达到提高切分精度的目的。 文中对歧义字段进行了分类,分析了其表现形式和现有的消歧机制,以及歧义切分与模式识别之间的关系,研究了神经网络模式识别方法与歧义切分问题相适应的特点。遵循模式识别的一般步骤,对歧义字段进行特征提取,然后,选用神经网  相似文献   

6.
吴丹 《图书情报工作》2009,53(13):120-81
查询翻译歧义性问题是影响跨语言信息检索结果的关键,因此针对查询翻译的消歧研究已成为信息检索领域的研究热点。在对现有研究与应用调研的基础上,详细分析四类自动消歧方法,分别是:对查询进行结构化处理、通过语言分析帮助消歧、借助机读化语言资源进行消歧以及通过人机交互消歧,以期为跨语言信息检索查询翻译提供较好的消歧方法。  相似文献   

7.
付媛  朱礼军  韩红旗 《情报工程》2016,2(1):053-058
为应对日益严重的姓名歧义现象给提高搜索引擎查全率和查准率带来的挑战,同时给姓名消歧方法研究提供参考建议,对研究现状和主要成果进行总结.首先,介绍研究姓名消歧的目的和意义.其次,对国内外现有姓名消歧方法研究进展进行梳理,主要方法包括基于特征的、基于机器学习的、基于社会网络的、基于网络知识资源的姓名消歧等多种方法来解决姓名歧义问题.最后,文章分析各种方法的特征和不足,总结姓名消歧待解决的问题以及未来的研究方向.  相似文献   

8.
提出一种基于虚词停顿的中文分词消岐的模型。首先利用建立的虚词知识库对文本进行粗分词-划分停顿,然后对句子中停顿间的短语用双向最大匹配再进行分词,提取歧义部分,最后使用N-Gram模型和数据平滑等技术处理。整个过程分为粗分词、精分词和歧义消除三个过程。测试结果显示,该模型能有效地降低词歧义引起的错误切分率。  相似文献   

9.
针对中文自动标引过程中经常会产生诸多歧义词,导致检出的信息不切题或漏检这一问题,在论述自动标引中歧义词消除方法的相关研究基础上,提出一种将穷举法和消歧规则相结合的歧义词消除方法。测试结果表明,这是一种行之有效的消除歧义词的方法。  相似文献   

10.
基于两字词簇的汉语快速自动分词算法   总被引:10,自引:1,他引:9  
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现  相似文献   

11.
汉语自动分词是计算机中文信息处理中的难题。文章通过对现有分词方法的探讨,指出了汉语自动分词研究未来的发展趋势,即传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。参考文献35。  相似文献   

12.
汉语自动分词与内容分析法研究   总被引:9,自引:0,他引:9  
汉语自动分词是计算机中文信息处理中的难题,也是文献内容分析中必须解决的关键问题之一。本文通过对已有自动分词方法及其应用研究的分析,指出了今后汉语自动分词研究的三个发展方向:克服汉语文本切分中的困难,继续研究传统文本切分的有效方法;将人工智能技术与汉语自动分词技术有机结合起来;改造汉语文本书写规则使之利于计算机切分。并分析了汉语自动分词和内容分析法之间的密切关系,以及汉语自动分词对内容分析法的影响  相似文献   

13.
汉语自动分词研究展望   总被引:13,自引:1,他引:13  
 汉语自动分词是计算机中文信息处理中的难题。本文通过对现有分词方法的分析,指出了今后汉语自动分词研究的三个发展方向,即对传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。  相似文献   

14.
基于既定词表的自适应汉语分词技术研究   总被引:3,自引:0,他引:3  
提出一种汉语分词算法,在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。  相似文献   

15.
基于哈希算法的中文分词算法的改进   总被引:1,自引:0,他引:1  
中文分词是中文信息处理一个重要的部分,一些应用不仅要准确率,速度也很重要,通过对已有算法的分析,特别是对快速分词算法的分析,本文提出了一种新的词典结构,并根据新的词典给出了新的分词算法,该算法不仅对词首字实现了哈希查找,对词余下的字也实现哈希查找。理论分析和实验结果表明,算法在速度和效率比现有的几种分词算法上有所提高。  相似文献   

16.
以生物医学文献为实例对象,研究科技文献切分中的领域适应技术,通过以词典特征、领域词汇特征、子串标注和使用词典切分的粗切分语料作为训练语料等方法,实现基于序列标注的中文切分方法由新闻领域到科技领域的适应,并取得了较好的效果。研究表明,在科技文献切分中,充分利用领域知识获取领域相关特征,对于提高科技文献切分的准确率具有重要的作用。  相似文献   

17.
单汉字标引方法的改进研究   总被引:2,自引:1,他引:1  
本文根据信息论中的交互信息,给出了相邻汉字相关度的测量方法,在此基础上提出了基于字串预分割的单汉字标引检索方法,对当前具有代表性的单汉字标引方法进行了改进研究。试验证明本文提出的方法具有较好的性能  相似文献   

18.
Applying Machine Learning to Text Segmentation for Information Retrieval   总被引:2,自引:0,他引:2  
We propose a self-supervised word segmentation technique for text segmentation in Chinese information retrieval. This method combines the advantages of traditional dictionary based, character based and mutual information based approaches, while overcoming many of their shortcomings. Experiments on TREC data show this method is promising. Our method is completely language independent and unsupervised, which provides a promising avenue for constructing accurate multi-lingual or cross-lingual information retrieval systems that are flexible and adaptive. We find that although the segmentation accuracy of self-supervised segmentation is not as high as some other segmentation methods, it is enough to give good retrieval performance. It is commonly believed that word segmentation accuracy is monotonically related to retrieval performance in Chinese information retrieval. However, for Chinese, we find that the relationship between segmentation and retrieval performance is in fact nonmonotonic; that is, at around 70% word segmentation accuracy an over-segmentation phenomenon begins to occur which leads to a reduction in information retrieval performance. We demonstrate this effect by presenting an empirical investigation of information retrieval on Chinese TREC data, using a wide variety of word segmentation algorithms with word segmentation accuracies ranging from 44% to 95%, including 70% word segmentation accuracy from our self-supervised word-segmentation approach. It appears that the main reason for the drop in retrieval performance is that correct compounds and collocations are preserved by accurate segmenters, while they are broken up by less accurate (but reasonable) segmenters, to a surprising advantage. This suggests that words themselves might be too broad a notion to conveniently capture the general semantic meaning of Chinese text. Our research suggests machine learning techniques can play an important role in building adaptable information retrieval systems and different evaluation standards for word segmentation should be given to different applications.  相似文献   

19.
本文比较各种机器翻译方法的特点,借鉴短语结构、GPSG、HPSG和语料库等计算语言学理论,采用以单词为核心的方法,建立一组以1000单词为背景的英汉翻译规则,并实现以单词规则、通用规则为准,进行英汉翻译的机译系统。本文还对机译系统构成、设计、词典结构等技术问题进行了探讨,并提出一套规则和结点的评价方法,为消除机器翻译中的句法歧义做了有益的尝试。  相似文献   

20.
针对目前中文文献自动分词的技术现状,利用数据库语言Visual FoxPro,设计出一种简洁而有特色的切分算法,列出算法流程图和核心程序代码,并通过大量实验,给予客观的评价。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号