首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 29 毫秒
1.
汉语自动分词是中文信息处理的首要工作。衡量一个分词系统性能优劣指标主要有两个,一个是切分的速度,一个是切分的精度。本文提出的基于知识评价的汉语自动分词算法,可大大提高系统的切分速度,而且利用基于复杂特征集的规则、模式等可处理掉大部分切分歧义。最后,本文对消歧提出了一些设想。  相似文献   

2.
以生物医学文献为实例对象,研究科技文献切分中的领域适应技术,通过以词典特征、领域词汇特征、子串标注和使用词典切分的粗切分语料作为训练语料等方法,实现基于序列标注的中文切分方法由新闻领域到科技领域的适应,并取得了较好的效果。研究表明,在科技文献切分中,充分利用领域知识获取领域相关特征,对于提高科技文献切分的准确率具有重要的作用。  相似文献   

3.
随着计算机科学的发展,自然语言处理技术在计算机信息检索系统中的应用越来越广泛。对自然语言处理的研究已经成为信息处理系统中的一个重要课题。语词切分是汉语自然语言处理的第一个阶段。目前,计算机自动分词系统的精度尚不能满足实际需求。本文针对影响切分精度的根本因素——歧义现象,提出了采用神经网络模式识别来消除歧义的方法,以达到提高切分精度的目的。 文中对歧义字段进行了分类,分析了其表现形式和现有的消歧机制,以及歧义切分与模式识别之间的关系,研究了神经网络模式识别方法与歧义切分问题相适应的特点。遵循模式识别的一般步骤,对歧义字段进行特征提取,然后,选用神经网  相似文献   

4.
档案主题标引实用算法   总被引:2,自引:1,他引:1  
本文介绍了档案文献主题词自动标引算法,该算法合理地构造了主题词切分词典,并将切分关键词和标引主题词的实现过程融为一体,使标引与检索算法变得简单清晰。本文还给出了主题词切分词典的维护算法,以及自动扩缩检算法。利用本算法思路编制的软件已用于实际的档案管理系统中。  相似文献   

5.
基于双向最大匹配和HMM的分词消歧模型*   总被引:1,自引:0,他引:1  
提出一种消减分词切分歧义的模型。利用正向和逆向最大匹配方法对中文文本信息进行分词,基于隐马尔科夫模型对两次最大匹配的分词结果进行对比消歧,得到较为精确的结果。整个过程分为歧义发现、歧义抽取、歧义消除3个过程。测试结果显示,该模型能有效地降低分词歧义引起的错误切分率。  相似文献   

6.
基于词首最长匹配的词典分词和段句分割符表的切分标记分词,构建用于档案信息集成与检索的知识标引环境,然后运用ASPNET分布式技术,研究和开发一个基于知识标引的异构档案数据整合与信息检索系统。  相似文献   

7.
三字歧义链自动分词方法   总被引:3,自引:0,他引:3  
歧义问题是自动分词系统中要解决的主要问题之一。本文介绍一种在最大匹配法基础上,根据大量的真实语料中出现的歧义现象,把可能产生歧义切分的词进行特性分类,对每类确定一组规则进行处理  相似文献   

8.
针对信息检索中存在的词语排除关系问题,给出排除词的定义并说明排除词在信息检索中的作用。指出排除词实质上是最大准交集型歧义切分字段的伪歧义切分所导致的,描述排除词的识别方法,并给出识别的结果,并在实际的信息检索平台上对排除词词库进行应用测评。  相似文献   

9.
知识抽取中的嵌套向量分词技术   总被引:1,自引:1,他引:1  
向量分词算法已经比较成熟,通过在知识抽取过程中实现向量分词算法,对向量切分中的关键技术进行归纳总结,同时发现一趟向量切分的不足,并针对这些不足,设计嵌套的向量分词技术。实验证明,在知识抽取过程中,采用嵌套的向量切分方法,不但切分准确率高、切分全面,而且能从根本上解决“词中有词”的问题,有利于后续的句法分析。  相似文献   

10.
交集型歧义字段切分方法研究   总被引:19,自引:0,他引:19  
闫引堂  周晓强 《情报学报》2000,19(6):637-643
本文通过动态建立独立成词能力频次库的方法以及基于词语/词性搭配的规则库,对交集型歧义字段进行处理,大大提高了切分正确率。在4万语料的开放测试中,交集型歧义字段的切分正确率可达98%以上。  相似文献   

11.
苗利明 《信息系统工程》2010,(6):137-137,131
设计了一个正向最大匹配和逆向最大匹配共用的正序分词词典,该词典占用内存较少并且易于维护。在此分词词典基础上用PHP实现了双向扫描发现歧义的程序,并对歧义句进行了标记输出。  相似文献   

12.
李娟  周贤善 《信息系统工程》2010,(2):133-134,142
在中文切分算法设计上,好的算法一般要注重两个方面,一个是提高切分精度,另一个是提高切分速度。本文在逆向最大匹配的算法切分基础上,结合临近匹配算法在中文切分速度方面的优势,提出了一种逆向匹配快速切分算法。此算法由于使用了索引排序查找,所以在速度上比一般的全库扫描更快;在切分精度上,根据汉语语句中心语偏后的特点,采用了逆序匹配,可以更进一步提高切分精度。并通过在综合语料库中的语料上的分析,交集型歧义的自动消解上有着很好的优势。  相似文献   

13.
基于词表和N-gram算法的新词识别实验   总被引:1,自引:0,他引:1  
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。  相似文献   

14.
张新  党延忠 《情报学报》2007,26(6):813-820
为获取中文领域本体的概念提出了基于规则匹配和统计方法相结合的学习模型,充分利用现有的自然语言处理技术和统计学习方法,从领域文本中通过语义串切分、规则匹配、领域归属度分析和概念约简算法自动获取领域概念.该方法解决了现有中文本体学习方法对领域词典的依赖以及无法获得短语式特定领域概念的问题,同时解决了领域概念筛选问题.实验证明了该方法的有效性.  相似文献   

15.
神经网络技术在汉语歧义切分中的应用   总被引:4,自引:1,他引:3  
针对目前汉语自动分词系统中切分歧义的难点,本文提出利用神经网络模式识别的方法帮助消歧。介绍了所建立的实验系统,并进行了实验分析。  相似文献   

16.
研究构建了具有位置信息控制的特义禁用词语义环境,进而运用于中文文献元数据CXMARC文本的自动标引和主题信息的数据挖掘,其中研究设计的预处理特义中文禁用字词切分算法SWF,能有效地减少领域的分词歧义性和缩短标引时间,从而改进了传统最大匹配MM算法的自动标引质量和效率。  相似文献   

17.
自适应分词算法中的未登录词识别技术研究   总被引:2,自引:0,他引:2  
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词.同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题.在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%.  相似文献   

18.
情报检索中汉语语词自动切分研究   总被引:11,自引:1,他引:10  
笔者由五笔字型得到启示,通过对汉语语词和情报检索系统特点的分析,找到了一条解决汉语语词切分总是的路径,即词库划分和联想匹配方法。基于此,笔者建议对《汉语主题词表》根据相关原理进行修改,以解决汉语语词切分中的诸问题。  相似文献   

19.
提出一种基于虚词停顿的中文分词消岐的模型。首先利用建立的虚词知识库对文本进行粗分词-划分停顿,然后对句子中停顿间的短语用双向最大匹配再进行分词,提取歧义部分,最后使用N-Gram模型和数据平滑等技术处理。整个过程分为粗分词、精分词和歧义消除三个过程。测试结果显示,该模型能有效地降低词歧义引起的错误切分率。  相似文献   

20.
文章分析维基百科中的文档、目录、超链接、重定向以及消歧义等基本元素与结构关系特点,围绕维基百科在信息检索、文本分类、文本聚类、歧义消解、查询扩展与信息抽取以及本体构建等信息处理任务中的典型解决方法与相关项目,综述和评析基于维基百科的语义知识挖掘的研究与应用方法,从整体上把握基于维基百科的知识挖掘研究现状与进展,为当前知识服务系统建设提供借鉴。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号