首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
基于双向最大匹配和HMM的分词消歧模型*   总被引:1,自引:0,他引:1  
提出一种消减分词切分歧义的模型。利用正向和逆向最大匹配方法对中文文本信息进行分词,基于隐马尔科夫模型对两次最大匹配的分词结果进行对比消歧,得到较为精确的结果。整个过程分为歧义发现、歧义抽取、歧义消除3个过程。测试结果显示,该模型能有效地降低分词歧义引起的错误切分率。  相似文献   

2.
基于反序词典的中文逆向最大匹配分词系统设计*   总被引:6,自引:0,他引:6  
介绍几种常见的分词算法,在改进传统的反序词典、优化逆向最大匹配算法的基础上,设计并实现基于逆向最大匹配的中文分词系统,试验证明速度和精度都有显著提高。  相似文献   

3.
提出一种基于虚词停顿的中文分词消岐的模型。首先利用建立的虚词知识库对文本进行粗分词-划分停顿,然后对句子中停顿间的短语用双向最大匹配再进行分词,提取歧义部分,最后使用N-Gram模型和数据平滑等技术处理。整个过程分为粗分词、精分词和歧义消除三个过程。测试结果显示,该模型能有效地降低词歧义引起的错误切分率。  相似文献   

4.
基于EMM中文抽词算法的XMARC主题信息挖掘   总被引:4,自引:0,他引:4  
王兰成 《情报学报》2005,24(1):82-86
本文在分词词典上采用区间最大词长,改进正向减字最大匹配法为“词首 长词匹配 短词推进”自动标引方法,从而有效地减少领域的分词歧义性和缩短标引时间。最后将该研究付诸于XMARC主题信息的挖掘与检索的实现,并证明其在时间和质量综合性能上的优越性。  相似文献   

5.
基于领域中文文本的术语抽取方法研究   总被引:3,自引:0,他引:3  
在ICTCLAS词典分词的基础上,利用串频最大匹配算法从中文专利文本中抽取候选术语,再利用TF-IDF算法得到相关特征项的权重,经过筛选后得到最终概念术语。最后,抽取部分样本数据进行实验,并对结果进行分析。  相似文献   

6.
分析Lucene的语言分析器结构,针对其只能进行中文单字、双字切分的不足,采用基于词典的正向最大匹配分词算法,设计并实现基于Lucene的中英文语言分析器ZH_CNAnalyzer,实验结果表明其能够对中英文文档进行高效索引,满足实际应用的需要。  相似文献   

7.
基于Lucene的中文字典分词模块的设计与实现   总被引:8,自引:1,他引:8  
在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。  相似文献   

8.
全二分快速自动分词算法构建   总被引:1,自引:0,他引:1  
分析现有分词算法存在的不足,在此基础上提出一种新的分词词典,通过为分词词典建立首字Hash表和词索引表两级索引,使得该分词词典支持全二分最大匹配分词算法,利用该分词算法进行自动分词,其时间复杂度实现了大的改善。  相似文献   

9.
全文检索中的汉语自动分词及其歧义处理   总被引:3,自引:0,他引:3  
歧义处理是汉语自动分词的核心问题,汉语自动分词是中文信息检索的基础性课题。目前有基于词典的分词方法、基于统计的分词方法、基于语义的分词方法和基于人工智能的分词方法。自动分词的歧义处理,目前主要有:利用“长词优先”排歧,利用特征词消歧,利用“互信息”和“t-信息差”消歧,利用专家系统分词消歧。参考文献15。  相似文献   

10.
三字歧义链自动分词方法   总被引:3,自引:0,他引:3  
歧义问题是自动分词系统中要解决的主要问题之一。本文介绍一种在最大匹配法基础上,根据大量的真实语料中出现的歧义现象,把可能产生歧义切分的词进行特性分类,对每类确定一组规则进行处理  相似文献   

11.
网上答疑系统是现代远程教育系统中不可缺少部分,本文通过对中文信息处理技术的分析,构建一个基于Web的智能答疑系统,并研究探讨了中文分词切分、最大匹配算法的改进、问题特征分析等一系列问题。  相似文献   

12.
基于两字词簇的汉语快速自动分词算法   总被引:10,自引:1,他引:9  
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现  相似文献   

13.
针对作为中文信息处理基础的抽词问题,本文在作者提出的正向串频最大匹配法(MMFS)的基础上,提出了逆向串频最大匹配法(RMMFS)及双向串频最大匹配法(BMMFS)。这两种方法分别采用逆向和双向长串优先与串频统计的思路,并引进规则和支持度指标筛选,不需要词典,不需要事先进行语料库学习,不需要建立字索引,通过串匹配获取中文文本中的汉字共现模式,实时地抽取出包含专业术语及专有名词等未登录词在内的专指语义串、短语和词。实验研究了抽词准确率受规则的影响及随文本大小和词频变化的分布,结果表明BMMFS可以取得更好的抽词效果。  相似文献   

14.
李娟  周贤善 《信息系统工程》2010,(2):133-134,142
在中文切分算法设计上,好的算法一般要注重两个方面,一个是提高切分精度,另一个是提高切分速度。本文在逆向最大匹配的算法切分基础上,结合临近匹配算法在中文切分速度方面的优势,提出了一种逆向匹配快速切分算法。此算法由于使用了索引排序查找,所以在速度上比一般的全库扫描更快;在切分精度上,根据汉语语句中心语偏后的特点,采用了逆序匹配,可以更进一步提高切分精度。并通过在综合语料库中的语料上的分析,交集型歧义的自动消解上有着很好的优势。  相似文献   

15.
针对受限领域的特点及现有分词面临的困难,比较现有分词的方法,选择并改进了最大分词算法,设计了一个基于受限领域的中文分词系统,在一定程度上比较好地解决了未登录词和分词歧义的问题。  相似文献   

16.
研究构建了具有位置信息控制的特义禁用词语义环境,进而运用于中文文献元数据CXMARC文本的自动标引和主题信息的数据挖掘,其中研究设计的预处理特义中文禁用字词切分算法SWF,能有效地减少领域的分词歧义性和缩短标引时间,从而改进了传统最大匹配MM算法的自动标引质量和效率。  相似文献   

17.
歧义字段的处理是汉语自动分词系统中重要而困难的问题之一.歧义处理正确率的高低直接影响着分词的质量.为了解决汉语自动分词系统中的歧义问题,本文基于<知网>的义原关系,在分析了影响词语语义相关度的主要因素后,引入相关度计算,利用<知网>中义原之间的纵向和横向关系及实例因素计算出不同词性的相关度,根据相似度的对称性计算实例的影响因素,由此来提高语义相关度的准确率,同时针对所提出的方法给出了实例验证.实验结果表明,该方法计算得到的语义相关度结果更加合理,为消除汉语自动分词中的歧义问题提供了良好的支撑依据,也使得汉语自动分词系统处理歧义字段更有效.  相似文献   

18.
为了测度《论语》中的核心观念结构,文章以结构主义和关键词方法为理论依托构建观念网络,通过自然语言分词技术对《论语》进行分词处理并构建观念词典,依照正向最大匹配法筛选出《论语》语句中与词典匹配的词项,并进行两两相连构建加权无向网络,以边权重的离群点为过滤门槛,筛选《论语》中的核心观念结构并进行分析。研究发现,《论语》首先出现的是"人-君子"二元结构,接着逐渐出现"知-仁"二元结构,进而出现"人-知-仁""人-道-邦"的三角形强闭合结构。这说明孔子倡导"仁"为德性科目,"邦"为事功科目的内圣外王之学,其中"人""知"在《论语》观念结构中起着枢纽的作用。  相似文献   

19.
一个自动分词分类系统的实现   总被引:14,自引:2,他引:12  
潘有能 《情报学报》2002,21(1):38-41
本文介绍一个自动分词分类系统的实现过程。该系统采用“后控词表分词法” ,解决了词典分词法中词典构造困难、更新滞后的问题 ,提高了主题词标引的质量和效率 ,并通过对词表分类法的完善和优化 ,使自动分类的结果达到了实用水平  相似文献   

20.
汉语分词有向图的快速生成算法   总被引:4,自引:0,他引:4  
李大农  董慧 《情报学报》2004,23(1):36-39
给出了一种汉语分词有向图的快速生成算法。所构造的有向图可以作为机械分词、消除歧义以及进一步分析句子的基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号