首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
中文分词技术综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的基础,分词系统也是中文信息处理中的一个主要组成部分,对中文文本的分词处理目前已经应用到了中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统等领域。本文对现有的中文分词技术进行了综述,分析了现有分词方法的技术特点,指出了部分分词方法存在的优缺点。  相似文献   

2.
为扩展分词知识库,提高自动分词能力,本文提出了一种基于自学习机制的汉语自动分词系统。该系统通过对逐词匹配法进行改进,结合分词规则来实现自动分词,并采用统计提取等自学习机制来完善和丰富分词知识库。模拟结果表明该系统能有效获取知识,获得较高的字段切分正确率。  相似文献   

3.
在分析现有几种中文自动分词算法的优劣且能实现优势互补的基础上,提出一种多种方法融合的中文自动分词算法.利用Visual-Prolog开发基于该算法的自动分词系统,并探讨了开发过程的关键技术.实验表明,采用所述算法和技术的自动分词系统的准确率较高、分词速度较快.  相似文献   

4.
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。  相似文献   

5.
本文介绍了汉语自动分词和网络语言的特点,利用双字哈希索引分词词典机制进行汉语分词,证明其方法的有效性.  相似文献   

6.
汉语电子词典是汉语自动分词及词性标注系统的重要组成部分,其性能直接影响到分词及词性标注系统的速度和效果。本文介绍了一种通用的基于PB的汉语电子词典管理系统的设计与实现过程,通过该系统能有效地管理汉语电子词典,使得词典具有良好的性能和可扩展性,为汉语自动分词和词性标注等研究工作提供有力的工具支持。  相似文献   

7.
词性自动校对在自然语言处理领域有着广阔的应用前景。针对传统基于规则的中文分词方法的不足,利用数据挖掘思想,通过对决策表的优化提出并实现了一种基于粗糙集的兼类词自动文本校对方法。该方法能够正确标注语料中挖掘、自动获取兼类词词性标注校对规则,提高兼类词词性校对标注的准确率。  相似文献   

8.
分析现有的词表切分法、自动切分算法的不足,通过改进Lucene系统的分词功能,设计了一个基于Lucene的中文数码产品搜索引擎,重点探讨了该搜索引擎的中文分词功能,实验证明本方法对中文词语可以设定正向匹配的字数,从而灵活的有效地进行中文分词。  相似文献   

9.
辩析英语分词与分词形容词在四个方面的细微差异,探讨英语分词形容词在用法上的四个方面的特性,对分词形容词的种类、特征、区别及功用进行系统的归纳,为英语分词教学提供帮助。  相似文献   

10.
通过设计一个完整的基于WebGIS的搜索引擎系统,研究了中文处理技术在不同领域中的应用。该系统实现了中文分词、中文校正和结果排序等搜索引擎的关键技术。  相似文献   

11.
分词是计算机系统对自然语言处理的第一步,分词的方法与准确率将显著影响自然语言的处理效果.在分析机械分词技术的基础上,提出构建智能化机械分词组件的思想,论述构建智能化中文分词组件的基本思路与方法,指出智能化中文机械分词组件在中文信息处理领域中的应用前景.  相似文献   

12.
基于神经网络的人工智能分词是中文分词技术的一个重要发展方向。介绍了当前神经网络分词的研究现状,给出神经网络分词的一般模型,重点阐述BP等算法在歧义解决中的应用,介绍了BP算法在未登录词识别方面的应用,最后对分词技术的发展进行了展望。  相似文献   

13.
先秦文献《孟子》自动分词方法研究   总被引:1,自引:0,他引:1  
自动分词是中文信息处理重要的基础课题。文章主要探讨了先秦文献《孟子》基于条件随机场统计模型的自动分词方法和利用相关注疏文献的自动分词方法等自动分词技术。自动分词实验结果表明,这两种分词方法效果显著,词语F值和小句F值均达到了较高的水平。在用不同的方法对《孟子》进行自动分词时,在词语F值的统计指标外,首次尝试引入了小句F值这一统计指标。  相似文献   

14.
针对人工智能在信息搜索领域的实际应用,本文介绍了一种基于中文分词算法的英语学习资源查询系统。该系统通过一种基于中文分词算法的搜索策略,结合事例推理技术实现对英语学习资源的智能搜索。系统测试结果表明,用户可以通过该系统搜索到所提问问题的类似事例以及解决该问题的相关知识条款。  相似文献   

15.
年洪东 《文教资料》2007,(29):43-45
汉语的自动分词是进行汉语语言处理的基础,也是广大语言工作者建立自己专用语料库的基础工作。本文利用网上一些开源的软件工具和语料资源实现了针对新闻语料的专用分词系统,经测试分词准确率和召回率均达到了令人满意的效果。  相似文献   

16.
本文区别汉语自动分词中的“切分变异”、“组合型歧义”和“分词不一致”这三个概念,着重就“切分变异”这一分词现象的产生原因进行考证,并在真实语料调查的基础上统计切分变异字串在观察语料库中出现次数。探讨切分变异消解的原则。同时,本文还就“金本位”高质量分词语料库的建设提出设想和一种基于机器学习和错误驱动的算法。  相似文献   

17.
设计了一个基于Web文本挖掘的分词系统。具体介绍了如何将Html格式的文档转化为Txt格式文本,以及利用MM法来实现对文档的汉语自动分词。并采用最大匹配加回退一字方法,处理交段长度为1的交集型歧义字段。  相似文献   

18.
目前,带标注语料库因为标注质量等原因严重影响了汉语的自动分词和测评,而其中影响较大的就是语料库中分词的不一致。本文总结并分析了前人对于分词不一致的各种研究,廓清了分词不一致的概念,提出分词不一致最好按照所属类别统一处理,同一类型的词应该处理成相同的切分形式。  相似文献   

19.
班智达藏文自动分词系统的设计与实现   总被引:1,自引:0,他引:1  
分词是理解自然语言的第一步,在此基础上才能划分短语、抽取概念以及分析主题,以至自然语言理解,最终实现智能化.通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能的研究,设计开发了基于词典库的班智达藏文自动分词系统.系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础.  相似文献   

20.
基于汉语自动分词与自动标引、自由标引与自由词标引、自动摘要、自动分类、文本检索与全文检索等分析了我国计算机汉语语义组织和检索的研发过程.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号