首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想.最后,论文对所研究技术方案进行了系统实现.系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能.  相似文献   

2.
采用基于词典的正向增字最大匹配算法,分词词典采用改进的双层哈希表加动态数组的数据结构。在不提升已有典型词典机制空间复杂度与维护复杂度的情况下,一定程度上提高了中文分词的速度和效率。  相似文献   

3.
通过对已有的分词算法尤其是快速分词算法的分析,提出了一种新的分词词典结构,并据此提出了二次Hash^+二分最大匹配快速分词算法。该算法具有较快的分词速度。  相似文献   

4.
郑阳  莫建文 《大众科技》2012,14(4):20-23
针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。  相似文献   

5.
一种基于词典的中文分词法的设计与实现   总被引:1,自引:0,他引:1  
中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动摘要、自动校对等领域。就中文分词的基本方法作了简单阐述,并介绍了一种基于词典采用最大匹配法实现中文分词的方法。  相似文献   

6.
对全文检索倒排表技术作了较细致的研究。对全文检索的基本原理和技术进行了深入的探讨。对中文分词方法作了重点研究和总结,并对词典分词法中的最大匹配法加以改进,使用C++设计了一个程序,真正实现了最大匹配法。  相似文献   

7.
基于词典的汉语自动分词算法的改进   总被引:6,自引:0,他引:6  
傅立云  刘新 《情报杂志》2006,25(1):40-41
综合分析了目前在计算机自动分词领域取得的进展和面临的困难,针对词典法提出了一种新的词典构筑方法以及相应的匹配算法。  相似文献   

8.
熊泉浩 《科技广场》2009,(11):222-225
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望.  相似文献   

9.
中文分词算法研究综述   总被引:7,自引:0,他引:7  
中文分词是中文信息的关键技术之一,其质量高低直接影响中文信息处理效率。文章对各种中文分词算法进行了详细的阐述。并进行了比较和讨论。  相似文献   

10.
中文专利权利要求书分词算法研究   总被引:1,自引:1,他引:0  
中文专利权利要求书是一种半结构化的文本,应对各种检索需要,迫切需要将中文专利权利要求进行分词处理.本文在总结中文专利权利要求书的特点的基础上,提出了一种基于领域词典和规则相结合的面向中文专利权利要求书的中文分词模型,并对词典、规则的构建进行了说明.该方法在封闭式测试条件下取得了较好的分词结果,能够将文本分割为有意义的实体,并且对未登录词的识别效果较好.  相似文献   

11.
中文分词算法综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的关键技术之一,本文对多种中文分词算法、自动分词理论模型进行了详细的阐述和讨论,为中文分词的进一步发展提供基础和方向。  相似文献   

12.
王华栋  饶培伦 《情报科学》2007,25(1):108-112
中文分词的结果是影响搜索引擎中文检索结果质量的重要因素,能否准确有效的分词对提高搜索结果的相关性和用户满意度都至关重要。本文回顾和整理了中文分词评估所依靠的理论依据,同时建立了一套完整的基于搜索引擎中文分词评估方法。这套评估方法涵盖了评估样本的提取、评估人员选取、评估标准的制定、以及评估流程的设置等各个方面。实例分析的结果表明此方法是行之有效的。在此基础上,作者进一步对实验评估的结果进行了深入讨论,并提出了提高评估效果的几条建议,包括如何考虑评估人员背景、取舍评估项目等。  相似文献   

13.
一种基于TFIDF方法的中文关键词抽取算法   总被引:4,自引:1,他引:3  
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著.  相似文献   

14.
自然语言检索中的中文分词技术研究进展及应用   总被引:1,自引:0,他引:1  
何莘  王琬芜 《情报科学》2008,26(5):787-791
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。  相似文献   

15.
现阶段,绝大多数自动分词系统都是基于词典的方法,词典的完备性是决定分词系统性能的基础和关键,但词典的完备性一直都是很难完善的。本文介绍了机械分词法与无词典分词法,并利用两种分词法各自的优点将其整合,提出了具有自学习功能的智能词典这个概念,以弥补分词词典无法完备的缺陷。  相似文献   

16.
付英英  孙济庆 《现代情报》2009,29(11):161-162,166
本文依据文献计量学的原理与方法,对2004-2008年5年发表的有关中文分词研究领域的论文进行了分析研究。通过对中文分词研究作者分析和文献分布分析,对我国在中文分词领域的研究现状进行了探讨。  相似文献   

17.
一种基于互信息的串扫描中文文本分词方法   总被引:2,自引:0,他引:2  
中文分词技术是中文信息处理的基础环节,在互信息原理的基础上提出了一个基于统计的中文文本分词方法.该方法对经过预处理之后每一个串中的任意可能长度串均判断其成词的可能性,实验结果说明该算法简单且具有良好的精度及查全率.  相似文献   

18.
全文检索搜索引擎中文信息处理技术研究   总被引:2,自引:0,他引:2  
唐培丽  胡明  解飞  刘钢 《情报科学》2006,24(6):895-899,909
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。  相似文献   

19.
一种快速中文分词词典机制   总被引:3,自引:0,他引:3  
通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率.  相似文献   

20.
基于中文分词的专利挖掘分析方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
专利作为世界上最大的技术信息源,受到企业的日益重视。本文提出了一种基于中文分词的专利挖掘分析过程,首先进行专利信息的检索、提取和清洗,然后利用中文分词对专利名称进行关键词组的提取,细化专利名称、摘要等专利信息,最后在此基础上挖掘出专利的技术发展路线,不同技术之间的关联关系以及相似专利簇等。该过程方法在空调行业专利数据中得到了应用,有助于企业进行专利地图绘制、技术研发和专利战略实施。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号