首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
校园师生通过校园网进行有效的校内外信息搜索,中文分词起到举足轻重的作用.本文通过对中文分词方法的介绍,重点分析了最大匹配算法的优缺点,提出重组正向与逆向相结合的最大匹配算法思路,在校试验中取得了较好的效果.  相似文献   

2.
分析现有的词表切分法、自动切分算法的不足,通过改进Lucene系统的分词功能,设计了一个基于Lucene的中文数码产品搜索引擎,重点探讨了该搜索引擎的中文分词功能,实验证明本方法对中文词语可以设定正向匹配的字数,从而灵活的有效地进行中文分词。  相似文献   

3.
深入探讨基于词典的分词过程、常见词典结构以及分词算法。在分析现有系统的基础上,设计一个新的词典结构,对经典的分词算法进行改进,通过词典加载功能改善未登录词的识别问题,通过双向匹配算法获取最优分词结果,改善歧义识别问题。  相似文献   

4.
李畅  吴振强 《考试周刊》2011,(26):177-179
传统的算法处理分词过于粗糙,而且往往会引起分词歧义。为弥补传统分词算法的固有缺点,本文在吸收了成熟算法优点的基础上,提出了改良型的中文分词算法(正向扩词分词算法和反向扩词分词算法)。这两种新算法与传统最大匹配算法相结合,不但提高了分词的精度和速度,而且降低了分词服务程序的开发难度。经过实践验证,分词准确率达到大多数系统对中文分词的要求。  相似文献   

5.
在汉语词典查询算法中,哈希表知道搜索捷径,然而数组只知道正式的路线,因而与标准的二分检索相比,哈希表的搜索速度比数组快多了.在算法中,如果能恰当地使用哈希表,就会极大地提高效率.  相似文献   

6.
网络信息的急剧增长给人们搜索信息带来一定的困难,搜索引擎的出现及时地解决了这个问题.而在搜索引擎中核心的部分专一是中文分词算法,它在一定程度上影响着检索的速度.简单介绍中文分词的重要性、方法以及现在存在的问题,对中文分词的进一步发展提供一定的依据,推动搜索引擎发挥越来越强大的作用.  相似文献   

7.
通过对新闻行业进行分析,针对新闻网站对信息要求的特征,研究相关的中文分词算法以及全文检索框架,并设计了一个能够多线程进行数据采集和检索的垂直搜索引擎,然后通过盘古分词组件与Lucene搭建了一个高效的检索系统。系统通过中小型新闻网站的测试运行能够达到搜索引擎对信息查询准确性以及高效响应速度的要求,有较强的处理,改善了用户体验。  相似文献   

8.
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合,从而实现中文文本结构化的表示。  相似文献   

9.
正向最大匹配法在中文分词技术中的应用   总被引:2,自引:0,他引:2  
分词是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术.正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合.从而实现中文文本结构化的表示.  相似文献   

10.
姜熙 《华章》2007,(9):216-216
普通搜索引擎仅仅采用单一关键词匹配检索查询结果是提高信息检索准确度的最大障碍之一.将"人性化"理念融入搜索引擎技术中,在中文分词技术中引入"6W"模式、句子成分分析技术提高搜索引擎的自然语言理解能力.帮助用户完善查询要求,最大限度的了解用户的查询目的,高效的得出符合要求的检索结果,减少干扰和无用信息.  相似文献   

11.
本文介绍了汉语自动分词和网络语言的特点,利用双字哈希索引分词词典机制进行汉语分词,证明其方法的有效性.  相似文献   

12.
对SNORT的原有规则匹配算法MWM算法改进,在改进规则匹配算法中加入哈希冲突二次散列处理和模式分组匹配,在匹配过程中,可以有效的避免哈希才冲突,增加最大跳跃度,从而大大减少了在规则匹配中花费的时间,从而提高了SNORT的性能。通过测试改进后的系统比原来的系统速度明显提高。  相似文献   

13.
微博数据具有较好的价值,如何从海量的微博数据中自动提取用户兴趣爱好是智能推荐、微博营销等重要基础。在分析微博特征基础上,采用基于微博内容的兴趣爱好分类模型,通过构建兴趣爱好词典,并自动抓取微博信息进行分词、匹配和统计,有效地分析出用户的各种爱好兴趣度。  相似文献   

14.
对中文分词进行研究是自然语言处理的重要步骤,结合字典对短中文进行正逆向分词,在此基础上得到多组分词结果,利用基于统计的方法和基于规则的方法进一步优化算法,根据用户使用频度和网络搜索热度以及词语间的固定搭配规则对多组分词进行排序,并通过实例验证发现该方法具有较好分词效果。  相似文献   

15.
提出了一个基于Internet的E-Learning(远程教学)系统的设计模型。本模型采用基于B/S的三层结构和ActiveX技术;并且在查找算法中,采用了最大匹配算法和二叉树相结合的自动分词算法,以提高网络响应速度。本模型在纵横远程教学网站中得到了实现。  相似文献   

16.
提出了一个基于领域本体的课程知识检索系统,探讨了个性化检索技术在系统的检索器模块中的应用,并详细介绍了检索器模块中基于本体的逆向最大匹配分词算法(RMM)和分层遍历森林算法的实现,为课程知识检索系统进一步的开发工作奠定了基础.  相似文献   

17.
使用Lucene和Heritrix技术实现局域网站内搜索,该搜索引擎系统的后台完成了信息资源的抓取、建立镜像文件、建立索引、搜索等关键操作。本系统大量采用了第三方的工具,使得在文档格式的转换,分词的建立有了更好的准确度,更加符合人们日常习惯的说话方式,提高了用户查找所需要内容的命中率。  相似文献   

18.
探讨汉英句级对齐软件设计中两项主要技术,即哈希算法与词典语义映射在对齐中的运用。哈希算法能帮助软件从词典大量的英汉词条语义信息中快速提取所需的对应义,结合语义映射,将需要对齐的句子关键词信息进行语义识别,从而有效提高汉英句子对齐效果。  相似文献   

19.
文章概述主题搜索引擎原理,介绍了高性能的全文检索引擎—Lucene开源系统,在分析Lucene语言分析器结构的基础上,得出基于Lucene的数码产品搜索引擎的主题词典的具体构建方法,并针对词典的更新做了初步探讨,总结了基于用户查询日志的主题词典构建方法。  相似文献   

20.
为提高通用搜索引擎对医学学科及主题的覆盖率,在开源搜索框架Nutch平台上,通过构建医学词典,结合中文分词插件,构建了一个面向医学信息的垂直搜索引擎,并详细介绍了改进后的系统功能和体系结构。相对于通用搜索引擎,该改进提高了医学信息判别的准确度和效率,减少了搜索结果冗余,同时提高了系统对于互联网复杂环境的处理能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号