共查询到19条相似文献,搜索用时 234 毫秒
1.
2.
串的模式匹配是信息检索中的一个热点.文章介绍了模式匹配的概念,分析了串模式匹配中的BF算法和KMP算法,并对KMP算法进行了改进.实验结果表明:改进的KMP算法使信息检索具有更快的响应速度.参考文献5. 相似文献
3.
BM模式匹配算法的改进研究 总被引:5,自引:0,他引:5
模式匹配在全文检索系统中有着重要的作用,本文介绍和讨论了国内外所应用的模式快速匹配算法,并对著名的BM算法中δ1函数作了部分修改,提出δ3函数设想,以进一步加快模式快速匹配的速度。文中详细叙述了δ3函数的设想和算法,以及修改后的模式匹配算法。 相似文献
4.
IBM模式匹配算法研究 总被引:2,自引:0,他引:2
本文分析了BM模式匹配算法,提出了一种改进的BM模式匹配算法一IBM算法。该算法在使用Delta1、Delta2两函数的同时,提供一个新的Delta3函数。三个函数的运用,使IBM模式匹配的速度得到明显的提高。 相似文献
5.
6.
基于模式匹配的汉语同义词自动识别 总被引:7,自引:0,他引:7
同义词的自动发现和识别在信息检索领域有着重要的研究意义和应用价值。为了提高同义词自动识别的效率,本文提出了从词典释义中使用模式匹配方法提取同义词。该方法首先对词汇的释义方式进行分析,归纳总结出在词典释义中同义词出现的模式,进而利用模式匹配方法获取同义词。实验结果表明,利用模式匹配方法来自动发现同义词具有可行性和实用性。 相似文献
7.
8.
基于本体的数字图书馆检索模型研究(Ⅳ)——历史领域知识推理机制 总被引:6,自引:0,他引:6
基于本体的领域知识推理主要分为基于逻辑的领域知识检错推理和基于关系的领域蕴涵知识发现推理。对本体描述的领域知识进行推理,可以检测知识逻辑体系错误,减少领域本体构建繁琐的工作量,减轻对领域专家的依赖,发现领域蕴涵知识。在国共合作领域知识进行语义关系分析的基础上,提炼推理规则库,并分别运用TABLEAU算法和RETE模式匹配算法,在推理引擎Racer和Jena中实现了逻辑检错推理和蕴涵知识发现推理。 相似文献
9.
中文信息自动分类用知识库的设计与构建 总被引:11,自引:2,他引:9
在计算机智能处理技术远未成熟的情况下 ,基于概念语义网络的自动分类采用知识库技术 ,仍将是一种实用的选择。本项研究根据分类语言、主题语言、自然语言三者兼容互换的原理 ,以众多标引员的主题标引和分类标引的经验 ,即文献数据库实体中大量存在的文献分类号和主题词双重标引数据为基础 ,建立一个以《中图法》为基础的的分类知识库———分类法与主题词表对照数据库。论文对构建分类知识库的思路、步骤及主要技术 ,包括关联度测度方案、标引词模式匹配、新词增补等进行了讨论 相似文献
10.
领域本体的半自动构建方法研究 总被引:2,自引:0,他引:2
人机协作的半自动构建本体是目前较为理想的模式。借鉴软件工程中的领域建模、图书馆学中的分类学和本体学习的方法论,由领域专家给出领域的上层知识模式,通过机器学习技术从领域语料库中学习等级关系和相关关系为知识工程师提供参考,将专家的自顶向下和机器学习的自底向上的结果结合起来构建本体。半自动构建领域本体的关键技术在于领域概念的获取和组织,用共现统计算法、关联规则算法、隐含语义索引、Hopfield联想算法获取相关关系,用聚类算法、字面成族、模式匹配获取等级关系,从而完成领域类模型的构建。 相似文献
11.
12.
全二分快速自动分词算法构建 总被引:1,自引:0,他引:1
张海营 《现代图书情报技术》2007,2(4):52-55
分析现有分词算法存在的不足,在此基础上提出一种新的分词词典,通过为分词词典建立首字Hash表和词索引表两级索引,使得该分词词典支持全二分最大匹配分词算法,利用该分词算法进行自动分词,其时间复杂度实现了大的改善。 相似文献
13.
沈艺 《现代图书情报技术》1996,12(5):44-47
本文通过分析中国机读目录格式中有关字段对字符集引用所作的规定, 以及汉字字符集的国家标准体系和国际标准体系, 提出中文机读目录字符集不完整的原因, 并找出解决办法。 相似文献
14.
基于哈希算法的中文分词算法的改进 总被引:1,自引:0,他引:1
中文分词是中文信息处理一个重要的部分,一些应用不仅要准确率,速度也很重要,通过对已有算法的分析,特别是对快速分词算法的分析,本文提出了一种新的词典结构,并根据新的词典给出了新的分词算法,该算法不仅对词首字实现了哈希查找,对词余下的字也实现哈希查找。理论分析和实验结果表明,算法在速度和效率比现有的几种分词算法上有所提高。 相似文献
15.
改进的中文同义词相似匹配方法 总被引:2,自引:0,他引:2
信息检索的核心技术是文档集与提问集的相似匹配。目前基于关键词的字面匹配方法和基于词义的概念匹配方法各有优势与不足。在数字图书馆文献检索中可以综合两者的优势。设计一种改进的中文同义词相似匹配方法较现有两种方法优越,并具有更好的应用性。图2。表3。参考文献2。 相似文献
16.
基于长度递减与串频统计的文本切分算法 总被引:5,自引:4,他引:5
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。 相似文献
17.
基于百科资源的多策略中文同义词自动抽取研究 总被引:3,自引:1,他引:2
采用实证的方法,以百度百科语料库为实验抽取对象,在对同义词自动抽取技术分析比较的基础上,提出了多策略的中文同义词抽取的思路.综合利用字面相似度方法、特征模式匹配方法和PageRank链接分析方法对中文百科语料库中的同义词进行自动获取,具有多领域适用性、获取同义词类型多样性等特点.实验结果表明,该方法具有可行性,并可应用于其它语种的同义词自动获取中.未来的研究应进一步实现模式的自动定义、完善抽词词典、有效排除噪音数据并构建能真实反映语义关系的词汇矩阵.图1.表6.参考文献13. 相似文献
18.
三字歧义链自动分词方法 总被引:3,自引:0,他引:3
歧义问题是自动分词系统中要解决的主要问题之一。本文介绍一种在最大匹配法基础上,根据大量的真实语料中出现的歧义现象,把可能产生歧义切分的词进行特性分类,对每类确定一组规则进行处理 相似文献
19.
一种基于主题词表的快速中文文本分类技术 总被引:1,自引:0,他引:1
针对中文文本的自动分类问题,提出了一种新的算法.该算法的基本思路是构造一个带权值的分类主题词表,该词表采用键树的方式构建,然后利用哈希杂凑法和长词匹配优先原则在主题词表中匹配待分类的文档中的字符串,并统计匹配成功的权值和,以权值和最大者作为分类结果.本算法可以避开中文分词的难点和它对分类结果的影响.理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平. 相似文献