首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
基于EMM中文抽词算法的XMARC主题信息挖掘   总被引:4,自引:0,他引:4  
王兰成 《情报学报》2005,24(1):82-86
本文在分词词典上采用区间最大词长,改进正向减字最大匹配法为“词首 长词匹配 短词推进”自动标引方法,从而有效地减少领域的分词歧义性和缩短标引时间。最后将该研究付诸于XMARC主题信息的挖掘与检索的实现,并证明其在时间和质量综合性能上的优越性。  相似文献   

2.
两种自动标引法的比较及改造   总被引:5,自引:0,他引:5  
本文主要对汉语文献自动标引的两种方法——切分标记法和单汉字标引法在标引和检索实现上的不同作了比较, 并对两种方法的算法实现提出了一些建议和设想, 旨在推进对自动标引的进一步研究和完善。  相似文献   

3.
单汉字标引方法的改进研究   总被引:2,自引:1,他引:1  
本文根据信息论中的交互信息,给出了相邻汉字相关度的测量方法,在此基础上提出了基于字串预分割的单汉字标引检索方法,对当前具有代表性的单汉字标引方法进行了改进研究。试验证明本文提出的方法具有较好的性能  相似文献   

4.
基于词首最长匹配的词典分词和段句分割符表的切分标记分词,构建用于档案信息集成与检索的知识标引环境,然后运用ASPNET分布式技术,研究和开发一个基于知识标引的异构档案数据整合与信息检索系统。  相似文献   

5.
通过采用单汉字索引技术在FOXPRO环境下自行设计的实验系统,以《新华日报》为例,实验比较了在自动标引方式和自由标引方式下新闻信息数据库的检索效率,并分析了两种标引方式对检索效率的影响关系,从而探讨用机器自动标引替代手工自由标引的可能性。文章还提出了改进的建议及实验需要的原则。  相似文献   

6.
文献信息计算机全文全自动标引方法   总被引:3,自引:0,他引:3  
为了满足越来越细化的文献信息服务的要求 ,必然会最终实现全文全自动标引和主题词检索加关键词全文检索的文献信息处理方法。文章在已研制成功的“计算机辅助标引系统”的基础上 ,提出了全文全自动标引的切词方法、匹配算法、加权校对算法 ,以及为配合切词和算法的要求应该设立的一系列数据库 ,并论述了它们的含义、功能和建库方法 ,提出了一种全新的文献信息全文全自动标引的实施方法。  相似文献   

7.
中文题录单汉字与关键词混合检索系统   总被引:2,自引:0,他引:2  
作者在微机上自建了一个记录数为8599的中文题录单汉字与关键词混合检索系统,它在一定程度上弥补了有的单汉字检索系统没有词检索功能及某些单汉字检索系统索引空间较大的缺陷.同时还使用户的检索结果得到了更为充分的利用。  相似文献   

8.
汉语词切分标引算法的改进   总被引:8,自引:1,他引:7  
作者从实际应用的角度对汉语文献自动标引的两种算法进行了改进。提出将非用字后缀表法改进为,考察相邻三字之间的联系关系,实现一次扫描完成分词;还提出了首字直接匹配法对单字标引的检索进行改进  相似文献   

9.
古籍文本抽词研究   总被引:2,自引:0,他引:2  
目前古籍文本检索大多局限于篇、章及目录,即使是全文检索一般也是基于单汉字的检索,由于没有现成的古籍词表可用,古籍文本的标引和检索效率都受到影响。现将处理现代文本的N元组法移植到古籍文本中进行实义词提取,实验步骤包括:自动分词并统计词频;利用抽词词典和停用词词典得到候选词汇;通过简单计算对n元组进行剔除过滤;人工判别提取实词。实验共从10万字的文本对象《齐民要术》中提取古籍普通语词和专有名词(包括书名、地名、人名官职名)共3369个,表明此实验方案基本是可行的。  相似文献   

10.
中文期刊文献通用词标引分析   总被引:1,自引:0,他引:1  
通用因素是文献主题的构成因素之一,对主体因素起细分作用。通用词是指那些在专业领域没有独立检索意义的泛指词。在中文期刊文献标引的过程中,通用词的使用对其标引结果产生着重要的影响。文章讨论了通用词标引的一般规则,并以《中国期刊网》中的文献为例,进行抽样统计和实例分析,归纳了通用词标引的错误现象及其原因,并对期刊文献的通用词标引提出了几点改进意见。  相似文献   

11.
国外机编索引发展概述   总被引:3,自引:0,他引:3  
国外机编索引发展概述戴维民Abstract:Thepaperdiscussesinbriefthehistoryofdevelopment,thefundamentalsandthetechnologyoftheoverseascomputer-pr...  相似文献   

12.
文献信息自动标引研究   总被引:12,自引:0,他引:12  
作者认为我国文献自动标引研究的重点应由分词研究向实际标引研究转移。由此, 作者从标引源的确立、标引词权值的定义和使用、标引词库的构造、自动标引算法的实现等方面阐述了他们在自动标引方面的研究成果, 同时介绍了利用标引词库进行的检索改造。  相似文献   

13.
分析潜在语义索引的基本原理及其特点。针对LSI的3个因素,从特征词的选取,维数约简,特征词权重3个方面进行约定和改进。并以计算机类的科技文献作为测试文档,对改进的权重算法和改进前后LSI系统的检索结果进行分析。结果显示,特征词的选择结果及检索效果都得到较大的提高,性能稳定。  相似文献   

14.
本文通过分析中国机读目录格式中有关字段对字符集引用所作的规定, 以及汉字字符集的国家标准体系和国际标准体系, 提出中文机读目录字符集不完整的原因, 并找出解决办法。  相似文献   

15.
分析基于Microsoft Indexing Service创建Web全文检索系统的理由及Microsoft Indexing Service的索引机制,并利用Mi-crosoft Visual C#.NET技术给出一个具体实现方案。  相似文献   

16.
研究将XML文本检索方法应用于长文本环境,并以中文博硕士论文为数据集。对博硕士论文数据集的XML标引、索引、关键词检索和结构化检索分别进行设计和实现,构建一个基于XML的中文博硕士论文检索系统。  相似文献   

17.
基于潜语义标引的自然语言检索   总被引:3,自引:0,他引:3  
在信息检索中, 向量空间模型是最有效的数学工具之一。由于自然语言检索的特殊性, 以及传统信息检索模型受到同义词、多义词的影响, 检索的查准率不高。为了提高自然语言检索的查准率, 我们对基于概念的信息检索模型——
潜语义标引(LS I) 模型进行了探讨, 并分析了基于LS I 的两个实例。  相似文献   

18.
李纲  叶光辉 《图书情报工作》2013,57(21):104-111
语义网的发展为模糊语词转模糊概念检索提供了可能,鉴于词表在模糊检索系统中的主导地位,实现模糊概念检索必须先完成词表向本体的转换。在综合分析和评价已有转换方法的基础之上,提出综合转换法。该方法继承间接转换法规范的概念抽取及关联设计规则,又通过综合评议和词信息量、词间关联度、文档频率等参数的算法设计改变了直接转换法过于程式化的处理方式。最终将词词关联矩阵转换为概念矩阵,叙词表升级为本体库,并在现有检索算法的基础上设置了检索原子与概念的映射关系,以实现概念检索。  相似文献   

19.
单汉字检索系统后控词表的改进研究   总被引:8,自引:2,他引:6  
通过对单汉字检索系统及其后控词表的介绍和分析, 针对其在揭示隐含主题以及扩检、缩检的不足之处, 提出了基于主题词表的后控词表解决方案。指出此方案尤其适合于小型专业数据库系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号