首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
分析Lucene的语言分析器结构,针对其只能进行中文单字、双字切分的不足,采用基于词典的正向最大匹配分词算法,设计并实现基于Lucene的中英文语言分析器ZH_CNAnalyzer,实验结果表明其能够对中英文文档进行高效索引,满足实际应用的需要。  相似文献   

2.
Lucene全文检索的应用及检索效率测试研究   总被引:1,自引:0,他引:1  
使用Lucene设计一个全文检索系统,系统由三大功能模块组成:索引模块、检索模块和存储模块.第二部分着重分析PDF数据转换,XML文档设计,索引的分词、建立及效率等技术难点,并对中文分词分析器、索引文件膨胀率、索引影响因子及检索系统并对检索响应时间进行测试.应关注XML数据库的安全性.  相似文献   

3.
针对DSpace开源系统基于Lucene的全文索引和关键词检索技术存在的问题,在特色库建设中引入了Solr搜索服务,替换了原有的Lucene分析器,强化了分面搜索、分面浏览、访问统计的发现功能,探索了词汇控制规范检索、分类法强化学科属性、自由词检索方式。  相似文献   

4.
基于Lucene的中文字典分词模块的设计与实现   总被引:8,自引:1,他引:8  
在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。  相似文献   

5.
基于XML的全文检索原型系统的设计与实现*   总被引:1,自引:0,他引:1  
针对当前单位网站搜索引擎存在的索引速度慢、更新不及时、检索效率低等问题,在深入分析和研究Lucene和XML等技术在建立搜索引擎方面优越性能的基础上,构建一个基于XML的全文检索原型系统。该系统以XML作为通用数据接口,以Lucene作为实现平台,能够实现快速及时索引和提高检索效率的目的。  相似文献   

6.
针对当前网络环境下专业化学科信息服务需求的不断提高,简要介绍开源全文检索软件Lucene的特点,基于该软件设计实现学科信息服务平台的索引模块和检索模块,并就全文检索的性能与通用关系型数据库进行对比分析。对比结果表明,Lucene开源软件可有效提高学科信息服务平台的检索能力。  相似文献   

7.
基于Lucene的Web站点站内全文检索系统的设计与实现   总被引:1,自引:0,他引:1  
曹强 《图书情报工作》2007,51(9):124-126,144
设计一个基于开源检索工具包Lucene的Web站点站内全文检索系统,详述系统的设计思路与体系架构,并对中英文分词和添加文档索引等关键技术给出具体代码和实现步骤;最后对该系统进行简单的性能测试并与通用搜索引擎的检索结果进行查全率和查准率方面的比较。  相似文献   

8.
周强 《图书馆学刊》2005,27(2):22-24
首先分析目前书目记录的索引检索方式的缺陷,然后给出利用开源软件Apache Lucene为MARC记录建立全文索引。  相似文献   

9.
基于AIMLBot智能机器人软件,利用"海量智能分词"和Lucene.net对机器人的中文知识库进行分词和索引检索,运用《知网》对用户输入问句与知识库问句进行相似度计算,获取相似度最高的知识问句进行推理,从而实现机器人在图书馆实时虚拟参考咨询中的服务。  相似文献   

10.
杨文刚 《北京档案》2012,(10):29-30,33
随着计算机技术的发展,档案信息的检索技术有待提高,垂直搜索引擎作为面向特定主题的搜索引擎,非常适合用来开发专业领域的搜索引擎。介绍了垂直搜索引擎的特点和系统结构,引入了Lucene.net的开源项目,提出了实现基于Lucene.net的档案垂直搜索引擎的设计方案,给出了搜索引擎系统中采集模块、索引模块和检索模块的实现方法。  相似文献   

11.
基于本体的课程知识检索系统研究   总被引:3,自引:1,他引:2  
周宇 《图书情报工作》2009,53(22):124-127
针对课程信息组织和检索系统实现问题,采用文献调研、模型建立法、比较分析法、原形法等情报学研究方法,详细阐述课程语义信息提取、存储、推理、查询和表示的研究过程。通过问卷调查采集课程信息并加以整理和分析,建设课程信息本体;实现WEB信息系统中课程本体的推理、查询以及表示;利用Lucene进行语义索引,利用ICTCLAS中文分词系统进行停用词过滤;实现课程知识本体的可视化。  相似文献   

12.
In this paper, which treats Swedish full text retrieval, the problem of morphological variation of query terms in the document database is studied. The Swedish CLEF 2003 test collection was used, and the effects of combination of indexing strategies with query terms on retrieval effectiveness were studied. Four of the seven tested combinations involved indexing strategies that used normalization, a form of conflation. All of these four combinations employed compound splitting, both during indexing and at query phase. SWETWOL, a morphological analyzer for the Swedish language, was used for normalization and compound splitting. A fifth combination used stemming, while a sixth attempted to group related terms by right hand truncation of query terms. The truncation was performed by a search expert. These six combinations were compared to each other and to a baseline combination, where no attempt was made to counteract the problem of morphological variation of query terms in the document database. Both the truncation combination, the four combinations based on normalization and the stemming combination outperformed the baseline. Truncation had the best performance. The main conclusion of the paper is that truncation, normalization and stemming enhanced retrieval effectiveness in comparison to the baseline. Further, normalization and stemming were not far below truncation.  相似文献   

13.
采用开源软件Lucene、IKAnalyzer、Luke进行中文学术文献计量软件的开发实践。介绍该软件的实现框架、数据准备、索引建立、自定义SemicolonAnalyzer分析器中的关键实现代码,并对该软件的不同计量效果进行分析。研究的主要目的是利用开源软件降低计量软件开发的复杂度,为研究人员提供一种自行开发中文学术文献计量软件的可行方法。  相似文献   

14.
This paper reports on the underlying IR problems encountered when indexing and searching with the Bulgarian language. For this language we propose a general light stemmer and demonstrate that it can be quite effective, producing significantly better MAP (around + 34%) than an approach not applying stemming. We implement the GL2 model derived from the Divergence from Randomness paradigm and find its retrieval effectiveness better than other probabilistic, vector-space and language models. The resulting MAP is found to be about 50% better than the classical tf idf approach. Moreover, increasing the query size enhances the MAP by around 10% (from T to TD). In order to compare the retrieval effectiveness of our suggested stopword list and the light stemmer developed for the Bulgarian language, we conduct a set of experiments on another stopword list and also a more complex and aggressive stemmer. Results tend to indicate that there is no statistically significant difference between these variants and our suggested approach. This paper evaluates other indexing strategies such as 4-gram indexing and indexing based on the automatic decompounding of compound words. Finally, we analyze certain queries to discover why we obtained poor results, when indexing Bulgarian documents using the suggested word-based approach.  相似文献   

15.
联机检索过程中存在三个概念: 提问概念、标引概念、检索概念。本文从人为因素、检索语言、词表结构三个方面, 讨论及其对上述三个概念匹配的影响, 提出研究与发展混合型检索语言、确定检索人员新的专业标准等减少概念匹配失误的设想。  相似文献   

16.
从信息检索流程对XML检索的研究情况进行综述。主要对XML查询语言、XML索引、XML检索排序方法以及XML检索评价4个方面的研究情况进行评述,并对XML检索研究的一些热点领域进行介绍,最后就需要继续深入研究的问题进行简要说明。  相似文献   

17.
[目的/意义] 构建一个基于多语言本体的跨语言信息检索模型,有助于用户通过该模型使用自己熟悉的语言来获取不同语种的信息资源。[方法/过程] 通过本体设计及检索模型功能模块设计建立一个基于数字出版领域本体的中英跨语言信息检索模型,并利用Java语言及Lucene搜索引擎架构对该模型进行编程实现。[结果/结论] 多语言领域本体具有明确、形式化、共享、概念化、结构清晰等特征,可以作为语义层应用于跨语言信息检索系统之中,实现信息资源的语义表达。经测试,本文构建的模型能够较好地实现分词、查询扩展和语义关联等功能,促进跨语言信息检索向语义层次发展。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号