首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 390 毫秒
1.
Lucene全文检索的应用及检索效率测试研究   总被引:1,自引:0,他引:1  
使用Lucene设计一个全文检索系统,系统由三大功能模块组成:索引模块、检索模块和存储模块.第二部分着重分析PDF数据转换,XML文档设计,索引的分词、建立及效率等技术难点,并对中文分词分析器、索引文件膨胀率、索引影响因子及检索系统并对检索响应时间进行测试.应关注XML数据库的安全性.  相似文献   

2.
基于XML的全文检索原型系统的设计与实现*   总被引:1,自引:0,他引:1  
针对当前单位网站搜索引擎存在的索引速度慢、更新不及时、检索效率低等问题,在深入分析和研究Lucene和XML等技术在建立搜索引擎方面优越性能的基础上,构建一个基于XML的全文检索原型系统。该系统以XML作为通用数据接口,以Lucene作为实现平台,能够实现快速及时索引和提高检索效率的目的。  相似文献   

3.
一种基于Native XML的全文检索引擎   总被引:5,自引:0,他引:5  
王弘蔚  肖诗斌 《情报学报》2003,22(5):550-556
随着XML的日益流行 ,基于XML的全文检索应用需求也迅速扩大。在这些应用中 ,native XML数据库是发展方向。虽然商业化的native XML数据库已经出现 ,但其全文检索的性能还不尽人意。本文提出一种方法 :在传统的倒排索引的框架下 ,对XML的标记建立索引 ,使得一个全文数据库能够以Native的方式存储、索引、检索和输出XML文档 ,成为一个真正意义上的native XML全文数据库 ,既有传统全文数据库的优越性能 ,又能满足基于na tive XML的应用需求  相似文献   

4.
在分词技术、索引技术、结构化查询语言技术的基础上,提出了一个基于XML文档数据库的信息检索系统,这一系统模型主要由分词模块、索引模块及查询模块组成。  相似文献   

5.
用JAVA+XML实现网站全文检索   总被引:2,自引:0,他引:2  
介绍了用JAVA和XML实现网站站内全文检索的实现过程,即用java编写索引工具,对WEB文档进行索引,索引结果写入XML文档;用Servlet和JDOM实现读取和查询XML文档,并在客户返回查询结果。  相似文献   

6.
基于混合索引的中文全文检索系统研究   总被引:1,自引:0,他引:1  
在中文全文检索系统中引入了混合索引,建立了混合索引之Hash索引,给出了Hash索引在内存中的存储结构,并给出了这种索引下的检索算法。这种索引既能保证索引的全面性,又能提高系统检索效率。通过实际构建系统,探讨了基于混合索引的中文全文检索系统的实现。  相似文献   

7.
视频元数据全文检索系统的研究与实现   总被引:3,自引:0,他引:3  
陈玮  陆达 《情报学报》2004,23(1):32-35
本文阐述了采用XML文档按照MPEG 7标准描述视频数据的趋势 ,研究了适合于半结构化视频描述的全文检索索引结构。该索引保存了文档中的结构信息 ,从而可以对视频数据进行全方位多层次的查询。提出了一些缩减索引空间的策略和算法。  相似文献   

8.
针对质量管理信息系统对全文检索功能的需求,在分析了数据库检索和使用搜索引擎检索两种方式后,选择开源搜索引擎DotLucene实现质量管理信息系统全文检索功能,详细介绍了实现索引增量更新的方法、索引建立过程、查询WebService的实现。  相似文献   

9.
面向大规模语料库的全文检索系统研究   总被引:1,自引:0,他引:1  
随着语料库规模的不断扩大和基于语料库的应用研究逐步拓展,对语料库的全文检索成为语料库系统中不可缺少的重要的组成部分。文章对面向大规模语料库的全文检索系统的索引模式、检索算法、检索表达式的构建、自动分词、系统组成等进行了研究,并基于大规模语料库的语言文字信息处理和应用研究的需要,开发了中文信息处理系统——“CIPP”。目前该系统具有全文检索、自动分词、语言统计等功能,在千万字数量级的语料库中,其全文平均检索时间小于1秒。  相似文献   

10.
图像对象特征值的抽取、存储、转换、显现的实现有多种方法,SIMIIRS系统主要采用了数据库方法和XML方法。文章主要讨论了图像资源的XML描述方法、建立图像信息的XML索引文档,检索XML文档以实现图像信息查询与提供。  相似文献   

11.
This paper investigates the impact of three approaches to XML retrieval: using Zettair, a full-text information retrieval system; using eXist, a native XML database; and using a hybrid system that takes full article answers from Zettair and uses eXist to extract elements from those articles. For the content-only topics, we undertake a preliminary analysis of the INEX 2003 relevance assessments in order to identify the types of highly relevant document components. Further analysis identifies two complementary sub-cases of relevance assessments (General and Specific) and two categories of topics (Broad and Narrow). We develop a novel retrieval module that for a content-only topic utilises the information from the resulting answer list of a native XML database and dynamically determines the preferable units of retrieval, which we call Coherent Retrieval Elements. The results of our experiments show that—when each of the three systems is evaluated against different retrieval scenarios (such as different cases of relevance assessments, different topic categories and different choices of evaluation metrics)—the XML retrieval systems exhibit varying behaviour and the best performance can be reached for different values of the retrieval parameters. In the case of INEX 2003 relevance assessments for the content-only topics, our newly developed hybrid XML retrieval system is substantially more effective than either Zettair or eXist, and yields a robust and a very effective XML retrieval.  相似文献   

12.
基于Lucene的Ftp搜索引擎的设计   总被引:2,自引:0,他引:2  
针对当前网络中所使用的基于数据库的Ftp搜索引擎没有标准资源文档且不支持中文分词和动态数据更新的缺陷,提出基于Lucene这个功能强大的全文索引引擎工具包的Ftp搜索引擎的设计方案。此Ftp搜索引擎不仅能够自动生成标准格式的XML资源文档,而且采用基于字典的前向最大匹配中文分词法在Lucene中动态更新全文索引。该设计还能够对检索关键字进行中英文混合分析和检索。  相似文献   

13.
XML信息检索探究   总被引:4,自引:0,他引:4  
廖述梅  万常选  徐升华 《情报学报》2007,381(2):229-234
XML文档是具有层次结构和文本内容的半结构化数据。现有的Web信息检索是基于HTML文档的关键词全文检索,无法胜任XML元素粒度的检索;同时,XML数据库检索实现的是精确查找,检索结果无排序支持。因此,融合信息检索和数据库技术研究XML检索问题成为必然。本文从XML检索的问题域出发,阐述了XML信息检索(XML IR)的国内外研究现状与特点,并分析了目前XML IR的热点和难点问题。  相似文献   

14.
本文采用BORLANDIDAPI关系数据库集成技术,集成多种关系数据库系统,并用信息存储与检索软件QUICKIMS进行管理,实现对关系数据库的全文检索。对基于PC和基于SQL的关系数据库数据结构、数据访问方式、数据类型进行集成;对基本表和单库或多库查询的结果进行转移,生成QUICKIMS的必要文件和索引;对关系数据库提供布尔检索、前方一致检索、字段限定检索、相邻检索和位置检索等检索方式。采用动态转换关系数据库数据,减少了空间的浪费  相似文献   

15.
研究将XML文本检索方法应用于长文本环境,并以中文博硕士论文为数据集。对博硕士论文数据集的XML标引、索引、关键词检索和结构化检索分别进行设计和实现,构建一个基于XML的中文博硕士论文检索系统。  相似文献   

16.
XML 语言在数字化图书馆系统中的应用   总被引:2,自引:0,他引:2  
介绍了如何在数字化图书馆系统中运用XML语言的方法。并且说明了XML语言的特性及它与HTML语言的区别。利用韩国虚拟图书馆和信息系统(VINIS)中的一个子系统——基于XML语言的元数据搜索的实验系统来演示XML用法。元数据检索系统包括两个模块:搜索模块和浏览模块。搜索模块允许对储存在Access文件中的元数据进行搜索并且可以用XML语言的形式显示搜索结果,浏览模块允许浏览以XMUXSL文件形式存在的元数据。文章最后讨论了如何在数字化图书馆中更有效的运用XML语言。  相似文献   

17.
分析了基于 Microsoft Search Service为图书馆自建数据库创建 Web全文检索系统的理由、Microsoft SearchService的索引机制和检索机制 ,并运用 ASP.NET技术给出了一个具体的实现方案  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号