首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 500 毫秒
1.
为了改进基于关键词的信息检索方法的局限性,论文研究了一种综合利用领域本体改善信息检索性能的方法.该方法强调通过交互式的方式引导用户一步步逼近其真实的、潜在的检索需求,使用基于编辑距离的词形匹配方法辅助用户查询本体词汇,使用基于概念空间的检索词联想方法帮助用户扩充检索词.使用基于领域本体的词义识别算法来确定文档中的词汇词义.使用XML技术实现用户查询需求和文档标注的规范化标注.实验表明,该方法会有效提升查全率并且会改进查准率.  相似文献   

2.
信息爆炸是当今信息社会的一大特点,如何在海量的信息中有效地找到所需信息因而成为了一个关键问题,语义检索技术是解决这一问题非常有潜力的方法.本文对信息检索中的若干关键问题进行了研究,提出了基于语义处理技术的信息检索模型--SPTIR,该模型主要包括以下关键技术:基于词义消歧的语义查询扩展、基于词汇语义相关性度量的查询优化和基于文档语义相关性的检索结果重排序.最后使用大型测试数据集和多项性能指标对SPTIR模型的检索性能进行了试验评估,实验结果充分验证了SPTIR模型的竞争优势以及该模型采用的各项语义处理技术对提高检索性能所起的积极作用.  相似文献   

3.
智能化是信息检索技术发展的一个重要方向,将本体论技术引入信息检索过程实现信息检索智能化得到了广泛的关注和研究.但是,现有的研究仅仅局限于利用本体规范化人-机对篇章词汇概念的一致理解,实现词汇语义级别的信息检索,对本体所具有的推理能力如何应用于信息检索却缺乏有效的解决方法.为了解决这一问题,本文将描述逻辑引入信息检索.一方面,通过建立描述逻辑与领域本体之间的映射关系,规范领域本体的构建,使领域本体具备自动推理能力;另一方面,强调通过语义标注实现领域本体对检索文档的描述.这样,就可以将针对检索文档集合的信息检索转换为针对描述逻辑知识库的推理过程,从而在信息检索过程中引入推理服务,实现智能化检索.文章详细定义了基于描述逻辑的信息检索的概念,阐述了其所提供的各种信息检索服务,并且以一个企业环境中的应用说明基于描述逻辑所实现的信息检索新能力.最后,介绍一种基于描述逻辑的信息检索技术实现方案.  相似文献   

4.
基于语义的馆藏信息检索模型研究   总被引:1,自引:0,他引:1  
研究了语义网的概念及其层次模型,提出一种新型的基于语义的图书馆馆藏信息检索模型,给出了系统的架构体系,分析了系统实现的关键技术。该系统以语义网及本体为基础,将传统的基于关键词的检索提高到基于语义检索。  相似文献   

5.
基于个体概念语义关系的微内容发现研究   总被引:1,自引:0,他引:1  
传统的超文本标记语言只能显示而不能使计算机理解页面信息,导致传统的基于关键词的检索工具的查准率、查全率和智能化程度都较低.虽然语义网可以解决计算机对页面信息的理解问题,但以往基于本体的语义匹配算法通常是面向类概念的,在精度上不能满足微内容的发现需求.本文面向微内容检索应用,在分析了个体概念的语义特征的基础上,提出了基于语义关系的个体匹配规则、索引结构和相应的语义检索算法.最后,通过实验验证,证明了基于个体语义关系的聚合机制具有更高的聚合细腻度,所提出的语义检索算法在面向微内容的检索应用中是有效的.  相似文献   

6.
一种本体驱动的Web信息检索模型及实现   总被引:7,自引:0,他引:7  
本文提出一个本体驱动的Web信息检索模型以解决当前Web信息检索中存在的问题(如查准率低),并分析了该模型的关键组件用户提问分析组件、查询组件。在实验中,选择抽水蓄能领域资源简单地实现了该模型,向用户提供基于抽水蓄能本体的概念查询和语义扩充查询、语义缩小查询三种查询途径。该模型能够改善用户查准率和满意度,实现对该领域资源的智能化检索。  相似文献   

7.
基于领域本体实现全网信息的智能搜索方法研究   总被引:2,自引:2,他引:0  
为了克服基于关键词匹配的传统搜索引擎不能有效处理复杂语义的问题,提出了一种基于领域本体实现面向整个网络空间的信息智能搜索方法.首先研究了支持网络信息搜索的领域本体结构和表示方法;重点研究了基于领域本体对用户的检索关键词进行语义处理技术,并且设计了一个算法提高语义推理效率;探究了自动调用搜索引擎,按照语义处理后的检索表达式完成全网信息搜索的方法.实验证明,本方法在略有提高查准率的同时,显著提高了网络信息搜索的查全率.  相似文献   

8.
基于共现分析的语义信息检索研究   总被引:1,自引:1,他引:0  
提高信息检索系统的用户体验度可以从查询优化的算法和增强可视化展示的研究等方面入手。本文利用文献调研、共现分析和构建本体等方法,设计基于共现分析的语义信息检索和流程,并利用武汉大学图书馆的书目检索系统中"世界考古"类目的数据进行实验分析。经过文献调研发现,目前语义信息检索主要集中在基于本体的查询技术、语义标注问题和语义关系检索等方面的研究,语义信息检索目前只能做到表层相关的检索。构建的基于共现分析的语义信息检索模型包括规范器、分析器和本体构建器三个部分,其中分析器是本模型的核心。经过实验分析发现共现分析可以应用于语义信息检索,并比较得出基于共现分析的语义检索比传统检索更具人性化、引导性。  相似文献   

9.
知识检索中自然语言控制机制研究   总被引:6,自引:0,他引:6  
情报检索过程中,对自然语言进行词汇控制是可行方法.借助各种技术和措施揭示词间的语义关系,词汇控制至少可以实现查询词的自动转换、一定程度的查询扩展、关联检索、排歧检索等,提高检索的语义性、知识性、智能性,提高查全率和查准率.参考文献12.  相似文献   

10.
信息检索技术研究与实践   总被引:1,自引:0,他引:1  
文章针对信息检索中存在的问题,阐述了智能信息检索的概念、理论、技术和应用;论述了基于本体的智能信息检索方法,其特点是在检索过程中引入了资源对象的语义处理和推理机制,对提高查全率和查准率具有一定的指导意义.  相似文献   

11.
国内中文自动分词技术研究综述   总被引:22,自引:0,他引:22  
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点.全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点.  相似文献   

12.
汉语分词技术综述   总被引:2,自引:1,他引:1  
首先介绍了汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述了汉语自动分词技术在中文全文检索中的应用,并对目前汉语自动分词技术存在的局限性进行了分析,提出了发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行了预测。  相似文献   

13.
基于词向量扩展的学术资源语义检索技术   总被引:1,自引:0,他引:1  
[目的/意义] 尝试以统计的方法为指导思想,探究基于词向量扩展的语义检索技术来提升学术资源的语义检索能力。[方法/过程] 利用自然语言处理、文本挖掘技术,对采集来的学术资源(主要是学术论文)元数据进行预处理,结合word2vec词向量生成工具和elasticsearch全文检索引擎搭建语义检索系统,对学术资源进行语义检索的探索研究。[结果/结论] 本文提出的方法能够有效提升学术信息的检索效果,一定程度上实现学术资源的语义检索,并为后续语义检索的进一步研究提供借鉴。  相似文献   

14.
Applying Machine Learning to Text Segmentation for Information Retrieval   总被引:2,自引:0,他引:2  
We propose a self-supervised word segmentation technique for text segmentation in Chinese information retrieval. This method combines the advantages of traditional dictionary based, character based and mutual information based approaches, while overcoming many of their shortcomings. Experiments on TREC data show this method is promising. Our method is completely language independent and unsupervised, which provides a promising avenue for constructing accurate multi-lingual or cross-lingual information retrieval systems that are flexible and adaptive. We find that although the segmentation accuracy of self-supervised segmentation is not as high as some other segmentation methods, it is enough to give good retrieval performance. It is commonly believed that word segmentation accuracy is monotonically related to retrieval performance in Chinese information retrieval. However, for Chinese, we find that the relationship between segmentation and retrieval performance is in fact nonmonotonic; that is, at around 70% word segmentation accuracy an over-segmentation phenomenon begins to occur which leads to a reduction in information retrieval performance. We demonstrate this effect by presenting an empirical investigation of information retrieval on Chinese TREC data, using a wide variety of word segmentation algorithms with word segmentation accuracies ranging from 44% to 95%, including 70% word segmentation accuracy from our self-supervised word-segmentation approach. It appears that the main reason for the drop in retrieval performance is that correct compounds and collocations are preserved by accurate segmenters, while they are broken up by less accurate (but reasonable) segmenters, to a surprising advantage. This suggests that words themselves might be too broad a notion to conveniently capture the general semantic meaning of Chinese text. Our research suggests machine learning techniques can play an important role in building adaptable information retrieval systems and different evaluation standards for word segmentation should be given to different applications.  相似文献   

15.
标签形式的社会性语义越来越占据主导地位,使元数据界在这种新形式的信息内容表达和检索方面面临机遇和挑战。其中,主要的挑战是与标签相关的语境信息的缺失。以Flickr标签为例,对如何利用社会性语义资源来丰富主题元数据进行了实验。实验过程包含4个步骤:收集Flickr标签样本;通过共有信息计算标签间的同现情况;通过Google检索结果来追踪标签对的语境信息;用自然语言处理和机器学习技术来抽取标签间的语义关系。本实验能够利用Google搜索结果构建语境库,并且以自然语言处理和机器学习算法对这些语句进行处理。这种新方法对于赋予标签对以一定语义关系有相当高的准确率。也探讨该方法在利用社会性语义丰富的主题元数据方面的意义。  相似文献   

16.
宋明亮 《图书情报工作》1994,38(5):16-18,63
通过控制提高检索效率是情报语言学研究的根本目的。在计算机化的“自然语言检索系统”中,控制的手段、方法和技术发生了变化,这些变化开辟了情报语言学研究的新领域:主题词词典、类主题词典、后控词表和术语等。  相似文献   

17.
The application of word sense disambiguation (WSD) techniques to information retrieval (IR) has yet to provide convincing retrieval results. Major obstacles to effective WSD in IR include coverage and granularity problems of word sense inventories, sparsity of document context, and limited information provided by short queries. In this paper, to alleviate these issues, we propose the construction of latent context models for terms using latent Dirichlet allocation. We propose building one latent context per word, using a well principled representation of local context based on word features. In particular, context words are weighted using a decaying function according to their distance to the target word, which is learnt from data in an unsupervised manner. The resulting latent features are used to discriminate word contexts, so as to constrict query’s semantic scope. Consistent and substantial improvements, including on difficult queries, are observed on TREC test collections, and the techniques combines well with blind relevance feedback. Compared to traditional topic modeling, WSD and positional indexing techniques, the proposed retrieval model is more effective and scales well on large-scale collections.  相似文献   

18.
一种面向中文信息检索的汉语自动分词方法   总被引:3,自引:1,他引:3  
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号