首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 428 毫秒
1.
基于词索引的中文全文检索关键技术及其发展方向   总被引:2,自引:0,他引:2       下载免费PDF全文
基于词索引的中文全文检索的研究是一个涉及到多个领域的综合性课题。汉语自动分词的精度和速度、词索引数据库的结构、词汇控制技术、检索匹配机制等是影响中文全文检索效果的关键因素。目前基于词索引的中文全文检索技术还在分词技术、网络信息标引的准确率、查全率、查准率以及查询方式上存在局限。未来的中文全文检索将最终在语义、语用、语境层次上实现智能化的信息检索。  相似文献   

2.
国内中文自动分词技术研究综述   总被引:22,自引:0,他引:22  
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点.全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点.  相似文献   

3.
本文阐述全文检索技术的应用领域:企业信息门户、媒体网站、政府网站.数字图书馆、搜索引擎和商业网站,以及中文全文检索技术今后的发展趋势。最后通过一个代表性的中文全文检索系统,介绍中文全文检索技术的最新进展。  相似文献   

4.
汉语分词技术综述   总被引:2,自引:1,他引:1  
首先介绍了汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述了汉语自动分词技术在中文全文检索中的应用,并对目前汉语自动分词技术存在的局限性进行了分析,提出了发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行了预测。  相似文献   

5.
使用基于《中图法》知识库的中文信息自动标引和自动分类系统,对中文图书进行自动标引与自动分类的实验,以测试该系统对图书的适用性。实验通过对中文图书进行计算机自动标引与自动分类、人工打分测评、测试结果统计分析,得出中文图书的各标引源主题表达能力依次为:书名、内容提要、两级目次、参考文献、一级目次,在此基础上对标引源进行加权设计,权值设为5:3:2:2。实验证明该系统用于中文图书的自动标引与自动分类是可行的。表6。参考文献9。  相似文献   

6.
中文期刊论文自动标引加权设计研究   总被引:7,自引:0,他引:7  
本次调查,通过对随机采集的1000篇涉及到图书情报、农业经济、环境、工业企业管理这四个学科的中文期刊论文进行人工自由标引、人工打分测评和词频统计,并进行统计数据的分析,旨在得出中文期刊论文内容主题与文章题名、文摘、关键词、首段、第二段、倒数第二段、尾段、以及参考文献等8个标引信息源之间的关系,分析测评期刊论文不同部位的主题表达能力,并为之设计自动标引时加权抽词标引的适当权值。以便为中文期刊论文自动标引提供参考数据。  相似文献   

7.
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论.  相似文献   

8.
中文网页标引源主题表达能力的调查统计   总被引:22,自引:1,他引:21  
通过对随机采集的300篇中文经济类网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值,以便为自动标引及人工智能搜索引擎的研制提供数据。  相似文献   

9.
中文文本关键词自动抽取方法研究   总被引:6,自引:1,他引:5  
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求.  相似文献   

10.
本文对现阶段中文搜索引擎的两种主要搜索方式:目录式搜索(即分类搜索)与关键词搜索分别进行了介绍和分析,以网易搜索引擎为例阐述了网站信息标引的三种方式,并分析了网易搜索引擎特色及问题,国内搜索引擎发展前景的问题。 现阶段网络搜索引擎有两种主要搜索方式:目录式搜索(即分类搜索)与关键词搜索 目前因特网上的搜索引擎很明显地可分为两大类,一类是自由词或关键词检索搜索引擎(国外称之为索引搜索引擎Indexing),另一类是分类搜索引擎,即通过分类浏览来查询信息,(国外称之为目录服务Director Service)。 当然这两类搜索引擎的功能是互相借鉴和渗透的。目前的搜索引擎,尤其是中文搜索引擎有互相融合的趋势,关键词搜索引擎与分类搜索引擎通常是我中有你,你中有我,国内的关键词搜索引擎大多又建有一个分类库。一般来讲,我们将由网上机器人(Spider或Robot)自动收集网页建库,而检索又以全文检索为主的搜索引擎归入关键词搜索引擎,而将主要由人工维护建库,以分类导航或分类摘要查询为主的搜索引擎归入分类搜索引擎。以下将按关键词搜索引擎与目录式(分类)搜索引擎两大类型来分别进行一些分析。  相似文献   

11.
汉语分词对中文搜索引擎检索性能的影响   总被引:3,自引:0,他引:3  
金澎  刘毅  王树梅 《情报学报》2006,25(1):21-24
针对中文网页的特点,研究了汉语分词对中文搜索引擎检索性能的影响。首先介绍中文分词在搜索引擎中的作用,然后介绍常用的分词算法。作者利用网页特征,提出一个简单的“带启发性规则的双向匹配分词策略”。最后,在10G的语料库中,就各种分词算法对查全率和查准率的影响进行了实验比较,结果表明分词性能和检索性能没有正比关系。  相似文献   

12.
文章通过对常用中文搜索引擎中奥运运动相关术语的检索与结果比较,分析目前常用中文搜索引擎专业运动术语信息查询能力.为深层次的专业信息查询提供借鉴,并促进中文搜索引擎文献信息专业服务的发展.  相似文献   

13.
针对中文自动标引过程中经常会产生诸多歧义词,导致检出的信息不切题或漏检这一问题,在论述自动标引中歧义词消除方法的相关研究基础上,提出一种将穷举法和消歧规则相结合的歧义词消除方法。测试结果表明,这是一种行之有效的消除歧义词的方法。  相似文献   

14.
张亮  黄河燕  王树梅 《情报学报》2006,25(4):433-440
搜索引擎是Internet上重要的信息检索工具。同时Internet上丰富的语言资源是汉语研究的重要内容。然而,服务于汉语分析的专业搜索引擎的研究与开发,目前还处于起步阶段。本文介绍了搜索引擎的基本原理,分析了Internet汉语研究的内在要求及其基本现状,详细阐述了一个面向汉语分析研究的搜索引擎的研究与设计,包括系统体系结构的设计、系统的汉语分析功能的描述以及实验结果的分析。初步结果表明,面向汉语分析的搜索引擎可以为汉语研究提供很好的帮助。  相似文献   

15.
单汉字标引方法的改进研究   总被引:2,自引:1,他引:1  
本文根据信息论中的交互信息,给出了相邻汉字相关度的测量方法,在此基础上提出了基于字串预分割的单汉字标引检索方法,对当前具有代表性的单汉字标引方法进行了改进研究。试验证明本文提出的方法具有较好的性能  相似文献   

16.
一种面向中文信息检索的汉语自动分词方法   总被引:3,自引:1,他引:3  
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。  相似文献   

17.
《中国分类主题词表》的结构及功能评介张强Abstract:The"ChineseClassifiedsubjectThesaurus"withitsintegrationofclassificationandsubjectindexingisChin...  相似文献   

18.
研究构建了具有位置信息控制的特义禁用词语义环境,进而运用于中文文献元数据CXMARC文本的自动标引和主题信息的数据挖掘,其中研究设计的预处理特义中文禁用字词切分算法SWF,能有效地减少领域的分词歧义性和缩短标引时间,从而改进了传统最大匹配MM算法的自动标引质量和效率。  相似文献   

19.
The amount of health information available on the Internet is considerable. In this context, several health gateways have been developed. Among them, CISMeF (Catalogue and Index of Health Resources in French) was designed to catalogue and index health resources in French. The goal of this article is to describe the various enhancements to the MeSH thesaurus developed by the CISMeF team to adapt this terminology to the broader field of health Internet resources instead of scientific articles for the medline bibliographic database. CISMeF uses two standard tools for organizing information: the MeSH thesaurus and several metadata element sets, in particular the Dublin Core metadata format. The heterogeneity of Internet health resources led the CISMeF team to enhance the MeSH thesaurus with the introduction of two new concepts, respectively, resource types and metaterms. CISMeF resource types are a generalization of the publication types of medline. A resource type describes the nature of the resource and MeSH keyword/qualifier pairs describe the subject of the resource. A metaterm is generally a medical specialty or a biological science, which has semantic links with one or more MeSH keywords, qualifiers and resource types. The CISMeF terminology is exploited for several tasks: resource indexing performed manually, resource categorization performed automatically, visualization and navigation through the concept hierarchies and information retrieval using the Doc'CISMeF search engine. The CISMeF health gateway uses several MeSH thesaurus enhancements to optimize information retrieval, hierarchy navigation and automatic indexing.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号