首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
查询优化与动态自动聚类系统   总被引:4,自引:0,他引:4  
查询优化在大型检索系统中是十分必要的。查询优化包括静态形式、结合词集的形式和动态自动聚类形式。文章概要分析了AlltheWeb、Teoma、Vivisimo、GuideBeam等动态自动聚类的特点和机制,并提出了建立动态自动聚类系统的一些建议。  相似文献   

2.
与传统静态聚类系统相比,动态自动聚类系统有以下特点:聚类是动态进行的,它是在检索结果返回的基础上进行的实时操作;每次聚类的文献对象数量有限;用来作为聚类依据的文献数据只是文献的局部;参与聚类的资源在整个资源集合中的分布是随机的。动态自动聚类方法有:直接将专指性短语作为揭示类目相似性识别的依据;更多使用线性聚类策略;使用等级显示、多维聚类的形式;采用优化算法;扩大预处理的应用。表1。图1。参考文献12。  相似文献   

3.
查贵庭  侯汉清 《情报学报》2002,21(3):273-277
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。  相似文献   

4.
中文文献自动分类中的知识库构造及其仿人算法   总被引:4,自引:2,他引:2  
刁倩  张惠惠  王永成  何骥 《情报学报》2000,19(3):248-253
本文阐述了自动分类中的仿人思想 ,并用分类域模型来描述中文信息自动分类中的分类法 ,通过计算类别特征项在分类域中的Hamming距离 ,对类别特征项依据其在分类域中的类别分布进行聚类 ,从而实现对向量分类法中的特征向量维数的压缩 ,并进一步构造用于中文自动分类的知识库。  相似文献   

5.
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。  相似文献   

6.
聚类搜索引擎探究   总被引:1,自引:0,他引:1  
一批代表性的聚类搜索引擎的出现,使得聚类搜索引擎的优劣逐步为公众所知.采用聚类算法、重视结果的显示方式、关注用户提问信息、提供个性化服务均是聚类搜索引擎最显著的优点,应该引起足够的重视.针对过分依托原生搜索引擎、没有形成专用聚类算法、搜索速度相对较慢、聚类层次有限等现状,作者最后还对聚类搜索引擎的发展提出了一些建议,比如实现人工聚类与自动聚类结合、增加学术趋势分析功能、加强相关度研究等.  相似文献   

7.
数字信息资源的自动分类和主题识别--OCLC"蝎子计划"研究   总被引:2,自引:0,他引:2  
“蝎子计划(Scorpion Project)”是美国 OCLC 利用《杜威十进分类法》电子编辑支持系统(ESS)对数字信息资源进行自动分类和主题识别的一个研究项目。本文简要介绍了该项目的进展情况、实施原理,描述了 Scorpion 对数字信息资源进行自动分类和主题识别的具体流程,并将其与我们自行研发的基于《中图法》知识库的中文信息自动标引和自动分类系统进行对比分析,以探讨 Scorpion 对中文信息自动分类和主题识别的借鉴意义。  相似文献   

8.
基于神经网络的中文信息概念联想构造算法   总被引:6,自引:0,他引:6  
刁倩  王永成  张惠惠 《情报学报》2000,19(2):170-175
本文提出了用Kohonen自组织映射神经网络进行中文信息的概念联想。概念联想有利于中文信息的查询与自动分类 ,并可将其用于当前Internet上的搜索引擎。同时提供了相关实验与测试结果。  相似文献   

9.
使用基于《中图法》知识库的中文信息自动标引和自动分类系统,对中文图书进行自动标引与自动分类的实验,以测试该系统对图书的适用性。实验通过对中文图书进行计算机自动标引与自动分类、人工打分测评、测试结果统计分析,得出中文图书的各标引源主题表达能力依次为:书名、内容提要、两级目次、参考文献、一级目次,在此基础上对标引源进行加权设计,权值设为5:3:2:2。实验证明该系统用于中文图书的自动标引与自动分类是可行的。表6。参考文献9。  相似文献   

10.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

11.
调查了Taxonomy Warehouse中医学受控词表的数量、规模、编制单位、学科分布、语种、应用等情况,介绍了UMLS、MeSH及ICD等主流医学词表的发展概况,认为语义网环境下,国外医学受控词表呈现出本体转化、智能更新与应用、用户协同编制、动态集成与分解、发布为关联数据等趋势。  相似文献   

12.
曾新红 《图书情报工作》2013,57(17):114-120
针对中文叙词表等高受控词表的描述需求以及向细粒度本体的演化趋势,在已有中文叙词表本体研究成果的基础上,基于OWL DL和OWL2研究制定高受控词表的OntoThesaurus描述规范,确定独立的命名域及其缩写以及一整套严格的形式化定义。根据语义Web的应用环境,编写OntoThesaurus的RDF Schema,以RDF/XML语法的方式向机器用户提供其中的类和属性的使用。说明OntoThesaurus不同于SKOS和CNKOS的特殊定义,给出描述示例以及三者之间的词汇对应关系。最后简单介绍OntoThesaurus支持系统的功能。  相似文献   

13.
在现有国内外医学检索语言研究的基础上,构建了一个跨语种一体化医学检索语言系统.通过中、英文医学词汇、中图法等级结构和MeSH树状结构及其相互之间的对应转换,该系统为医学信息检索提供更深层的医学知识导航及其跨语言检索接口.  相似文献   

14.
对一种基于动态可调自组织神经网络(the dynamic adaptive self-organizing map neural network,简称DASOM)的增量中文文本聚类方法进行研究,认为其只需处理更新数据,提高聚类速度,并能自动抽取SOM聚类结果;DASOM模型具有动态的结构,通过数值实验表明该方法对中文文本增量聚类具有有效性。  相似文献   

15.
Folksonomy与受控词汇在OPAC的应用研究   总被引:1,自引:0,他引:1  
主题表、叙词表等传统受控词汇形式的信息组织工具在Web2.0环境下凸显出缺陷,影响联机公共目录查询系统的检索质量。论文对分众分类法和受控词汇的优缺点进行分析,认为两者可以很好地互补,并且提出了一个应用在联机公共目录查询系统的可行性模式。  相似文献   

16.
以中国期刊全文数据库(CNKI)、美国科学情报研究所(ISI)开发的WebofScience以及科学文摘(INSPEC)为信息源,对近30年国内外数字图书馆研究文献在时间分布、著者、主题、期刊分布及引证文献五个方面进行统计、聚类、对比分析并作比较研究,找出国内外在资金、技术、人才等方面的差距,深入分析国内研究上存在的问题并提出相应的建议,以期为推动和促进我国数字图书馆健康发展提供数据支撑和理论支持。  相似文献   

17.
This paper provides an overview of the research into current medical vocabularies and their impact on searching the Web for health information. The Web provides growing opportunities for laypersons to gain knowledge about specific health conditions, though research to date has been incomplete. Many studies have examined aspects of controlled medical vocabularies. Other studies have examined aspects of medical Web searching vocabularies. In this context, there is a growing need to examine more closely laypersons' Web queries using controlled medical vocabularies that were designed to serve the needs of medical professionals. It may be the case that the average consumer of Web health services is not able to use correct medical terminology, and may not be able to choose analogous or synonymous terms from a search result list. Our review suggests a growing need for studies to examine the current applicability of controlled medical vocabularies as well as alternatives to semantic query by Web search engine users.  相似文献   

18.
Scientific repositories create a new environment for studying traditional information science issues. The interaction between indexing terms provided by users and controlled vocabularies continues to be an area of debate and study. This article reports and analyzes findings from a study that mapped the relationships between free text keywords and controlled vocabulary terms used in the sciences. Based on this study's findings recommendations are made about which vocabularies may be better to use in scientific data repositories.  相似文献   

19.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号