首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
提出基于Prefuse的主题知识图谱系统框架,通过对信息检索领域的关键词进行共词分析、层次聚类和TreeML文件转换,实现信息检索主题知识图谱的构建。最终将信息检索研究划分为5个主题:智能化信息处理、搜索引擎相关、用户行为研究、信息系统研究和基于内容的信息检索研究。  相似文献   

2.
基于控制词集的中文信息动态自动聚类研究   总被引:1,自引:0,他引:1  
以专用词典为切分工具,建立以概念为基础的、具有主题分类特点的类目结构是中文信息动态自动聚类的一种适用方式。该文探索了基于控制词集的中文信息动态自动聚类技术,包括专用控制词集的构建,动态有限环境下的自动聚类程序、聚类算法,以及结合控制词集对聚类结果进行优化控制等,最后对实验结果给出了概要评价。  相似文献   

3.
随着互联网上信息数量的不断增长,传统的信息检索技术已经很难满足人们对查询质量的苛刻要求。为了方便用户从检索结果中快速、准确地定位自己想要的信息,集成了文档聚类功能的搜索引擎应运而生。本文讨论了文档聚类技术在搜索引擎中的应用问题,介绍了一些算法,重点分析了Vivisimo这个比较有代表性的聚类搜索引擎,并预测了搜索引擎聚类技术的发展趋势。  相似文献   

4.
近年来国外信息检索的相关性研究进展   总被引:2,自引:0,他引:2  
国外的相关性研究至今已有上百年的历史,出现了两个主要的研究流派,即面向系统的相关性研究和面向用户的相关性研究,相关性是动态的、多维的、可认知的和可测度的等观点,已成为学术界的共识.1997年之后的相关性研究在基础研究和实证研究方面都有很大进展.信息检索的相关性研究已经深入到信息检索的各个领域,如模型、算法、聚类、查询扩展与精化、相关性判断等.随着相关性研究的不断深入发展,信息检索系统将会越来越贴近用户的信息需求.  相似文献   

5.
基于神经网络的概念联想和概念聚类   总被引:8,自引:0,他引:8  
宋玲  马军  刘怀辉 《情报学报》2002,21(2):167-172
本文针对信息检索中自动标引和用户的检索提问问题 ,介绍了一种概念空间技术以及采用Hopfield神经网络进行概念联想与概念聚类的算法 ,并对其中部分算法进行了模拟和实验 ,针对存在的问题提出了改进方法 ,并通过数据说明其可行性  相似文献   

6.
借助特征聚类进行特征抽取是信息检索领域进行文本特征降维的重要手段之一.本文通过χ2统计和特征聚类相结合的模式,在尽量减少信息缺失的前提下两次对特征项维数进行压缩,通过分析特征的类别分布信息,实现了基于统计的特征降维;进而在基于类别概率分布的模式下实现了文本的矩阵表示,借助矩阵范数进行文本分类.实验结果表明,该方法的分类效率较高.  相似文献   

7.
对一种基于动态可调自组织神经网络(the dynamic adaptive self-organizing map neural network,简称DASOM)的增量中文文本聚类方法进行研究,认为其只需处理更新数据,提高聚类速度,并能自动抽取SOM聚类结果;DASOM模型具有动态的结构,通过数值实验表明该方法对中文文本增量聚类具有有效性。  相似文献   

8.
与传统静态聚类系统相比,动态自动聚类系统有以下特点:聚类是动态进行的,它是在检索结果返回的基础上进行的实时操作;每次聚类的文献对象数量有限;用来作为聚类依据的文献数据只是文献的局部;参与聚类的资源在整个资源集合中的分布是随机的。动态自动聚类方法有:直接将专指性短语作为揭示类目相似性识别的依据;更多使用线性聚类策略;使用等级显示、多维聚类的形式;采用优化算法;扩大预处理的应用。表1。图1。参考文献12。  相似文献   

9.
随着互联网规模的急剧扩张,提升信息检索的效用变得相当困难.本文首先通过特定算法提取每篇文档的关键词,然后运用统计方法计量不同文档的共现关键词并形成相应的共现关键词标签矩阵,最后利用层次聚类算法对共现关键词标签进行聚类并形成相应的层次标签树来构造文档聚类束.该方法可以对源搜索引擎返回的结果进行有效的分类,使用户在更高主题层次上查看检索词的相关信息,准确地找到感兴趣的信息.通过与Lingo算法的比较,显示本文算法所得的标签更具可读性和概括性,同时F-measure评价指标也表明本算法在文本聚类的质量上有了一定的提升.  相似文献   

10.
本文主要研究了在有限资源约束下的数据流聚类方法.针对海量,高速的数据流,现有聚类方法在有界内存和有界时间的限制下,难以快速有效地进行聚类,设计了一种基于主成分和密度的动态数据流聚类算法,PDStream算法.它采用滑动窗口管理数据流;首先使用主成分模型作为前置系统,它负责对基本窗口内的源数据进行属性转换,起到了降维的作用;然后使用密度聚类模型作为后置系统进行聚类操作;最后对系统中生成的概要数据进行简化的二次聚类并更新聚类簇.通过实验表明,PDStream算法有效克服了STREAM算法使得聚类受控于历史数据的缺点,显现出处理海量数据的优越性以及聚类质量高的特点.  相似文献   

11.
本文从信息论的角度考虑了聚类问题,将聚类看成是有损信息压缩的过程.首先运用率失真理论建立了模糊聚类的优化模型,与经典的模糊聚类模型相比,模型的目标函数中多了一个描述聚类过程复杂度的指标.同时为了估计聚类数目,还提出了一个新的聚类有效性指标.其次通过求解优化模型得到基于率失真理论的模糊聚类算法.最后将基于率失真理论的模糊聚类算法与经典模糊C均值算法进行了数值实验比较.数值实验结果表明基于率失真理论的模糊聚类算法能够自动确定聚类数目,在运行时间上比模糊C均值算法有一定减少,且最终的模糊划分矩阵与模糊C均值算法相比有较少的模糊性,因而聚类结果更加明确可靠.  相似文献   

12.
基于带语义差别的模糊Taxonomy的交易数据库关联规则聚类   总被引:1,自引:0,他引:1  
关联规则聚类是大量关联规则的一种有效组织方式,本文针对基于商品分类信息的规则聚类方法存在的不足进行了改进,同时考虑了不同层次间的项目语义差别,以及具有不同隶属度的项目细致语义差别,将商品分类树改进为模糊Taxonomy的有向无环图结构,该结构可以处理一个项目同时属于多个父结点的情况.我们充分考虑了有向无环图的性质,提出了带细致语义差别的模糊Taxonomy结构构建方法和相应的规则距离计算方法,其中,规则距离计算过程中的项集距离计算方法无需计算最佳匹配,因此,具有较小的时间开销.规则距离计算和聚类可视化试验结果表明了该方法的可扩展性和有效性,在规则的聚类计算上取得了较为满意的结果.  相似文献   

13.
基于粒子群的模糊C均值文本聚类算法研究   总被引:1,自引:0,他引:1  
利用模糊C均值算法解决文本聚类问题时,随机选取的初始聚类中心和聚类数会导致不同的聚类结果,且容易陷入局部最优。提出利用粒子群优化算法确定模糊C均值的初始聚类中心,并通过向量空间模型和特征提取,再利用模糊C均值进行文档聚类。实验表明,这种基于粒子群的模糊C均值聚类算法迭代次数少,能解决经典模糊C均值算法对初始值敏感和易陷入局部极小的缺点,且聚类速度和效果得到明显提高。  相似文献   

14.
基于文档聚类的Web辅助浏览研究   总被引:2,自引:0,他引:2  
王勋  刘君强 《情报学报》2004,23(2):168-172
目前的搜索引擎在方便人们查询的同时也存在不足 ,由于它们并非面向某个特定用户服务 ,所以并不能反映用户的个性化需求 ,查询得到的信息往往还是有大量的冗余。为此本文提出了一种基于文档聚类的网络辅助浏览技术。首先给出了模糊概念图的模型来描述词语间的关系 ,然后将Web文档转化为矢量文档表示 ,利用基于K Means聚类方法对矢量文档进行聚类 ,通过确认最终抽取出用户兴趣模式 ,从而辅助用户实现个性化搜索  相似文献   

15.
[目的/意义]准确把握社交网络用户兴趣倾向,对用户进行分类并形成高聚合的用户群,对研究社交网络信息生态以及信息推荐有重大意义。[方法/过程]通过构造基于多维度的用户属性描述层次模型,根据模型数据需求从新浪微博抓取用户样本数据,对相关用户背景信息、用户博文信息以及用户行为信息的多维度属性下二阶变量进行量化,构造用户向量表达式,比较单一维度与多维度下的用户分类效果,进一步给属性赋予不同的权重值进行加权分析,在取得最优聚类效果后进行方差分析,对模型进行改进。[结果/结论]基于多维度属性加权后的用户聚类效果明显高于单一维度及多维度非加权条件下的用户聚类,且用户博文内容维度对于提高用户聚类效果的有效性最大。  相似文献   

16.
耿新青  王正欧 《情报学报》2006,25(3):296-300
提出了一种新的模糊竞争神经网络聚类模型NFCNNC,并将其应用到文本聚类中。NFCNNC将模糊中心聚类(FCC)算法得到的模糊聚类中心向量作为神经网络的权值,通过比较隶属度值得到获胜神经元。网络中仅两个神经元同时调节权值。隶属度值最大的神经元以较大的学习率调整权值,隶属度次大的神经元以较小的学习率调整权值,其他神经元权值不变。按照FCC算法调整模糊聚类中心向量值(即权值)和神经元的隶属度,当网络稳定时,即可确定聚类数。与传统模糊神经网络模型相比,本文的模糊神经网络模型具有结构简单、运行效率高、聚类精度高的优点,同时克服了传统算法需预先指定聚类数的局限性。通过对文本聚类的实验验证,本算法取得了良好的效果。  相似文献   

17.
基于样本加权的文本聚类算法研究   总被引:3,自引:0,他引:3  
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法.实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果.该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果.  相似文献   

18.
基于模糊语义距离的多媒体信息检索方法研究   总被引:4,自引:1,他引:3  
张李义 《情报学报》2003,22(2):131-135
与传统的数据库精确查询不同 ,多媒体信息检索的查询条件是不完备的。本文叙述利用模糊语义距离来检索多媒体数据库中信息的原理、算法 ,并将模糊相似测试作为检索结果判断标准 ,最后通过一个示例来说明本方法的使用。  相似文献   

19.
针对传统信息检索模型对不确定性知识处理的不足,提出一种基于粗糙集的信息检索改进模型,并以粗糙集技术为支撑,结合模糊集合理论,对查询进行泛化以提高查询性能,同时给出该模型的关键实现算法及性能评估方法。该模型能够提高信息检索的效率,具有较高的理论及应用价值。  相似文献   

20.
针对传统信息检索模型对不确定性知识处理的不足,提出一种基于粗糙集的信息检索改进模型,并以粗糙集技术为支撑,结合模糊集合理论,对查询进行泛化以提高查询性能,同时给出该模型的关键实现算法及性能评估方法。该模型能够提高信息检索的效率,具有较高的理论及应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号