首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
聚类检索述评   总被引:3,自引:0,他引:3  
介绍聚类和聚类检索的概念以及聚类检索在数据库与Web上的应用现状,对聚类检索目前存在的问题,如聚类效果不突出、用户无法 参与聚类过程等进行分析,认为将聚类检索作为数据库或搜索引擎的一种检索功能,是对信息的一种增值性开发利用,会更加完善检索系统;提 出聚类检索应基于个性化用户模式来发展,要将聚类结果可视化,设置允许用户参与操作的检索界面等建议,以期将聚类功能向个性化、智能 化方向推进,更好地满足用户检索需求  相似文献   

2.
基于凝聚式层次聚类算法的标签聚类研究*   总被引:8,自引:1,他引:8  
对标签、标注、大众分类等概念进行界定,指出现有标签标注系统中存在着标签描述信息的精确度不高、标签检索结果相关度低、标签缺乏有效组织等问题,提出采用凝聚式聚类算法对标签聚类,从而实现对标签的重新组织,为用户提供更好的标签导航、浏览机制。最后通过实验对标签聚类方法进行验证。  相似文献   

3.
一种基于SOM的中文Web文档层次聚类方法   总被引:10,自引:0,他引:10  
陈福集  杨善林 《情报学报》2002,21(2):173-176
近年来Internet迅猛发展 ,网上的信息急剧膨胀 ,如何高效、高质量地检索到用户所感兴趣的中文信息资源 ,是当前我国Internet资源发现的热点问题之一。本文将神经网络聚类方法之一SOM(Self OrganizingMap ,自组织特征映射 )的思想和方法引入中文Web搜索引擎 ,首先探讨了其网络模型和算法 ,而后提出一种聚类用户所感兴趣的中文Web文档的层次聚类方法 ,从而提高中文Web文档的检索质量  相似文献   

4.
随着Internet和电子商务的迅猛发展,聚类技术在Web用户划分方面的作用越来越明显.Web用户聚类的难度在于有成千上万的用户需要聚类,而且每个用户的偏好向量是高维稀疏的.对于处理大规模的数据集,近邻传播算法是一种快速、有效的聚类方法.但面对高维稀疏的数据,近邻传播算法往往不能得到很好的聚类结果,而且该方法不能产生指定类数的聚类.本文提出一种改进的近邻传播算法,使用该方法对Web用户进行聚类.根据灰关系等级和Jaccard系数定义用户相似度矩阵,对算法产生的初始聚类进行重新分配,获得指定类数的聚类.实验结果表明新算法是有效的,与原始近邻传播算法相比,新算法在个性化推荐的应用中具有更好的性能.  相似文献   

5.
面向网络问答社区海量问题内容组织的现实需求,针对用户提问的文本特点对其进行多层次主题聚类与图谱构建。通过充分融合Glove和Word2vec算法的优势,对用户提问进行文本特征表示。在此基础上利用不同聚类算法对用户提问进行多层次聚类,并利用TextRank生成聚类标签,然后基于主题间层次结构,利用图模型将不同提问文本的关联关系呈现出来,从而构建网络问答社区用户提问主题聚类图谱,以此提升网络问答社区平台知识资源的组织与利用效率,为知识查询和推荐提供索引。  相似文献   

6.
随着互联网规模的急剧扩张,提升信息检索的效用变得相当困难.本文首先通过特定算法提取每篇文档的关键词,然后运用统计方法计量不同文档的共现关键词并形成相应的共现关键词标签矩阵,最后利用层次聚类算法对共现关键词标签进行聚类并形成相应的层次标签树来构造文档聚类束.该方法可以对源搜索引擎返回的结果进行有效的分类,使用户在更高主题层次上查看检索词的相关信息,准确地找到感兴趣的信息.通过与Lingo算法的比较,显示本文算法所得的标签更具可读性和概括性,同时F-measure评价指标也表明本算法在文本聚类的质量上有了一定的提升.  相似文献   

7.
个性化跨语言学术搜索技术研究   总被引:1,自引:0,他引:1  
学术搜索引擎是一种行业化的搜索引擎,但因其缺乏个性化的服务,使得用户的学术文献检索效率低下,海量的数字学术资源得不到充分利用.本文使用Google翻译,研究基于机器翻译的中、英、俄、法和西班牙等五个语种跨语言学术检索.在跨语言学术搜索的基础上研究个性化检索技术,提出一种基于聚类的个性化信息检索方法:通过观察用户对搜索结果聚类的点击行为,生成并更新用户实时兴趣模型,采用余弦夹角公式计算用户实时兴趣模型与搜索返回结果的相似度,根据相似度大小,为用户提供个性化重排序的搜索返回结果.实验结果证明了提出方法的有效性.  相似文献   

8.
关于OPAC数据的研究多基于一所或几所高校的少量数据,从单个用户角度展开,忽视了用户群体的阅读偏好。文章采集我国103所高校图书馆"热门图书"数据,从用户群体阅读偏好角度进行聚类分析:提取部分"热门图书"作为反映高校用户群体阅读偏好的特征,为每所高校生成用户群体阅读偏好向量,对这些高校进行AP (Affinity Propagation)聚类。对聚类结果进行分析发现:部分类簇高校的图书类别分布、图书题名高频词、高频学科主题词存在明显差异。  相似文献   

9.
探讨如何在数字图书馆的文献检索平台中集成实现检索结果聚类、相关文献的关联推荐、相关作者和研究机构的关联推荐以及相关词语的关联推荐,由此帮助用户全面提高查准率和查全率,并且对聚类和推荐结果采用图形进行可视化展示,进一步提高用户的使用满意度。  相似文献   

10.
针对当前OPAC缺少检索提示而造成绩效不佳的现状,进行检索提示的需求、思路、设计及实现方法的研究。利用Ajax、JavaScript、Css和数据库相关技术对主题词进行采集、存储、查询及显示,通过分析书目主题词的数据特征及主题词表的数据结构、设计主题词数据采集与存储方案来构建主题词表,在此基础上实现主题词热门推荐、输入联想、拼写检查、查询扩展、英文释义与内文链接、主题检索的结果聚类与图书推荐等书目检索提示并评估应用效果,从而对用户的检索行为给出实时的、丰富的、科学的检索提示。  相似文献   

11.
认为目前NSTL文献检索系统采用的是传统的基于关键词匹配的检索方法,影响检索结果的查准率和查全率。为提高检索服务的质量,利用文献中的语义信息资源,构建语义资源库,并介绍语义资源的提取方法、语义资源库的结构与构建方法,及其应用于NSTL系统中并实现检索结果聚类和推荐的功能,以方便用户对检索结果的浏览和理解。  相似文献   

12.
Serials SolutionS近日宣布在其中央检索(Central Search)的联合检索服务当中推出一项新的检索结果聚类功能。研究人员现在所期望的是快速鉴别出检索结果中与自己研究领域相关的资源,聚类技术正是能够揭示引用之间的新的有价值的联系.帮助用户发掘那些有可能错过的课题。  相似文献   

13.
与传统静态聚类系统相比,动态自动聚类系统有以下特点:聚类是动态进行的,它是在检索结果返回的基础上进行的实时操作;每次聚类的文献对象数量有限;用来作为聚类依据的文献数据只是文献的局部;参与聚类的资源在整个资源集合中的分布是随机的。动态自动聚类方法有:直接将专指性短语作为揭示类目相似性识别的依据;更多使用线性聚类策略;使用等级显示、多维聚类的形式;采用优化算法;扩大预处理的应用。表1。图1。参考文献12。  相似文献   

14.
基于概念格的Web学术信息搜索结果的二次组织*   总被引:1,自引:0,他引:1  
使用概念格技术对Web学术信息搜索结果进行再处理,通过提取结果文献集的特征词,以检出的文献为对象,以经过分类后能高度概括文献集内容的特征词集作为属性集,建立“搜索结果”概念格,以此实现检索结果的聚类表达,帮助用户进一步获得检索目标。  相似文献   

15.
[目的/意义]准确把握社交网络用户兴趣倾向,对用户进行分类并形成高聚合的用户群,对研究社交网络信息生态以及信息推荐有重大意义。[方法/过程]通过构造基于多维度的用户属性描述层次模型,根据模型数据需求从新浪微博抓取用户样本数据,对相关用户背景信息、用户博文信息以及用户行为信息的多维度属性下二阶变量进行量化,构造用户向量表达式,比较单一维度与多维度下的用户分类效果,进一步给属性赋予不同的权重值进行加权分析,在取得最优聚类效果后进行方差分析,对模型进行改进。[结果/结论]基于多维度属性加权后的用户聚类效果明显高于单一维度及多维度非加权条件下的用户聚类,且用户博文内容维度对于提高用户聚类效果的有效性最大。  相似文献   

16.
[目的/意义]机构名称的数目多且较为繁杂,机构名称归一化可将同一机构的规范名称以及不同时段、不同表达形式的非规范名称汇集在一起,提高查询检索的查全率和查准率;有利于建立与其他系统之间的互操作,实现资源的共享。[方法/过程]在分析机构名称字符串的特点和基于K-means算法的基础上,利用编辑距离算法实现一级机构名称的初步聚类,然后利用初步聚类结果并基于TF-IDF算法计算机构名称各词项的权值,从而基于K-means算法将机构名称围绕聚类中心抱团聚簇,并对每一个簇的机构名称赋予唯一标识符。[结果/结论]该方法可实现同一机构实体不同形式的规范名称的归一,提高机构名称聚类的准确率,但对K取值、距离测度方法的选取仍有待优化。  相似文献   

17.
随着互联网上信息数量的不断增长,传统的信息检索技术已经很难满足人们对查询质量的苛刻要求。为了方便用户从检索结果中快速、准确地定位自己想要的信息,集成了文档聚类功能的搜索引擎应运而生。本文讨论了文档聚类技术在搜索引擎中的应用问题,介绍了一些算法,重点分析了Vivisimo这个比较有代表性的聚类搜索引擎,并预测了搜索引擎聚类技术的发展趋势。  相似文献   

18.
提出利用蚁群聚类方法进行初始聚类,通过K-means聚类算法对初始聚类的结果进一步分层聚类,并结合术语综合相似度计算的方式提取每个类的标签,从而完成术语层次关系的构建。最后抽取部分实验结果,由领域专家对其进行评价,并对结果进行分析。  相似文献   

19.
[目的/意义]旨在提高在线健康社区信息服务水平,满足患者用户不同场景下的深层次信息需求。[研究设计/方法]融入信息推荐服务的场景要素,通过分析在线健康社区用户信息需求,确定场景划分标准继而划分推荐场景,从而识别不同场景要素标签,构建用户画像概念模型,并采用RFM模型对采集到的在线健康社区用户数据进行精细化筛选运营,借助形式概念分析的方法实现在线健康社区用户画像模型构建,并以“甜蜜家园”为数据源实现糖尿病在线健康社区用户画像构建和标签聚类。[结论/发现]通过深度挖掘聚类,发现在线健康社区“观望型”“宣传型”“高产型”和“经验型”四类用户群体及其健康信息需求。[创新/价值]以信息推荐服务模式为导向,聚焦于用户画像构建的整体流程,此研究视角有助于在线健康社区优化服务水平,提升用户满意度。  相似文献   

20.
基于领域本体的数字图书馆检索结果动态组织方法研究   总被引:1,自引:1,他引:0  
在对现有数字图书馆检索结果的组织方法进行分析的基础上,从忠实于用户提问的角度,提出基于领域本体的检索结果动态组织方法。基本解决思路是将文献的标识与用户的提问进行有效地对接,即以用户提问为基础构造提问模型,并基于检索结果构造标识模型,将提问模型与标识模型在语义层面通过领域本体进行映射,从而实现文献标识与用户提问在语义层面的互通,最终以用户提问的语义方式来展现检索结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号