首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
基于Porter算法的英文标签聚类方法研究   总被引:1,自引:0,他引:1  
针对大众标注中用户添加标签具有随意性且不受系统控制的问题,引入著名的Porter算法对英文标签进行词根提取,在此基础上提出可以根据用户需要进行精度选择的英文标签聚类算法,并利用标签云进行模拟实验.实验表明,采用此聚类算法有利于根据用户的需要组织标签并更准确地描述资源.  相似文献   

2.
社会化标签系统中基于密度聚类的Web 用户兴趣建模方法   总被引:1,自引:0,他引:1  
Web用户兴趣模型在个性化信息服务中有着非常重要的作用。本文利用社会化标签的独特优势,针对传统社会化标签聚类方法的局限性,提出了一种基于密度聚类的Web用户兴趣建模方法。首先建立基于社会化标签的向量空间模型,并将社会化标签表示为Web资源及其权重的形式,以此为基础利用DBSCAN算法对其进行聚类,进而依据所有Web用户的标注行为以每个聚类为中介计算特定Web用户对Web资源的兴趣度来构建Web用户兴趣模型。实验结果表明了该方法的优越性。  相似文献   

3.
提出一种基于N元语法的英文学术文献聚类标签抽取算法,该算法利用N元语法在大规模语料库上进行先期学习生成领域短语词表,再通过K-means算法进行聚类,从聚簇中抽取N元语法项计算TFIDF值,对出现在词表中的特征项赋以更高的权值,以得分最高的特征项作为聚类标签。实验结果表明,该算法能获得更好的实验效果。同时,在抽取聚类标签时提出一种改进的TFIDF权重计算,在评价标签质量时提出一种新的标签评价方法R@N方法。  相似文献   

4.
在分析标签共现的基础上, 提出一种基于共现的标签谱聚类方法, 该方法直接利用标签的共现关系来测度标签的相关性, 能够避免将标签表示成向量空间模型时所带来的高维稀疏等问题.在衡量标签的共现相似性时, 设计一种综合的方法, 并给出标签综合共现相似度的计算公式.与传统的单一利用标签的个体共现来衡量其相似性相比, 综合的方法同时考虑标签的个体共现相似性和标签的群体共现相似性, 能够更加精确地刻画标签的共现相似度.实验结果表明, 基于综合共现相似度的标签共现谱聚类方法具有较好的效果.  相似文献   

5.
基于社会化标注的个性化推荐研究进展   总被引:6,自引:2,他引:4  
社会化标注是当前互联网研究中的一个热点.本文在对社会化标注的内涵和结构加以简单介绍的基础上,重点探讨了基于社会化标注进行推荐的相关进展.首先是明确了标签对于用户模型的意义,接着,从用户、资源和标签三个角度对基于社会化标注的聚类算法进行了讨论.同时也对基于社会化标注的排序算法进行了分析,并进一步将其分为依附补充、独立排序和通用排序三类算法.然后,对标签推荐方面的研究进行了探讨,主要是围绕内容分析、协同分析、语义分析三个方面展开的.最后,分析了社会化标注中个性化信息推荐的研究,发现借助矩阵、聚类和网络的分析是三种主要思路.  相似文献   

6.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法.  相似文献   

7.
聚类搜索引擎探究   总被引:1,自引:0,他引:1  
一批代表性的聚类搜索引擎的出现,使得聚类搜索引擎的优劣逐步为公众所知.采用聚类算法、重视结果的显示方式、关注用户提问信息、提供个性化服务均是聚类搜索引擎最显著的优点,应该引起足够的重视.针对过分依托原生搜索引擎、没有形成专用聚类算法、搜索速度相对较慢、聚类层次有限等现状,作者最后还对聚类搜索引擎的发展提出了一些建议,比如实现人工聚类与自动聚类结合、增加学术趋势分析功能、加强相关度研究等.  相似文献   

8.
提出利用蚁群聚类方法进行初始聚类,通过K-means聚类算法对初始聚类的结果进一步分层聚类,并结合术语综合相似度计算的方式提取每个类的标签,从而完成术语层次关系的构建。最后抽取部分实验结果,由领域专家对其进行评价,并对结果进行分析。  相似文献   

9.
[目的/意义]探索领域知识发展过程中的聚类演化问题有助于揭示知识聚类的特征和规律,对于掌握知识生长演进过程中关联知识的聚集具有重要意义。[方法/过程]以复杂网络的思想为基础,基于标签邻接关系的发生值构建时间序列领域知识网络。即依据网络模体的理论,采用网络聚类系数的分析方法,对领域知识网络进行动态跟踪与分析;结合网络密度、特征路径长度、节点度值、封闭三元组等指标,从随机因素、度相关性、邻近关联3个方面对领域知识发展过程中的聚类演化现象进行分析。[结果/结论]研究结果表明:①领域知识在发展进程中始终保持较高的聚类性;②领域知识的聚类性同时包含随机性与结构性(非随机性)两方面因素; ③领域知识聚类的动态状态在小世界网络和无标度网络之间摇摆演化; ④领域知识的聚类状态在网络全局和局部节点之间表现出一定的差异性。  相似文献   

10.
面向网络问答社区海量问题内容组织的现实需求,针对用户提问的文本特点对其进行多层次主题聚类与图谱构建。通过充分融合Glove和Word2vec算法的优势,对用户提问进行文本特征表示。在此基础上利用不同聚类算法对用户提问进行多层次聚类,并利用TextRank生成聚类标签,然后基于主题间层次结构,利用图模型将不同提问文本的关联关系呈现出来,从而构建网络问答社区用户提问主题聚类图谱,以此提升网络问答社区平台知识资源的组织与利用效率,为知识查询和推荐提供索引。  相似文献   

11.
社会标注系统中标签推荐方法研究进展   总被引:2,自引:0,他引:2  
主要对社会标注系统中的标签推荐方法的研究进行概述,首先对社会标注系统标签推荐的特点进行分析,而后从推荐方法的类型入手对领域的研究文献进行研究。最后,总结本文工作,展望社会标注系统中标签推荐方法的研究发展趋势。  相似文献   

12.
[目的/意义] 为提高标签质量,优化社会标注系统的信息服务提供依据,从用户在社会标注系统中与其他用户交互的视角,探讨不同交互特征用户的标注行为差异。[方法/过程] 以豆瓣读书作为社会标注系统研究样本,从标签数量、标签结构、标签语义、标注动机和活跃度五个角度研究豆瓣用户标注行为的分布特征;使用用户的关注人数、被关注人数和使用年限表征其在社会标注系统中与其他用户的关联和交互程度,通过差异性分析探讨不同交互特征用户标注行为的差异,并通过多元回归分析研究交互特征对这种差异影响的程度。[结果/结论] 实证研究表明,不同交互特征的用户间的社会标注行为存在显著差异:与其他用户交互比较强的用户标签数据集包含更多的标签,关注其他用户越多的用户和被越多用户关注的用户所使用的标签数量越多;使用豆瓣读书年限越长的用户,其平均标签长度和标签重用率越大,而其与其他用户的关注关系对其标签平均长度和标签重用率的影响不大;用户的特殊语种标签比受用户的使用年限影响很大,但一个用户被多少人关注不会显著的影响其特殊语种标签比;关注其他用户越多的用户在标注系统中越活跃。由此可见,社会标注系统可以采取措施加强系统中用户间的交互,通过用户间的相互作用规范用户的社会标注行为,从而提高标签质量。  相似文献   

13.
随着Web2.0技术的发展,社会标注作为网络资源组织的重要方式,已经广泛应用于各种类型的网站。通过深入研究社会标注在卫生社交网络中的应用和存在的不足,提出了建立社会化登陆模式、构建标签库、建立标签自动分类系统、实现个性化推荐机制、进行标签语义分析、设置用户权限等促进卫生社交网络朝着更好方向发展的建议。  相似文献   

14.
社会性标签应用广泛,但理论比较落后。文章提出几个社会性标签理论,以理论为基础,概括出社会性标签的特性。社会性标签的优势突出,但由于自由性而存在的缺陷也相当明显。应该对社会性标签进行适当的控制,提出四种控制方法。其中,有对标签创建的过程中控制,也就是借助并结合传统分类法对社会性标签适当控制,分别是等级分类法对社会性标签控制和分面分类法对社会性标签控制;也有对标签形成后浏览进行控制,即标签云对标签呈现的控制;还有依靠用户社群力量,由用户共同改善他们创建的标签集合,即用户参与的社群力量控制社会性标签。  相似文献   

15.
[目的/意义] 在社会化标注系统中,标签质量往往关乎用户对网络资源的分类、查询、浏览、获取等使用体验,确定影响标签质量的关键因素有助于进一步优化社会化标注系统的资源组织核心功能。[方法/过程] 以社会化标注系统的标签为研究对象,从标注主体、标注客体、标注环境、标注动机、标注方式、标注产物等维度入手重构标签质量影响因素模型,尝试探究影响社会化标签质量的关键因素,并运用问卷调查方法收集数据,结合有监督学习的随机森林算法,建立标签质量影响因素的决策树模型。[结果/结论] 结果显示,标注主体是影响标签质量的首要关键维度,主体的知识结构和认知水平、标注频度及其感知有用性对标签质量的影响突出;标注方式是影响标签质量的次要关键维度,标签推荐和规范标签提示是影响标签质量的重要因素。  相似文献   

16.
认为社会化标签多采取自由标引方式,部分标签并不能有效地揭示资源的内容或主题,于是产生许多低质量的标签,这些低质量标签干扰社会标注系统中资源组织的秩序,降低标签在应用场合中的质量和用户满意度。进行基于标签类型的社会化标签质量测评研究,开发标签质量测评网站,邀请志愿者在该网站上对博文标签、图书标签、图片标签、视频标签、音乐标签类型进行划分,得到标签类型分类用的训练数据集和测试集;同时,对标签质量进行打分,在此基础上进一步得到标签质量评估的训练数据集与测试数据集,为以后基于标签类型的标签质量评估提供数据支持。  相似文献   

17.
在对现有的社会化标签序化方法特点与局限性进行分析的基础上,借鉴社会网络分析(SNA)思想,提出四种基于SNA的社会化标签网络分析方法:点、线、密度分析,中心性分析,凝聚子群分析,以及结构等价分析.同时,利用SNA软件实现基于社会化标签网络的个性化信息服务模型的具体应用,进而为个性化信息服务实践的推进提供一种新的思路.未来需要通过进一步实证分析来检验、完善社会化标签网络的理论研究与实践应用.  相似文献   

18.
[目的/意义] 利用社会化标签对电影资源进行标注已成为新网络环境下电影资源组织的新方式,构建电影资源本体对规范电影标签语义、提高电影资源检索效率具有重要现实意义。[方法/过程] 针对目前电影资源本体构建方法及构建过程存在的问题,提出利用社会化标签构建电影资源本体的思路,在深入剖析电影标签与电影资源本体映射关系的基础上,揭示一种基于社会化标签的电影资源本体构建方法,并给出利用该法构建电影资源本体的详细流程。[结果/结论] 利用豆瓣电影中的标签数据集构建一个电影资源本体,并分析基于社会化标签电影资源本体构建方法的科学性和优越性。  相似文献   

19.
基于社会化标签网络的细粒度用户兴趣建模   总被引:1,自引:0,他引:1  
针对目前由社会化标签抽取用户兴趣模型过程中存在的问题,在借鉴社会网络分析的基础上,提出构建网站层次和用户层次的社会化标签网络对用户产生的社会化标签进行序化,进而分别得到反映主题领域的社会化标签使用文档和用户标签网络,通过两者相似度的计算形成细粒度用户兴趣模型。实验结果能够验证该模型的科学性。  相似文献   

20.
林鑫  周知 《图书情报工作》2015,59(9):97-103
[目的/意义]借鉴活跃度指数的设计思想,提出一种新的标签相关性判断策略,以改善标签相关性判断的效果和策略的通用性.[方法/过程]结合标签相关性判断的特点对活跃度指数的计算方法进行改造,进而提出一种基于多次活跃度指数迭代的标签相关性判断策略,并以社会化标注社区"豆瓣电影"的67 5351位用户的标签数据为例进行实验,以验证策略的效果.[结果/结论]实验结果显示,该策略的召回率为79.6%,准确率为93.3%,均较为理想,明显优于常用的Top-N策略.同时,该策略的通用性较好,适用于视频、音频、文本等各类型媒体.因此,该策略能够较好地解决标签的相关性判断问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号