首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
基于主题的微博二级好友推荐模型研究   总被引:1,自引:0,他引:1  
随着社交网站用户爆炸性增长,寻找与自己兴趣相投的潜在朋友越来越困难。为了有效解决以上问题,基于社会关系理论中的同质性理论和三元闭包关系理论,分别从社会关系和内容两个维度向社交网络用户推荐志同道合的朋友。并利用LDA的扩展模型UserLDA对新浪微博用户进行兴趣主题建模,通过用户-主题概率分布矩阵计算用户相似度,以进行TopN二级好友推荐。在真实微博语料库上进行试验表明该推荐算法有较好的准确性和多样性。  相似文献   

2.
为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Allocation)进行微博主题挖掘,并在LDA建模的基础上,设计文本增量聚类算法,进一步实现主题结构的识别,从而使用户更好地理解主题及其结构。通过在真实微博数据集上的实验,证明该模型能有效进行主题挖掘和主题结构的识别。  相似文献   

3.
林杰  苗润生 《情报学报》2020,39(1):68-80
专业社交媒体中主题图谱的内容包括论坛中的主题及主题之间的关系,其具有挖掘专业产品创新方向、构建专业知识索引等重要应用价值。本文基于深度学习技术与文本挖掘技术,提出了专业社交媒体中的主题图谱构建方法。首先,使用专业社交媒体中的文本训练Skip-Gram模型,利用该模型的隐藏层权重与模型输出的预测结果,分别获取词语间的语义相似度与上下文关联度。其次,基于该语义相似度与上下文关联度,对已有领域种子本体词汇进行扩充,将语义相似或上下文相邻近的词汇纳入本体词汇,为主题抽取提供高质量的领域词汇。然后,基于扩充的专业本体词汇,使用结合本体词汇的LDA主题模型从专业社交媒体文本中抽取主题与主题词。最后,利用语义相似度与上下文关联度,定义关联度权重,通过图模型与谱聚类,获取主题间与主题词的关联关系与层次结构。本文使用汽车论坛语料进行主题图谱生成实验。实验结果表明,本文方法获取的主题词纯净度相比单独使用LDA模型提升了20.2%,且能够清晰合理地展现主题之间的关系。  相似文献   

4.
为研究社会公众对档案的关注度和认同度,分析档案社交媒体形象,论文采集新浪微博的档案主题文本,通过高频词分析、LDA主题聚类和情感分析,揭示档案主题内容和用户情感倾向.研究结果表明:社会公众对档案的关注度较高,档案价值主体不断扩展;多数档案主题微博具有积极情感,社会公众对档案的认同度较高;少数档案主题微博具有消极情感,档案社交媒体形象有待优化.  相似文献   

5.
随着互联网的发展,信息呈现指数级增长,随着微博等新闻自媒体的出现,新闻的数据量出现爆炸性增长。面对海量的文本信息,发现其中的话题特征并依据特征进行文本分类,可以有效提升用户性信息获取效率。本文通过采用LDA算法构建基础话题树,并在此基础进行话题的实时扩充和话题树的结构优化,可以有效地提升海量稿件话题聚类效率和效果。  相似文献   

6.
[目的/意义]借助信息扩散研究方法,对伴随文化内容传播的社交媒体热点这一特殊类型事件中的民族文化演化扩散规律进行探究,为解释民族文化扩散规律、推动民族文化传播提供新视角。[方法/过程]以微博平台“丁真事件”发布文本为数据来源。基于LDA主题模型、民族文化符号识别与情感分析构建主题—民族文化符号—情感关联网络,对热点事件中不同主题传播伴随的民族文化演化扩散动态进行情境还原。量化不同类型用户的民族文化传播影响力,探究热点事件中不同主体的民族文化传递接力过程。[结果/结论]结果表明,从主题—民族文化符号—情感关联网络构建与传播主体影响力两大层次分析社交媒体情境下民族文化扩散路径规律,可帮助人文学者精准把握文化传播细节及其动态交互特征。  相似文献   

7.
[目的/意义]借助信息扩散研究方法,对伴随文化内容传播的社交媒体热点这一特殊类型事件中的民族文化演化扩散规律进行探究,为解释民族文化扩散规律、推动民族文化传播提供新视角。[方法/过程]以微博平台“丁真事件”发布文本为数据来源。基于LDA主题模型、民族文化符号识别与情感分析构建主题—民族文化符号—情感关联网络,对热点事件中不同主题传播伴随的民族文化演化扩散动态进行情境还原。量化不同类型用户的民族文化传播影响力,探究热点事件中不同主体的民族文化传递接力过程。[结果/结论]结果表明,从主题—民族文化符号—情感关联网络构建与传播主体影响力两大层次分析社交媒体情境下民族文化扩散路径规律,可帮助人文学者精准把握文化传播细节及其动态交互特征。  相似文献   

8.
社交网站中潜在好友推荐模型研究   总被引:8,自引:0,他引:8  
社交网站的快速发展深刻地影响了人们的信息共享与交流方式.作为开放的用户交互平台,社交网站的成功很大程度上取决于用户的交互程度和用户黏性.然而,随着社交网站用户规模的爆炸性增长,准确定位兴趣相近的潜在好友对普通用户来说变得越来越困难.本文研究基于用户交互网络的好友推荐方法,分别提出两阶段推荐模型和基于信任传播的推荐模型,通过向用户推荐其可能感兴趣的潜在好友,帮助用户扩大其朋友圈子,进而提高用户黏性.最后,通过对来自Yahoo! Answers和Metafilter两种不同社交网站的用户网络的实验分析,验证了文中推荐方法的有效性.  相似文献   

9.
通过介绍信息分享行为的研究现状,采用问卷调查法,以中山大学大学生社交网站用户为样本,分析他们在社交网站上信息分享的规律,包括信息内容、信息来源、分享信息的动机等,方便学校图书馆更好地了解用户的信息习惯和偏好,提出了增强图书馆网站信息偶遏能力、营造信息分享氛围强化图书馆社交网站深度休闲功能的建议.  相似文献   

10.
本文以社会化问答社区为例,探究疫情期间健康信息需求的主题与用户情感变化特征,以期改进问答社区在突发事件中的应急策略,通过数据采集和清洗、文本预处理、LDA主题模型、BERT+BiLSTM情感分类模型对25540条数据进行知识挖掘和主题-情感协同分析。研究结果显示,本文使用的方案能够有效捕捉疫情期间网民需求健康信息的主题特征。在情感分类方面,BERT+BiLSTM模型的分类准确率较基线模型提升了11.75%。为更好地应对突发公共卫生事件,本文建议社会化问答社区应自行生产科学的健康信息、提高针对主题的舆情监控力度并积极引导用户认知。  相似文献   

11.
ResearchGate为代表的学术社交网络逐渐引起图情学科用户的重视,针对其高影响力科研成果主题内容的揭示,将丰富用户对不同媒介下学科的发展动向与研究重点的认知,亦有助于合理利用学术社交网络来提升个人影响力。文章选取学术社交网络中图情学科高影响力科研成果为研究对象,构建LDA模型挖掘摘要内容,引入来源年份信息分析各时期主题演化情况,在跨媒介比较中揭示网络交流背景下其呈现的内容特征。研究提炼健康信息学、用户信息行为、算法技术、应用开发、通信网络5个主题。从主题强度变化来看,健康信息学表现平稳,用户信息行为、通信网络呈现上升趋势,算法技术、应用开发整体出现下降。与期刊等传统媒介得到的结论相比,学术社交网络中的研究主题与其虽具有一定相似性,但更凸显出学科交叉融合特征。  相似文献   

12.
随着社会化媒体的发展,识别海量高质量的用户生成内容在电子商务等领域具有很多的实际意义。本文将主题模型应用到高质量用户生成内容的识别,从语义层面挖掘高质量用户生成内容所具有的特征。本文首先通过对社交平台用户评论特征的分析,构建了基于LDA的用户生成内容主题模型,对主题模型计算结果,采用TFIDF识别高概率主题词的权重,探讨高质量用户生成内容的主题分布特征。最后通过亚马逊网上书店的网络用户评论进行试验,分析了高质量用户评论的主题分布特征。  相似文献   

13.
张培晶  宋蕾 《图书情报工作》2012,56(24):120-126
在介绍概率主题模型发展过程以及概率主题模型的代表性模型LDA基本原理的基础上,分析LDA模型的特征及其用于微博类网络文本挖掘的优势;介绍和评述微博环境下现有的基于LDA模型的文本主题建模方法,并对其扩展方式和建模效果进行总结和比较;最后对微博文本主题建模的发展方向进行展望。  相似文献   

14.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

15.
《新闻界》2017,(11):74-81
社交网络用户信息保护是个人信息保护的一个重要内容。针对用户信息的被侵权行为,美国社交用户主要依靠隐私权、形象权和消费者权益三种途径获得救济。伴随大数据技术的广泛应用,社交网站和社交用户在用户信息保护方面各自遭遇了新的挑战。本文通过梳理和分析美国社交网络用户信息保护的特点和方法,以期在大数据技术应用背景下,对我国社交网络用户信息的保护提供借鉴。  相似文献   

16.
近年来,大量失真健康信息以微信公众号文章的方式在社交平台上广为传播,严重影响了用户对健康知识的获取和利用健康信息做医疗决策的效果。为了抑制失真健康信息的传播,有必要对失真健康信息进行自动化的识别与检测。本文以科普中国、丁香医生等公众号发布的健康类文章和经过辟谣的健康类文章为样本,通过分词、去停用词、语法特征提取和文本分类等步骤对失真健康信息进行识别,并通过分类准确率、精确率、召回率、训练时间等性能指标选出效果最佳的分类器。另外,针对文本分类中“一词多义”和“多词一义”的问题,本文通过LDA (latent Dirichlet allocation)主题分析提取文本的语义特征,进而提出一种“语法+语义”的特征提取方法,经过实验验证,各性能指标比基于语义的特征提取方法以及以往相关模型都有了一定的提升。本文为微信公众号文章中失真健康信息的识别提出了一种新的方法和工具,有利于对失真健康信息开展进一步的监测和治理。  相似文献   

17.
[目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本文的情感分析模型;然后,通过计算各词汇在图模型TextRank中的重要性与各词汇的Word2Vec主题相似度,抽取情感关键词与关键句,用于对文本主题与情感倾向的解释与补充;最后,对上述方法进行集成,输出结构化的主题知识元。[结果/结论]实验结果中,抽取得到的主题知识元合格率达到69.1%,表明本文提出的主题知识元抽取方法,能够围绕知识主题较为准确地抽取知识元,实现知识的结构化转换。  相似文献   

18.
[目的/意义]基于内容的过滤推荐中,针对向量空间模型表示文本时容易造成维度灾难的问题,提出利用余弦值r与匹配度值Sim相结合的方法对原有模型进行改进。[方法/过程]由文献资源和用户兴趣分别筛选出权重较大特征词的词向量,进而由公式计算余弦值r,结合对应的特征词权重进一步计算出匹配度值Sim,将其作为向目标用户推荐文献的依据,并利用河北工业大学图书馆的相关数据对改进模型、向量空间模型及LDA主题模型进行实验,最后利用查准率、召回率、F1值及运行时间等评价指标对3种模型的实验结果进行分析。[结果/结论]实验结果表明所提出的改进模型相比较于实验中的向量空间模型与LDA主题模型具有更高的应用价值与运行效率。  相似文献   

19.
基于动态LDA主题模型的内容主题挖掘与演化   总被引:1,自引:0,他引:1  
指出文本内容主题的挖掘和演化研究对于文本建模和分类及推荐效果提升具有重要作用。从分析基于LDA主题模型的文本内容主题挖掘原理入手,针对当前网络环境下的文本内容特点,构建适用于动态文内容本主题挖掘的LDA模型,并通过改进的Gibbs抽样估计提高主题挖掘的准确性,进而从主题相似度和强度两个方面研究内容主题随时间的演化问题。实验表明,所提方法可行且有效,对后续有关文本语义建模和分类研究等具有重要的实践意义。  相似文献   

20.
[目的/意义] 探索微博舆情传播周期中不同传播者关注的舆情热点和传播内容的主要观点,进而发现舆情传播的特点和规律,为舆情分析与决策提供依据。[方法/过程] 以特定舆情事件的事实文本数据为来源,以生命周期理论和LDA方法为指导,设计研究流程与构建研究模型,对微博舆情事件中不同传播者的话题进行主题研究,其中包括主题抽取和结果语义标注、各阶段的不同传播者主题的语义分析、基于时间维度的舆情主题观点识别与刻画。[结果/结论] 研究发现,论文所提出的研究模型能够挖掘出舆情传播周期中不同传播者的主题结构、观点脉络以及特征,研判出分布在文字当中有关联性的、代表性的、重要的词语。同时,结论中还发现微博中的官媒、大众媒体发布信息中的话题和用户谈论的热点话题具有明显的差异性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号