首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于LDA模型的文本聚类研究
引用本文:王鹏,高铖,陈晓美.基于LDA模型的文本聚类研究[J].情报科学,2015(1):63-68.
作者姓名:王鹏  高铖  陈晓美
作者单位:长春理工大学计算机科学技术学院;吉林大学管理学院
基金项目:吉林省科技发展计划(20130416001ZG)
摘    要:在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。

关 键 词:文本聚类  LDA模型  文本相似度  层次聚类
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号