首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于主题概念空间的文本模糊c-均值聚类方法
引用本文:吉翔华,陈超,邵正荣,俞能海.基于主题概念空间的文本模糊c-均值聚类方法[J].东南大学学报,2007,23(3):439-442.
作者姓名:吉翔华  陈超  邵正荣  俞能海
作者单位:中国科学技术大学多媒体计算与通信教育部-微软重点实验 合肥230027(吉翔华,俞能海),中国科学技术大学图书馆 合肥230027(陈超,邵正荣)
基金项目:The National Natural Science Foundation of China(No60672056),Open Fund of MOE-MS Key Laboratory of Multime-dia Computing and Communication(No06120809)
摘    要:为了改善文本聚类的准确度,提出用基于主题概念子空间的模糊c-均值聚类(TCS2FCM)方法来分类文本.采用5个评估函数的加权值来提取关键短语;利用WordNet对相应的关键短语提取概念短语并生成最后的类别描述.初始中心和初始隶属度矩阵的建立是决定模糊c-均值聚类效果的关键,使用能够代表文本主题的概念短语来建立相互正交的主题概念子空间,利用主题子空间中的概念向量来初始化聚类中心和隶属度矩阵.实验结果表明:不同于传统模糊c-均值聚类的随机化初始,与文本内容相关的初始化有助于改进最后的聚类结果,提高聚类精度.

关 键 词:TCS2FCM  主题概念空间  模糊c-均值聚类  文本聚类
修稿时间:2007-05-18

Fuzzy c-means text clustering based on topic concept sub-space
Ji Xianghua,Chen Chao,Shao Zhengrong,Yu Nenghai.Fuzzy c-means text clustering based on topic concept sub-space[J].Journal of Southeast University(English Edition),2007,23(3):439-442.
Authors:Ji Xianghua  Chen Chao  Shao Zhengrong  Yu Nenghai
Institution:1MOE-MS Key Laboratory of Multimedia Computing and Communication, University of Science and Technology of China, Hefei 230027, China;2Library, University of Science and Technology of China, Hefei 230027, China
Abstract:
Keywords:TCS2FCM  topic concept space  fuzzy c-means clustering  text clustering
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号