基于DBSCAN算法的文本聚类研究 |
| |
引用本文: | 邹艳春.基于DBSCAN算法的文本聚类研究[J].教育技术导刊,2016,15(8):36-38. |
| |
作者姓名: | 邹艳春 |
| |
作者单位: | 江西财经大学 软件与通信学院,江西 南昌 330013 |
| |
摘 要: | 提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。
|
关 键 词: | 文本聚类 DBSCAN聚类 文本相似度 文本处理 |
|
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|