基于LDA-WO混合模型的微博话题有序特征抽取研究 |
| |
引用本文: | 梁 珊,邱明涛,马 静.基于LDA-WO混合模型的微博话题有序特征抽取研究[J].情报科学,2017,35(7):44-49. |
| |
作者姓名: | 梁 珊 邱明涛 马 静 |
| |
摘 要: | 【目的/意义】考虑到使用LDA模型进行主题抽取时,抽取到的特征词是无序的,破坏了原有的主谓宾结
构,导致抽取效果不准确,可读性差的缺陷,构造了WO词序模型,并将LDA模型与WO模型结合,提出了基于
LDA-WO混合模型的微博主题有序特征抽取算法。【方法/过程】使用LDA模型进行主题建模,获得无序特征词,
然后通过WO模型对特征词进行排序,将特征词与原语料进行对比,构造特征词-语料位置矩阵,通过对特征词的
位置排序,构造特征词词序权值矩阵,最终获得有序的特征词,完成对话题特征的有序抽取。【结果/结论】本文以真
实新浪微博数据为实验对象,实验结果表明基于LDA-WO模型的特征词提取方法进行特征抽取,抽取到的特征词
可读性更强,可弥补传统LDA模型在话题可解释性上的不足。
|
|
| 点击此处可从《情报科学》浏览原始摘要信息 |
| 点击此处可从《情报科学》下载免费的PDF全文 |
|