基于复合词生成的网络热点话题识别及描述算法 |
| |
引用本文: | 李霞,王连喜,路美秀,刘汉锋,刘俊延.基于复合词生成的网络热点话题识别及描述算法[J].图书情报工作,2016,60(23):128-134. |
| |
作者姓名: | 李霞 王连喜 路美秀 刘汉锋 刘俊延 |
| |
作者单位: | 1.广东外语外贸大学语言工程与计算重点实验室 广州 510006;2.广东外语外贸大学信息学院 广州 510006;3.广东外语外贸大学图书馆 广州 510006 |
| |
基金项目: | 本文系国家自然科学基金项目“面向中国英语学习者的英文作文全自动评分算法及诊断反馈技术研究”(项目编号:61402119)和广东省普通高校科技创新项目“面向网络英文文本的涉华舆情分析关键技术研究”(项目编号:2013KJCX0071)研究成果之一。 |
| |
摘 要: | 目的/意义]在海量网络新闻和微博等新媒体文本中自动识别网络热点话题并抽取有意义词串来描述热点事件,对自动识别和描述网络舆情具有重要的研究意义。方法/过程]在现有热点描述词抽取方法中,利用关联规则或多元词组合方法在抽取过程中存在噪音词较多和特征词语义被放大或转移等问题。本文提出一种基于复合词生成的描述词抽取方法,在所提取的语义更为精确的描述词集合上使用一趟聚类算法对新闻文本进行聚类,自动识别网络热点话题并对热点话题进行排名。结果/结论]对腾讯新闻事件文本数据集所做的实验结果表明,本文所提出的方法较传统的词特征抽取方法在聚类结果上具有更好的话题簇识别能力和簇描述能力。
|
关 键 词: | 网络热点话题识别 热词抽取 复合词聚类 |
收稿时间: | 2016-05-13 |
|
| 点击此处可从《图书情报工作》浏览原始摘要信息 |
| 点击此处可从《图书情报工作》下载免费的PDF全文 |
|