首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 636 毫秒
1.
互联网时代,网络焦点话题讨论对当代高校学生的思想有很大影响,因此对高校舆情进行监测具有十分重要的意义。通过改进的K-means算法对高校舆情进行聚类,获取舆情热点。通过聚类算法获取热点话题,进而对热点舆情话题进行引导,对改进高校学生思想政治工作作用显著。对改进算法进行实验,结果表明该算法准确率达到75%,比传统算法高出8%,改善了传统算法的聚类效果。  相似文献   

2.
文本相似度计算是文本分类、文本聚类、自动文摘、信息抽取的基础.文本相似度计算性能直接影响到文本分类、文本聚类、自动文摘的质量.另外文本相似度还应用于诸多自然语言处理任务中,本文对文本相似度计算问题进行了深入的研究,并根据自然语言的特点提出了通过比较两个文本关键语义对来计算文本的语义相似度.  相似文献   

3.
针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。  相似文献   

4.
文本分类是文本数据挖掘领域的重要技术之一。从分类算法对文本语义信息的利用程度这一角度出发,将文本分类划分为基于词形的算法和基于语义的算法两类,对每类算法进行了描述,并对当今文本数据的多样性及文本分类算法改进的可选方向进行了研究。  相似文献   

5.
针对短语文本的分类、聚类、信息查询问题,提出了一种新的中文短语文本相似度计算方法.用该方法计算出的文本相似度及一个比较文本与多个被比较文本所得相似度变化趋势是合理的,因此可以满足短语文本分类/聚类和信息查询的需要.  相似文献   

6.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。  相似文献   

7.
话题检测与舆情分析是网络舆情监控中的热点问题,对热点话题进行检测并对舆情预警度进行分析将有助于舆情监控和管理。考虑话题的周期性,建立基于时间窗口的原始指标,利用主成分分析方法得到有关综合指标,利用两层隐含层的BP神经网络方法建立舆情分析判别模型|利用MB-SinglePass算法对数据进行话题检测,并选取10个话题进行舆情预警度判别,实现对微博话题的检测与舆情分析。最后将话题检测结果与人工标记话题结果进行比较分析,验证了话题检测算法的正确性和有效性。同时通过与其它舆情分析判别模型进行实验比较,发现在实验条件相同的情况下,该原始指标和分析判别模型得到的舆情预警度分类结果准确率更高,增加的时间成本代价也在可接受范围内。  相似文献   

8.
新型冠状病毒(COVID-19)疫情爆发期间,涌现出了众多的抗疫意见领袖。通过对意见领袖话题传播和演化进行分析研究,可以为网络舆情治理和疫情防控提供理论和知识支撑。采用N-Gram语言模型和Shingling相似度算法相结合的方式进行话题检测,再通过Neo4j图数据库存储与检索意见领袖、话题、事件等多维实体特征,构建以意见领袖为核心的话题图谱。实验结果表明,话题准确率达82.3%,召回率达81.6%,与传统Single-Pass聚类相似度算法相比均有所提高。通过对图谱分析,能够简单直观地展示出不同实体间多维舆情关系。同时,可以提高检索速度和分析效率,符合舆情传播客观规律。  相似文献   

9.
作为社交网络重要载体,微博成为信息传播的重要平台,承载着公众情感表达及舆论传播的重要功能。对微博博文及评论作出主题概括及情感分析在网络管控、舆情监测及公众情绪引导方面具有重要的实践意义。提出一种基于机器学习与文本分析的主题概括及情感分析模型。以武汉理工大学研究生坠亡事件为话题,利用Word2vec将文本转化为词向量,并且通过机器学习聚类方法对舆情各个生命周期过程进行主题概括,采用基于词典文本分析方法,对评论文本进行多元情感分析,对表现突出的情感大类作细粒度分析,最终实现基于主题与情感分析的多元细粒度公众情感变化分析模型。该分析模型可在特定舆情事件下得出公众在各阶段的关注中心及情绪变化规律,实现舆情主题与情感变化的协同演化研究。  相似文献   

10.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。  相似文献   

11.
为改善网络舆情态势感知与预警中舆情信息分析不准确的问题,提出基于 Spark 技术的均值漂移(MS)算法,利用该算法原理分析 Spark 框架特性,给出该算法在 Spark 框架中的实现过程,包括舆情信息预处理、特征提取、特征向量模型构建和算法聚类设计。在相同数据集下将 MS 算法和 K-means 算法聚类效果进行对比,实验结果显示,K-means 算法聚类结果受 k 值选取的影响,存在聚类结果不准确的问题;基于 Spark 的 MeanShift 算法在没有任何先验条件下舆情聚类效果优于 K-means 聚类算法,且符合预期期望。  相似文献   

12.
推动微博舆情事件演化是众多意见领袖共同作用的结果,因此识别意见领袖群对于舆情事件的监管具有重要作用。提出微博舆情话题下的意见领袖群识别模型,综合考虑用户属性特征、交互特征和网络结构,设计微博舆情下用户影响力评估算法MUR,并结合K-means算法形成MUK-means算法,实现对意见领袖群的识别。以新浪微博数据进行实验,MUK-means算法的聚类时间(14s)远远少于传统K-means算法(32s),而且基于MUK-means算法得到的意见领袖群的用户覆盖率高达86.3%。实验结果表明,MUK-means算法改进了K-means算法初始聚类中心不确定的缺点,不仅提高了聚类效率,而且实现了对意见领袖群的有效识别。  相似文献   

13.
针对FIHC文本聚类算法基于频繁词集实现聚类而未考虑词语间潜在语义联系的缺陷,对FIHC算法进行了有效改进。通过把基于知网的语义相似度计算方法归并到FIHC的Score函数中,有效的改善了score函数单纯的基于向量空间模型的不足。通过实现证明,改进后的FIHC算法明显的提高了聚类质量。  相似文献   

14.
基于K-均值算法的模糊分类器具有很好的分类效果,用它可以很准确的对训练样本进行分类,此方法是将K-均值算法应用于训练数据的聚类,对每个聚类的半径和聚类的中心都是可计算的,而模糊系统设计方法就是用模糊度来描述聚类,对训练数据进行高效且准确的分类,这种方法有下面几个特点:(a)不要预定义参数;(b)训练时间短;(c)简单;最后用一个例子对这种模糊分类器进行分析验证。  相似文献   

15.
文本聚类能够把相似性大的文本聚到同一类中。K-Means常用来聚类文本,但是由于聚类中心的选取对聚类结果有影响,导致聚类不稳定,因此采用一种基于聚类中心的改进算法分析文本,通过实验,验证算法的有效性。  相似文献   

16.
高校辅导员是高校管理的一线工作人员,研究高校网络舆情获取方法,对高校辅导员进行学生思想引导工作以及维护高校网络健康发展具有重要意义。从高校辅导员视角出发,运用对比分析方法,对近年来网络舆情获取方法和文本分析方法进行研究,进而根据高校网络舆情的内涵和特点,改进TF-IDF算法对高校网络舆情进行文本分析,最后给出该算法的实现过程,既可为分析高校网络舆情发展方向提供依据,也可为高校管理工作顺利进行提供技术保障。  相似文献   

17.
分析了K均值聚类算法(K-means)存在的不足和改进遗传算法的全局优化能力,提出一种基于改进遗传算法的文本聚类方法,该方法将原始文档转化成用向量空间模型来描述的文本向量,首先随机产生若干个文档向量作为初始聚类中心形成遗传算法的染色体种群,经过改进遗传算法的选择、交叉、变异进化运算,得到较为优化的K均值聚类算法的初始聚类中心。实验表明该算法文本聚类提高了查准率和查全率,算法的高效性也得到了验证。  相似文献   

18.
通过对Web数据的特点进行详细的分析,在基于传统的贝叶斯聚类算法基础上,采用网页标记形式来有效地弥补朴素贝叶斯算法的不足,并将改进的方法应用在文本分类中,是一种很好的改进思路。最后实验结果也表明,此方法能够有效地对文本进行分类。  相似文献   

19.
Kmeans算法存在两个主要缺陷,导致聚类结果准确率较低。为改善聚类效果,提出一种DGK-Kmeans算法。该算法选用核密度估计处理数据,得到备选聚类中心,依据平均类间相似度动态增加初始聚类中心个数,直至平均类间相似度大于前次计算值时,选取平均类内相似度最小时对应的聚类中心为初始聚类中心,进行Kmeans聚类计算。采用UCI标准数据集进行实验,证明改进后的DGK-Kmeans算法在聚类准确率和稳定性方面有很大提高。  相似文献   

20.
K-means算法是聚类分析划分方法中的一种常用方法,也是目前在数据分析方法中最有应用前景的方法之一。但K mean算法对初始聚类中心十分敏感,这对处理学生成绩等数据而言,会导致聚类结果极为不稳定。为此,提出基于改进遗传算法的K means聚类算法。该算法利用遗传算法解决初始聚类中心,提高聚类结果的稳定性,但存在前期过早收敛和后期收敛过慢的缺点。将改进遗传K means聚类算法应用于高职高专的学生考试成绩分析中,可以很好地解决传统遗传聚类算法对聚类结果的不稳定性问题,并通过聚类结果对学生考试成绩进行分类评价,利用所获得的数据聚类结果指导教学,从而提高教学质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号