首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 234 毫秒
1.
[目的/意义]通过实验分析不同特征提取算法对新闻文本聚类效果的影响。[方法/过程]选取搜狗实验室的搜狐新闻语料库以及澳大利亚广播公司2003-2017年间的新闻标题语料库,对TF-IDF、Word2vec以及Doc2vec三种单一特征,TF-IDF+Word2vec、TF-IDF+Doc2vec、Word2vec+Doc2vec以及TF-IDF+Word2vec+Doc2vec四种组合特征在K-means、凝聚以及DBSCAN算法上分别进行聚类分析,通过Purity以及NMI两个评测指标对聚类效果进行评价。[结果/结论]单类特征中三个特征的聚类质量呈Word2vec> TF-IDF> Doc2vec关系;组合特征中TF-IDF+Word2vec的效果最优。Word2vec在单一特征中的表现最优,其也是不同组合特征间差异的主要因素,特征组合是否可以提升聚类性能需基于多因素进行综合判定。  相似文献   

2.
一种改进的K-means算法   总被引:1,自引:0,他引:1  
K-means算法是聚类算法中最经典的划分算法之一,它对初值的依赖性很强,聚类结果随初始聚类中心选择的不同而波动很大。提出了一种改进的K-means算法,运用Kruskal算法生成聚类对象的最小生成树(MST),按权值从大到小删去K-1条边,得到的K个连通子图中对象的均值作为初始聚类中心进行聚类。由仿真实验表明,K-means算法较传统算法有更好的聚类效果和准确性。  相似文献   

3.
[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。  相似文献   

4.
[目的/意义]为了实现从非结构化的在线评论中有效提取用户需求,文章提出了数据驱动下产品需求识别的方法。[方法/过程]利用Word2vec表示学习方法,获取评论文本内容的语义向量表示;结合K-means算法和LSA模型实现评论文本聚类,识别产品需求主题;在此基础上,通过网络分析方法探索需求主题间的关联关系。以华为手机的评论数据为例进行方法验证。[结果/结论]结果表明,基于语义的文本特征可以取得较好的聚类效果,与传统方法相比,CH指标和SC指标均得到显著提高,验证了该方法的有效性。研究方法和结果能够为企业产品创新和运营决策提供一定参考。[局限]样本数据集规模不够,缺少跨平台实验计算和比较。  相似文献   

5.
需要对语义主题树特征进行聚类算法设计,提高对语义特征的搜索和语义泛化能力。传统的语义特征聚类算法采用基于本体映射的语义特征聚类算法,建立异构的本体模型之间的语义等价映射关系,导致聚类性能和语义泛化能力不好。提出一种基于语义覆盖度融合的I/O映射聚类算法,利用领域知识和模式匹配,建立本体之间语义映射关系,考虑三种与语义信息相关的学习知识,得到语义相似度函数,利用统计TF-IDF的方法计算词语的特征权值,通过语义主题树特征匹配,实现搜索引擎的覆盖度I/O映射聚类改进。仿真实验表明,采用该算法能提高对语义的覆盖度融合能力,具有更好的数据聚类性能,较好地完成语义映射任务,语义信息检索查准率提高为98.7%。  相似文献   

6.
[目的/意义]精准识别潜在专利技术组合,将相互关联的技术组成保护范围更大的专利网,对于打破单项专利的局限性、构建更为缜密的技术壁垒具有重要意义。[方法/过程]首先在对关键词与核心IPC进行语义抽取的基础上,筛选出核心专利集合,然后计算基于专利相似性与互补性的专利组合强度,最后利用MCL聚类算法直观、精准地识别潜在专利组合,并以艾滋病疫苗领域专利对方法进行了验证。[结果/结论]该方法以核心专利集合为数据源有效降低了组合识别中的噪音,基于多维度的专利组合强度计算克服了以往组合识别指标的片面性,利用MCL聚类算法无需人为规定簇群数量,保证识别质量。  相似文献   

7.
一种基于聚类的云计算任务调度算法   总被引:1,自引:0,他引:1  
任务调度是云计算中的一个关键问题.针对 Min-Min 算法负载不平衡的缺点,引入 K-means 聚类,提出一种基于 K-means 聚类和 Min-Min 的云计算任务调度的新算法.该算法采用 K-means 聚类方法依据任务长度对任务聚类进行预处理,然后根据 Min-Min 算法的机制进行任务调度.仿真结果表明,该算法具有较好的负载均衡性和系统性能.  相似文献   

8.
[目的/意义]本文探讨挖掘技术和应用间的关联关系,便于把握技术的目标应用场景和了解应用需求的可选技术方案,为技术转化提供基础。[方法/过程]首先,建立基于改进GloVe词向量的"技术——应用"发现模型,提出改进词向量的算法;然后,以机器学习技术为例,获取该领域学术论文文摘数据,预处理后建立训练文本集合,再使用改进GloVe模型训练获得词向量;最后,对词向量聚类获得"技术"和"应用"类词汇集,通过共现获得两者之间的关联并分析。[结果/结论]实验结果表明,本文改进GloVe模型后训练的词向量性能获得提升,聚类效果好,最终实现"技术——应用"的关联分析。  相似文献   

9.
在云计算环境下,针对K-means对初始聚类中心敏感和易陷入局部最优的缺点,进行K-means聚类中心优化求解,提高对海量数据的聚类处理能力。传统方法采用动态干扰信任感推荐方法进行数据聚类中心求解,聚类中心对初始值敏感性较强,数据聚类效果不好。提出一种基于粒子群密度最大距离凹函数构建和边界隶属度特征分析的云计算中K-means聚类中心优化求解方法。通过云计算处理,对数据聚类余下样本点按照与聚类中心的相似程度来划分成k类,对原始变量数据的差异化特征进行降维处理,通过搜索空间中的粒子,每一个粒子自身都有速度、位置和适应度,通过迭代找到最优解,进行数据规范化预处理,数据预处理包括选择数量,类型和特征的标度,进行边界隶属度特征分析,实现云计算数据的聚类改进。仿真结果表面,该算法对云计算数据的聚类性能优越,聚类中心求解准确,克服了传统的K-means对初始聚类中心敏感和易陷入局部最优的缺点,应用价值较大。  相似文献   

10.
本文提出了改进的Harris算法与SUFT算法相结合的图像匹配方法,用稳定的SUFT算法检测提取尺度空间极值点作为特征候选点,根据灰度的"相似度"的原则进行Harris特征提取,实验结果表明,使用改进后的算法进行遥感图像配准能有效去除误配点,使候选点数量更少,特征点更稳定,使得匹配的效率更高,准确性更高。  相似文献   

11.
孟婷 《情报探索》2021,(1):47-55
[目的/意义]使用K-means聚类分析方法,对外交机构遭受的恐怖主义袭击进行定量、客观的评估。[方法/过程]构造K-means聚类方法风险评估模型,对1970—2018年外交机构遭遇恐怖袭击事件进行分析,客观地计算出几类袭击方式、袭击目标和不同国家的风险,其中重点分析了该外交机构政治隶属和该外交机构地理位置所在国家的恐怖主义风险评估。[结果/结论]K-means算法能减少主观性和人为误差。根据足够规模的数据库,对不同风险等级进行分类,便于直观分析不同风险等级的国家,得到切实可行的反恐对策。  相似文献   

12.
基于优化初始类中心点的K-means改进算法   总被引:2,自引:0,他引:2  
K-means算法是一种重要的聚类算法,在网络信息处理领域有着广泛的应用。由于K-means算法终止于一个局部最优状态,所以初始类中心点的选择会在很大程度上影响其聚类效果。本文提出了一种K-means算法的改进算法,首先探测数据集中的相对密集区域,再利用这些密集区域生成初始类中心点。该方法能够很好地排除类边缘点和噪声点的影响,并且能够适应数据集中各个实际类别密度分布不平衡的情况,最终获得较好的聚类效果。  相似文献   

13.
基于碎片化UGC的知识元抽取研究   总被引:1,自引:0,他引:1  
[目的/意义]在大数据环境下,从海量的碎片化用户生成内容中抽取具有完整语义的知识单元。[方法/过程]文章提出一种基于碎片化UGC的知识元抽取方法,该方法首先借助BTM主题分割方法从UGC中抽取知识要素,而后基于融合TextRank和Glove词向量的K-means方法实现知识要素聚类,最后根据知识要素相关属性和知识要素聚类结果生成对应UGC知识元。[结果/结论]实验结果显示基于碎片化UGC的知识元抽取方法具有一定科学性和有效性。  相似文献   

14.
[目的/意义]为弥补现有作者影响力评价指标缺乏内容信息的不足,发现不同研究主题下高影响力的作者,文章给出一种基于主题内容的作者影响力评价方法。[方法/过程]以情报学领域近5年核心期刊的文献为样本,首先利用CTM模型提取样本文献的主题,获得文献作者对不同主题的贡献值;再利用K-means算法对样本文献分类,由此将文献对应的作者划分到特定主题类别下;然后,将作者在某特定主题类别的贡献值与作者发表文献的平均被引频次相结合,设计特定主题类别下作者影响力指标(Author Influence Index in Specific Topic,AII-ST);最后,根据AII-ST值对作者进行影响力排序。[结果/结论]本研究在方法上,通过CTM模型与K-means算法的结合实现了K-means算法初始聚类中心与聚类数目的双重优化;在应用中,作者评价指标AII-ST值能有效限定作者的比较范围,较好地反映作者的研究方向;新指标评价视角新颖、评价结果可靠。  相似文献   

15.
[目的/意义]针对产品评论中的复合句式,实现特征观点对的语义匹配及提取,并明确评论可信度的识别因素及权重,对产品可信评论进行筛选和分析。[方法/过程]基于特征观点对的语义匹配算法实现评论语义指标的量化计算,并采用模糊层次分析法确定可信度指标权重。[结果/结论]实验表明相较于单句提取特征观点对方法,特征观点对的语义匹配算法在召回率、准确率和F-score等性能方面均有较大优势。依据可信度指标对网站产品评论进行筛选,不仅可以评估产品整体的评论可信度,还可以细化到产品特征级别的可信度分析,为用户筛选可信的评论信息并提升购物决策效率。  相似文献   

16.
[目的/意义] 多主题覆盖的枢纽节点群能够快速"导航"至领域更多主题的高被引综述文献和权威节点,从而可以使新领域工作者短时间全面了解领域已有研究、现状和未来发展趋势。[方法/过程] 本文提出一种节点群发现算法——HubsRank算法,该算法基于引文网络中节点影响力(信息、知识)的传递,通过多轮迭代,得到引文网络中多主题覆盖的枢纽节点群。[结果/结论] 最后,与HITs算法进行实证对比分析,本算法能更快、全面地提取枢纽节点群和不同主题的高被引权威节点,且该算法可以有效避免主题集聚效应。  相似文献   

17.
本文将数据挖掘算法应用干智能答疑系统中,提出了一套基于数据挖掘算法的答疑设计方案并加以改进,传统的K-均值算法聚类虽然速度快,在文本聚类中易于实现,但其同样依赖于所有变量,聚类效果往往不尽如人意.为了克服这一缺点,提出一种改进的K-均值文本聚类算法.它在K-均值聚类过程中,向每一个聚类簇中的关键词自动计算添加一个权重,重要的关键词赋予较大的权重.经过实验测试.获得了一种基于子空闻变量自动加权的适合文本数据聚类分析的改进算法,它不仅可以在大规模、高维和稀疏的文本数据上有效地进行聚类.还能够生成质量较高的聚类结果.实验结果表明基于子空闻变量自动加权的K-均值文本聚类算法是有效的大规模文本数据聚类算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号