首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 640 毫秒
1.
聚类问题的关键是把相似的事物聚集在一起,因此相似度计算是进行文档聚类的首要问题.XML模式是XML文档结构的体现,对XML文档的聚类可以通过XML模式的聚类来实现.本文提出一种基于XML模式元素的文档聚类方法,通过计算XML模式元素间的相似度来对文档进行聚类,综合考虑了XML模式中元素的结构和语义信息,进一步提高了计算相似度的精度,提高聚类的准确性,并且易于提取聚簇的通用XML模式.  相似文献   

2.
采用分段线性隶属度函数,形式简单,具有普适性;提出了密度聚类方法,快速得到了聚类中心;在实例仿真中,确定了总体积变化量的隶属度函数,解决了隶属度函数难以确定的难题.  相似文献   

3.
Kmeans算法存在两个主要缺陷,导致聚类结果准确率较低。为改善聚类效果,提出一种DGK-Kmeans算法。该算法选用核密度估计处理数据,得到备选聚类中心,依据平均类间相似度动态增加初始聚类中心个数,直至平均类间相似度大于前次计算值时,选取平均类内相似度最小时对应的聚类中心为初始聚类中心,进行Kmeans聚类计算。采用UCI标准数据集进行实验,证明改进后的DGK-Kmeans算法在聚类准确率和稳定性方面有很大提高。  相似文献   

4.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。  相似文献   

5.
针对短语文本的分类、聚类、信息查询问题,提出了一种新的中文短语文本相似度计算方法.用该方法计算出的文本相似度及一个比较文本与多个被比较文本所得相似度变化趋势是合理的,因此可以满足短语文本分类/聚类和信息查询的需要.  相似文献   

6.
一种基于向量空间模型的文本聚类方法   总被引:3,自引:0,他引:3  
研究了一种基于向量空间模型的文档聚类方法.提出了一个新的聚类模型,即在传统聚类模型的基础上增加一个文档特征向量调整模块;给出了一个特征评价函数用以进行特征提取;对一种基于相似度的平面划分聚类算法做了一些改进.实验结果表明本文提出的聚类模型是可行的.  相似文献   

7.
提出了基于知识简洁度的粗集聚类方法。首先计算对象集合在每个属性下的划分 ;然后在对初始划分进行合并时 ,引进了不可分辨度的概念 ,考虑了其他属性的影响 ,同时避免了两个对象之间取值相近的度量问题 ;在形成最终聚类结果时 ,引进了知识简洁度的定义 ,使得最终的聚类结果科学合理  相似文献   

8.
冒伟 《教育技术导刊》2020,19(3):248-251
为解决传统谱聚类算法在图像分割时计算量大、使用单一特征分割的局限性问题,设计一种融合谱聚类和多特征的图像分割算法。首先进行超像素分割以减少计算量,分别提取每个超像素的颜色特征和纹理特征,构建超像素相似度矩阵|然后采用特征加权方法线性融合颜色和纹理特征的超像素相似度矩阵|最后采用谱聚类算法进行聚类分割。在UCMerced_LandUse和Berkeley数据集上进行实验测试,并与现有方法进行比较。实验结果表明,大多数实验图像IOU指标均在90%以上,相比于传统方法有了显著提高。  相似文献   

9.
现有的增量聚类算法虽然解决了数据增量和类簇重叠问题,但在距离度量时没有考虑属性重要度不同,且普遍拥有较高的时间复杂度。针对以上问题,提出一种基于属性重要度的加权三支决策增量软聚类算法(W-TIOC-TWD算法),将属性重要度考虑到距离度量中,弥补了现有算法在聚类过程中将所有属性的重要程度视为相等的不足。该算法还引入离群点概念,降低了算法的时间复杂度。基于人工数据集和UCI数据集的实验结果表明,W-TIOC-TWD算法的聚类准确率优于比较算法。  相似文献   

10.
选取初始聚类中心是多数聚类算法的首要步骤,往往影响着聚类的效果。为了避免算法迭代过程中易陷入局部最优的问题,本文提出了一种基于模糊交叉网格的初始聚类中心选取方法。算法通过对数据空间网格化后,以网格交点为中心的邻近网格组成网格空间,根据数据点的隶属度统计每个网格空间的密度,再通过局部最大网格空间选取K个初始聚类中心。在真实数据集上进行实验,结果表明该方法在保证了聚类效果的同时,提高了收敛速度。  相似文献   

11.
为提高大数据集粗分类识别率,提出一种基于聚类分析的SVM-Kd-tree树型粗分类方法。首先根据数据集特征分布进行k-means两簇聚类,对聚类后的数据集进行类别分析,同时将属于两簇的同一类别样本划分出来;然后使用两簇中剩余样本训练SVM二分类器并作为树型结构根节点,将两簇数据分别合并,将划分出来的样本作为左右子孩子迭代构建子节点,直到满足终止条件后,叶子节点开始训练Kd-tree。实验结果表明,迭代构建树型粗分类方法使训练单一SVM平均时间减少了61.977 4%,比Kd-tree同近邻数量的准确率提高了0.03%。在进行大规模数据集粗分类时,使用聚类分析迭代构建组合分类器时间更短、准确率更高。  相似文献   

12.
利用RBF网络进行文本自动分类,对训练集进行聚类,使得每个簇内部的相似性尽可能高,而簇之间的相似性尽可能低.为每一个簇的中心定义相应的径向基函数,再对由这些径向基函数构成的两层神经网络进行训练.因考虑到了不同簇之间的差异性,因此很好解决"兼类"问题.  相似文献   

13.
按集群内企业的分工合作形式来划分,安徽纺织产业集群可分为水平集聚型和纵向集聚型。水平集聚型纺织产业集群是由生产或销售类似纺织产品并相互竞争的企业组成,企业规模相对较小;纵向集聚型纺织产业集群中,大量中小企业围绕核心大企业进行协作配套,大企业处于支配地位。一方面,处于准科层制下的安徽纺织产业集群面临着共同的升级障碍;另一方面,不同分工合作下的纺织产业集群又有着各自的升级障碍和发展思路。  相似文献   

14.
The Unified National System of Australian Universities was created out of universities, institutes of technology and colleges of advanced education. In this study similarity clustering of universities within this system is attempted based on two data sets: one based on evaluative ratings and the other on quantitative performance indicators. With the exception of three traditional universities that tended to cluster together across data sets no consistent clustering emerged. Within data sets there was no tendency for the emergent clusters to reflect the origins of the institutions in any consistent manner. It is suggested that the Unified National System has not reduced diversity.  相似文献   

15.
The main aim of this study was to find out which type of vocabulary cluster – semantic, thematic and unrelated – very young learners benefit from the most while learning foreign language vocabulary. The study also aimed at shedding light on the effects of these three vocabulary clusters on the immediate and delayed recall of foreign language vocabulary. In accordance with the aims, 51 very young English as a Foreign Language learners participated in the study. A pre-test was administered to determine the target words in the three clusters so that all target words were new to all participants. The participants received immediate recall tests immediately after the instruction of L2 words in each cluster. Delayed recall tests were also administered for each cluster after three days of reviews of the words in the clusters The analysis of the quantitative data results of the study revealed that the presenting L2 words in different type of clusters have a significant effect on very young EFL learners' L2 vocabulary retention, and the subjects remembered significantly more L2 words when the words were grouped in unrelated clusters.  相似文献   

16.
We present a test for cluster bias, which can be used to detect violations of measurement invariance across clusters in 2-level data. We show how measurement invariance assumptions across clusters imply measurement invariance across levels in a 2-level factor model. Cluster bias is investigated by testing whether the within-level factor loadings are equal to the between-level factor loadings, and whether the between-level residual variances are zero. The test is illustrated with an example from school research. In a simulation study, we show that the cluster bias test has sufficient power, and the proportions of false positives are close to the chosen levels of significance.  相似文献   

17.
This study sought to identify clusters or subtypes of children with learning disabilities (LD) and documented brain damage (BD) on the basis of a comprehensive neuropsychological battery. Sixty subjects, 24 with LD and 36 with BD, participated in the study. The standard scores for several measures from the Intermediate Battery of the Halstead-Reitan Neuropsychological Battery and other select measures were submitted to Q-Technique factor analysis for the entire sample. Five clusters were determined. No one cluster was composed exclusively of LD or BD subjects, with the proportions of LD and BD varying considerably from one cluster to the next. There were some qualitative differences between the clusters, while quantitative differences also figured prominently.  相似文献   

18.
K 均值算法(K-Means)是聚类算法中最受欢迎且最健壮的一种算法,然而在实际应用中,存在真实数据集划分的类数无法提前确定及初始聚类中心点随机选择易使聚类结果陷入局部最优解的问题。因此提出一种基于最大距离中位数及误差平方和(SSE)的自适应改进算法。该算法根据计算获取初始聚类中心点,并通过 SSE 变化趋势决定终止聚类或继续簇的分裂,从而自动确定划分的类簇个数。采用 UCI 的 4 种数据集进行实验。结果表明,改进后的算法相比传统聚类算法在不增加迭代次数的情况下,聚类准确率分别提高了17.133%、22.416%、1.545%、0.238%,且聚类结果更加稳定。  相似文献   

19.
基于产业集群与FDI区位选择相关理论,从多角度对影响FDI区位选择的因素进行梳理,收集相关数据,采用灰色关联分析法,建立灰色关联模型进行实证分析。实证结果表明:包括产业集群在内的集群因素与FDI具有强关联性,在此基础上提出发展产业集群等建议。  相似文献   

20.
集群品牌是随着产业集群的形成与发展而逐渐凸现出来的,虽然集群品牌在产业集群的发展过程中作用显著,但它本身也有着与生俱来的缺陷。假使对它维护不当,就很有可能会影响到整个产业集群的发展。要提高产业集群的竞争力,应在充分维护与利用集群品牌的同时,让产业集群诞生一批具有个性化品牌的企业,这也是产业集群向高级阶段演化的必经之路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号