首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
关联规则是数据挖掘中一个非常重要的任务,有许多针对于关联规则的挖掘算法,然而需要提高算法的有效性来处理现实世界中的数据集。基于聚类的关联规则挖掘算法法通过扫描数据库创建聚类表,将收集的事务记录放入聚类表中,通过局部聚类表的约束来产生频繁项集,不仅可以剪枝候选项集,降低数据扫描的时间,而且确保挖掘结果集的正确性。实验结果表明,基于聚类的关联规则挖掘算法比Apfiori算法有更高的执行效率。  相似文献   

2.
提出一种基于人工免疫多模态函数优化的PID(Proportional Integral Derivative)参数离线整定控制器的算法.该算法通过设计多模态函数,搜索出多模态函数的所有峰值点,这些峰值点即是极优的Kp,Ki,Kd参数组合集.同时,该算法将无限个数据聚类成有限个数据,决策者可以根据实际应用要求,在有限个数据内选择最合适的最优决策.Matlab仿真结果证明了该算法的优越性和有效性.  相似文献   

3.
周靖 《茂名学院学报》2011,21(4):56-58,66
在文本分类过程中,为解决传统支持向量机(SVM)多类分类的不可分区域问题及提高分类性能,提出了一种改进的偏二叉树多类SVM算法。算法依据根据样本的分布情况计算训练集文本特征参数的信息熵,并将熵值结合欧式距离公式以确定各类文本间的相似性测度;以相似性测度作为偏二叉树结构的分类走向,对训练集进行学习,构建各个二类子SVM分类器。实验结果表明,该算法具有较高的分类性能,能更好地解决实际文本分类过程中的问题。  相似文献   

4.
提出了一种基于全连接神经网络(FNN)的图像重新着色算法。该算法提取着色线条所在区域的像素RGB颜色特征值和相应的着色线条分类为数据集,为了减少神经网络的训练时间,对数据集进行了采样;把FNN作为一个像素级的多分类神经网络,利用这些训练数据训练FNN,将待重新着色图像中逐个像素的特征值作为神经网络的输入,获得每个像素属于着色线条的似然概率;根据神经网络输出的每个像素属于着色线条的似然概率,计算最终的图像重新着色结果。与现有的基于卷积神经网络的图像重新着色方法相比,该方法避免了神经网络在训练阶段需要大规模的训练样本的弊端,且能够达到近实时的交互性能,同时用户只需输入少量的用户着色线条,就能获得高质量的图像重新着色效果。  相似文献   

5.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。  相似文献   

6.
检索结果聚类能够有效帮助提高获取信息的效率和质量。针对传统文本聚类模型存在数据维数过高、缺乏语义理解等问题,提出一种面向检索结果聚类的融合共现分析主题建模算法。基于改进的LDA模型,对得到的“文档-主题”概率分布进行聚类分析,采用K-means算法完成聚类过程,最后提出根据聚类中心提取主题词作为类簇标签。实验结果表明,改进的LDA算法在检索结果聚类应用上不仅获得了很好的聚类效果,类簇标签也有良好的可读性。  相似文献   

7.
动态前景目标识别和提取是计算机视觉领域的重要内容。对动态图像进行前景目标提取与运动跟踪,通过改进高斯混合背景模型,提出一种基于自适应特征加权的前景目标提取算法,目的是对动态画面中的图像特征进行识别并精确提取所需要的画面。根据高斯模型组合多个图像特征,针对组合特征空间的各个子空间构建似然图像,通过似然图像特征分析与加权,提取最具有差异性的特征。根据图像前景特征在图像帧与帧之间的不同,提高前景目标跟踪的鲁棒性。试验结果表明,改进算法在提取前景目标上比传统算法提高了精度,目标跟踪效果好。  相似文献   

8.
随着互联网的日益普及和电子商务的迅速发展,基于Web日志挖掘聚类算法的电子商务在市场中竞争越来越激烈.本文首先概述Web使用挖掘,简单介绍日志挖掘技术中两个关键技术,聚类分析和序列模式挖掘,进而讨论Web日志挖掘的数据预处理过程,包括用户,数据净化,路径补充等.对于传统的矩阵聚算法进行优化,应用该算法可以对客户和页面进行聚类分析,达到发现相似的客户群体,挖掘潜在客户群.通过实验表明改进的算法具有较高的扩展性和准确性,证明将挖掘结果应用于个性化推荐系统的思想是可行有效的.  相似文献   

9.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。  相似文献   

10.
针对数据真实的概率分布不符合事先假设的高斯混合模型的情形,提出了一种鲁棒的基于高斯混合模型的聚类方法.首先,提出了一种新的模型选择准则,即完整似然最短信息长度准则.该准则不仅能衡量模型对数据的拟合优度,还能度量该模型对数据分组的性能.然后,将该准则作为聚类的代价函数,提出了一种新的期望最大化算法来估计模型参数.与标准的期望最大化算法相比,新算法能较好地避免不理想的局部最优解.实验结果表明:当数据概率分布模型不符合假设的高斯混合模型时,所提方法可克服现有的基于高斯混合模型聚类方法过拟合的缺点,鲁棒地得到准确的聚类结果.  相似文献   

11.
文本挖掘探析   总被引:2,自引:0,他引:2  
文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现,文本挖掘主要处理半结构化、无结构化和字符型数据,首先介绍了文本挖掘的概念,然后分析了文本挖掘的处理过程和关键技术,最后对文本挖掘进行了展望。  相似文献   

12.
分析大量的非结构化文本数据已经成为各类研究及数据分析中的重要任务。本文借助Hadoop分布式计算平台,搭建了一个基于IKAnalyzer开源工具的文本分析应用系统框架,系统基于Spring Boot架构进行了Web应用平台搭建,结合node.js技术构建了数据驱动的Web前端UI呈现。研究实践了从文档收集、文档预处理、分布式计算、中文分词及词频分析、可视化呈现的初步流程。借助该系统平台,研究分别以金庸小说文本数据及采集的贵州省极贫乡镇教育基础数据作为语料数据进行了相关文本统计分析实践。  相似文献   

13.
在名著《红楼梦》中有名有姓的人物共计三百余人。曹雪芹的命名技巧可谓独树一帜,书中人物名称或是巧妙地借用了谐音,或是引经据典,自有出处。人物名称可以暗示人物的性格、身份、背景乃至在书中的命运。然而在翻译过程中由于文化背景的差异,译者往往很难准确地译出人物名称背后的隐含意义。目前流传的两份全译版本分别是杨宪益、戴乃迭夫妇的A Dream of Red Mansions及霍克斯译的The Story of the Stone。以杨戴译本为基础,讨论杨戴夫妇在翻译过程中运用到的翻译技巧与策略。  相似文献   

14.
在对外汉语教学中,报刊阅读一直是学习者学习的难点。报刊阅读教学应以语篇分析理论为依据,从新闻语篇特点出发,通过介绍背景知识、分析新闻标题、解读正文几个步骤对报刊选文进行整体阅读教学,以提高学习者的阅读理解能力和中文自学能力。  相似文献   

15.
译者主体性就是指译者在翻译活动中所表现出的主体意识和主观能动性。林语堂正是在其主体意识的支配下,合理地发挥了自己的主观能动性而选择《浮生六记》为文本。从其人生经历、性格特点、生活观念、文化理想和审美观点等多个角度去探索,可以更好地理解和阐释译者和文本的关系,同时也可以更好地理解整个翻译活动。  相似文献   

16.
Web文本挖掘是数据挖掘技术在网络信息处理中的一个重要应用,如何将web文档转换成数据挖掘所要求的格式,即web文档预处理是一项很重要的研究课题.本文的方法是:从Internet网上下载了大量的网页文件,将网页文件转换成文本文件,然后通过算法对这些文本文件中的数据进行词频统计,删除非用词,去掉高频词,对单词进行词根处理,建立用词词表,从而抽取用词,按字母排序生成词频索引,和字典文件进行对照,获取单词的ID,最后生成Reuters-21578的Database数据格式.这样就将web文档数据转换成标准的数据集,以便为数据挖掘中分类、聚类作好准备.  相似文献   

17.
鲁迅的小说中《鸭的喜剧》历来不为研究者重视,本文试图以王一川的“双重本文性”作为切入点,解读其中所蕴含的丰富精深的寂寞意识,以及这种寂寞意识对鲁迅思想的深刻影响,从而解开《鸭的喜剧》在鲁迅思想转型过程中的重大意义。  相似文献   

18.
新兴本科层次文秘教育专业必须确立科学、独特的专业定位,以摆脱当前各类文秘教育同质化的困境,指导专业发展。在专业定位中,应注意把握社会发展和市场需求,协调好专业定位的系统性与区隔性的关系,兼顾社会期待和学生职业发展需要,在此基础上进行包括专业类型与性质定位、人才培养规格与方向定位等内容的专业定位策划。  相似文献   

19.
As data collection costs fall and vast quantities of data are collected, data analysis time can become a bottleneck. For massively parallel analyses, cloud computing offers the short-term rental of ample processing power. Recent software innovations have reduced the effort needed to take advantage of cloud computing. To demonstrate, we replicate a voxel-wise examination of the genetic contributions to cortical development by age using evidence from 1748 MRI scans. Specifically, we employ off-the-shelf Kubernetes software that permits us to re-run our analyses using almost the same computer code as was published in the original article. Large, well funded institutions may continue to maintain their own computing clusters. However, the modest cost of renting and ease of utilizing cloud computing services makes unprecedented compute power available to all researchers, whether or not affiliated with a research institution. We expect this to spur innovation in the sophisticated modeling of large datasets.  相似文献   

20.
利用RBF网络进行文本自动分类,对训练集进行聚类,使得每个簇内部的相似性尽可能高,而簇之间的相似性尽可能低.为每一个簇的中心定义相应的径向基函数,再对由这些径向基函数构成的两层神经网络进行训练.因考虑到了不同簇之间的差异性,因此很好解决"兼类"问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号