首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
为了解决文献自动分类问题,提出了一种基于粒子群优化算法(PSO)的文档聚类算法并根据各种参数的变化策略进行了分析与比较.由于粒子运动的范围受到粒子最大速度Vmax的影响,本文通过改变Vmax的变化类型进行仿真比较,当Vmax为凹函数,PSO算法具有较好的收敛性.同时,对惯性权重和学习系数进行了研究,提出了相应的变化策略:惯性权重线性递减,自身认知系数线性递增而社会认知系数线性递减.给出了PSO聚类算法的详细步骤,并根据各种变化策略进行了仿真分析,取得了较好的聚类效果.与标准的遗传算法(GA)相比,本文提出的PSO聚类算法具有更好的收敛效果.  相似文献   

2.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高.  相似文献   

3.
本文探索了一种能多变量综合优化的方法,即对喷管进行参数化设计后,用均匀试验设计(UED)将试验样本均匀散布在设计区间内,求出各性能参数后,利用径向基神经网络(RBF)对试验样本进行拟合,再用粒子群算法(PSO)对训练好的神经网络进行寻优,找出了更好的双喉道气动矢量喷管设计参数组合。数值模拟结果显示,优化后的双喉道气动矢量喷管的矢量角有了明显提高。试验表明这种优化方法具有很好的优化能力,可以用来对喷管几何外形进行参数优化。   相似文献   

4.
专有名词的自动抽取是文本挖掘、信息检索和机器翻译等领域的关键技术.本文研究了组合SVM和KNN两种分类器进行汉语专有名词自动抽取的方法.对样本在空间的不同分布使用不同的分类方法,当测试样本与SVM最优超平面的距离大于给定的阈值时使用SVM分类,否则使用KNN;在实际训练语料中,常常是负类样本数远多于正类样本数,而传统KNN方法对不平衡训练集存在敏感性,所以提出了用归一化的思想对传统的KNN方法进行修正.实验表明,用SVM与修正的KNN组合算法进行汉语专有名词抽取比单一的SVM方法以及原始的SVM-KNN方法更具优越性,而且这种方法可以推广到其他非平衡分布样本的分类问题.  相似文献   

5.
王效岳  白如江 《情报学报》2006,25(4):475-480
结合粗糙集的属性约简和神经网络的分类机理,提出了一种混合算法。首先应用粗糙集理论的属性约简作为预处理器,把冗余的属性从决策表中删去,然后运用神经网络进行分类。这样可以大大降低向量维数,克服粗糙集对于决策表噪声比较敏感的缺点。试验结果表明,与朴素贝叶斯、SVM、KNN传统分类方法相比,该方法在保持分类精度的基础上,分类速度有明显的提高,体现出较好的稳定性和容错性,尤其适用于特征向量多且难以分类的文本。  相似文献   

6.
针对朴素信念不完整数据分类算法中保守推理规则过于严格导致明确分类样本比例下降的的情况,定义了放松的区间优势,并提出了基于放松区间优势的不完整数据分类模型,与朴素贝叶斯分类和朴素信念分类算法的对比实验结果表明本文提出的分类模型有效地提高了明确分类样本比例,在明确分类样本上的正确率优于朴素贝叶斯分类,与朴素信念分类相当.此外还以文体风格识别作为应用背景进行了实证研究,对比实验结果进一步表明对于文体风格识别数据集,放松区间优势的朴素信念分类算法具有较理想的综合性能.  相似文献   

7.
在问答系统中用户的查询是以自然语言问句的形式出现的,查询分类对生成合适的答案有着重要的指导性作用.现有文献大多基于SVM统计学习模型实现查询分类.文章详细分析了中文查询分类的典型特征及其编码过程,并给出了LibSVM分类器的参数优化及核函数选取方法.比较了词袋特征(bag-of-word)和词性与词袋绑定特征(bag-of-word/pos)在LibSVM(RBF)、LibSVM(Linear)和Liblinear三个分类器上的分类精度.实验结果表明,在问题训练集规模较大、特征维数较高的情况下,Liblinear分类器具有更好的性能.同时,得出一个结论:bag-of-word/pos特征对英文查询分类有一定的贡献;对于中文查询分类,虽然理论上增加特征有利于提高SVM分类器的精度,但由于绑定词性特征后可能会引入噪声,进而降低查询分类的精度.  相似文献   

8.
针对粒子群优化算法早熟、易陷入局部收敛的问题,提出一种克服早熟的粒子群算法.该算法在标准粒子群算法基础上加入极值扰动和自适应调整系数,使其易于跳出局部最优.又分析了灰色GM(1,1)预测模型的局限性,提出了一种带极值扰动的自适应调整惯性权重的改进PSO优化灰色模型AdPSO-GM,并将此模型用于数据预测挖掘研究中.最后,通过一个实例对所提方法进行验证,结果表明,本文所给模型具有较高的预测挖掘精度.  相似文献   

9.
提出了一种基于预抽取支持向量机及模糊循环迭代算法的改进的支持向量机(Support Vector Machines,SVM)的两类文本分类方法, 与传统的SVM相比, 该方法具有高得多的计算效率。文中给出了具体算法并将其用于文本分类中,实验表明了本算法用于文本分类的有效性及其高效率。  相似文献   

10.
粒子群优化算法是一类基于群智能的随机优化算法,该算法简单易懂,优化性能良好。本文提出改进的PSO算法结合MATLAB强大的矩阵运算能力和Simulink系统仿真功能,对文中非线性PID控制系统参数进行了优化整定。仿真显示优化结果比传统的优化方法好,收敛性能也较好。  相似文献   

11.
从文本特征对文本分类结果的整体影响的角度出发,提出一种基于粒子群优化的文本特征选择方法(PSOTFS),使用粒子群算法来挖掘文本特征选择规则。PSOTFS首先使用开方检验对文本特征进行预选择,然后使用粒子群算法对预选择得到的文本特征进行精选。PSOTFS以一个粒子表示一条特征选择规则,特征选择规则集对应某个粒子群,采用分类准确率作为适应度函数,采用分组的方式对粒子的维度进行降维。实验结果表明,PSOTFS比开方检验、信息增益、文档频率和互信息方法能得到更好的分类效果。  相似文献   

12.
用于Web文本分类的快速KNN算法   总被引:12,自引:0,他引:12  
王煜  白石  王正欧 《情报学报》2007,26(1):60-64
KNN算法是一种简单、有效、非参数的Web文本分类方法。传统KNN方法的明显缺陷是样本相似度的计算量很大,使其在具有大量高维样本的Web文本分类中缺乏实用性。本文提出一种快速查找精确的k个最近邻的FKNN(Fast-k-Nearest-Neighbor)算法。FKNN算法首先选择一个样本作为基准点,并将所有样本按照距基准样本的距离进行排序并建立索引表,然后根据索引表和有序队列查找k个最近邻,减小了查找范围,极大降低了相似度计算量。  相似文献   

13.
将自动文本分类引入竞争情报系统,并结合民航客服业的实际应用场景展开研究。在对文本分类的理论基础进行研究与分析的基础上,设计一种自动分类策略,其核心是针对传统机器学习方法依赖历史数据的局限,优化特征选择和学习样本获取方法。选用SVM算法,详细描述分类词表构建、分类规则提取、分类模型训练等过程,最终取得较为理想的实际效果。  相似文献   

14.
基于机器学习的自动文本分类模型研究   总被引:2,自引:0,他引:2  
基于机器学习的方法是自动文本分类中非常重要的一大类方法。本文先给出了形式化的定义,提出了自动文本分类的流程模型,然后选取了支持向量机(Support Vector Machine,SVM)算法作为一个典型例子进行分析,最后作者通过一个中文文本分类实验评价了该算法的效果。  相似文献   

15.
杨敏  谷俊 《图书情报工作》2012,56(9):114-119
将文本自动分类技术应用于图书书目的自动分类中,利用ICTCLAS分词系统对书名和摘要信息进行中文分词,为标题和摘要的特征词赋予不同的权重。在构建基于文本特征矩阵的基础上,结合SVM算法对实验语料进行学习和测试。为了验证TFIDF权重对分类结果的影响,还对词频特征矩阵、TFIDF特征矩阵和混合特征矩阵进行测试和对比。实验证明,基于混合特征矩阵的SVM算法具有良好的分类效果。据此,构建基于SVM的书目自动分类系统。  相似文献   

16.
[目的 /意义]基于某搜索引擎5亿全量数据,本文设计研究年轻用户大数据画像分析的总体模型和详细的研究流程,以建立用户画像的基本方法论.[方法/过程]借助数据分析与数据验证过程的结合,通过KL散度和AIO社会学模型选取有代表性的计算样本和标签样本,并利用CH-Score和SH-Score明确算法与相关参数,利用聚类算法,...  相似文献   

17.
【目的】分析典籍英译作者身份识别的关键问题,提出不完整数据作者身份识别的有效方法。【方法】针对诗词典籍篇幅短小和语料不平衡的特点,建立基于词汇、句子和语篇层面的文体特征向量空间模型,提出用于不完整数据作者身份识别的加权朴素信念分类算法。【结果】加权朴素信念分类算法可以有效改善朴素信念分类算法性能,与目前主流分类算法对比实验表明其在不完整数据集上具有很好的综合性能。【局限】需进一步扩展数据集的样本数量和作者数量,在大数据集上提高文体特征提取效率和作者身份识别的准确性。【结论】提出的多层面文体特征模型和加权朴素信念分类算法在诗词典籍英译作品集上具有较好的准确性和应用性。  相似文献   

18.
针对现有语义标注系统通用性差的问题,本研究设计了基于先导词算法的MARTT语义标注系统。MARTT利用有监督的机器学习方法从文本中提取领域规则,以适应不同的数据集。为了检验算法的效率,研究以中国植物志和北美植物志数据为样本,运用十折交叉论证方法与NB、SVM的标注性能进行了比较。结果表明,先导词算法在准确率、召回率及计算成本上均优于其它两种算法。而且,在两个不同的数据集上都获得了理想的结果,证实MARTT所具有的良好适应性。  相似文献   

19.
情感倾向性分析旨在识别评论中隐含的情感信息,在产品声誉分析、舆情监控、个性推荐等方面具有广阔的应用前景.在评测消费者对新发布产品的态度时,本产品领域中可供参考的已分类评论数据往往较少,而其他相关领域可能存在大量的已分类的评论数据,利用其他产品已标注的评论数据对新产品进行情感倾向性分析,属于跨领域的情感分类问题.针对这一问题,本文引入迁移学习机制,将经典迁移学习TrAdaBoost算法的样本迁移机制应用于情感倾向性分析,并针对积极类和消极类分类精度不均衡问题提出了改进策略,首先根据评论样本权重进行第一次选择,其次结合分类置信度对评论样本进行第二次选择.实验结果表明,在整体分类精度有所提高的前提下,改进算法的优势在于均衡了积极类和消极类的分类精度,使得分类结果更具实际参考价值.  相似文献   

20.
股票投资作为一种常见的投资方式,其投资方法也日新月异。越来越多的投资分析师利用计算机分析数据的优势来进行股票交易。支持向量机(Support Vector Machine,SVM)作为一种数据挖掘技术,在高维、非线性、过拟合等问题上具有较强处理能力,在股价预测方面表现出特有优势。系统论述了支持向量机的发展及其在预测领域中的应用,并构建SVM股票预测模型,运用股票数据对股票进行涨跌情况预测,通过选取核函数以及调整参数,并计算准确率、精确度、召回率、F1值等预测模型评估指标,分别进行SVM模型和SVM_RBF模型构建及模型效果评估。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号