共查询到16条相似文献,搜索用时 234 毫秒
1.
根据互信息、RBF神经网络和关联规则原理,提出了一种抽取WEB文本分类规则的新方法。先根据互信息选择和各类相关程度大的若干词条,然后采用RBF神经网络方法对选择的特征进行进一步提取,得到维数较小的文本特征向量空间。之后再根据挖掘出的关联规则获取WEB文本分类规则,建立文本分类器,在保证了分类精度的前提下抽取出利于理解的文本分类规则。 相似文献
2.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高. 相似文献
3.
若要有效地实现文本分类,关键是对高维特征空间进行降维,降维方法分为特征选择和特征提取.本文对已有特征选择方法分析后发现,这些方法仅利用文档数来选择特征,没有考虑特征项的权重.为了找出本质特征,我们提出了一种基于特征项与类之间模糊关系的特征选择方法,引入特征项权重来确定其隶属度.采用KNN分类器,在Reuters-21578标准文本数据集上进行了训练和测试.实验表明,宏平均和微平均都达到了最高,分别为81.82%和94.88%,宏平均比IG,CHI提高了4.73%和1.12%,微平均比IG,CHI提高了1.56%和0.21%. 相似文献
4.
基于粗集理论和神经网络结合的数据挖掘新方法 总被引:13,自引:1,他引:12
本文提出了一种基于粗集理论和神经网络的数据挖掘新方法。首先利用粗集理论对原始数据进行一致性属性约简 ,然后使用神经网络对数据进行学习和预测 ,并同时完成属性的不一致约简 ,最后再由粗集对神经网络中的知识进行规则抽取。该方法充分融合了粗集理论强大的属性约简、规则生成能力和神经网络优良的分类、容错能力。实验表明 ,该方法快速有效 ,生成规则简单准确 ,具有良好的鲁棒性。 相似文献
5.
文本分类中的特征降维方法综述 总被引:42,自引:7,他引:42
文本分类的关键是对高维的特征集进行降维。降维的主要方法是特征选择和特征提取。本文综述了已有的特征选择和特征抽取方法,评价了它们的优缺点和适用范围。 相似文献
6.
从文本特征对文本分类结果的整体影响的角度出发,提出一种基于粒子群优化的文本特征选择方法(PSOTFS),使用粒子群算法来挖掘文本特征选择规则。PSOTFS首先使用开方检验对文本特征进行预选择,然后使用粒子群算法对预选择得到的文本特征进行精选。PSOTFS以一个粒子表示一条特征选择规则,特征选择规则集对应某个粒子群,采用分类准确率作为适应度函数,采用分组的方式对粒子的维度进行降维。实验结果表明,PSOTFS比开方检验、信息增益、文档频率和互信息方法能得到更好的分类效果。 相似文献
7.
8.
9.
10.
文本分类是信息检索与数据挖掘领域的研究热点,近年来得到了广泛的关注和快速的发展.根据免疫否定选择原理,设计了基于掩码分段匹配的否定选择分类器,用于实现文本匹配选择分类,克服传统否定选择分类方法对大样本空间分类效果不好的缺点.给出了适用于免疫优化的分类规则编码及分类信息分的评价标准,避免了传统分类算法缺乏全局优化能力的缺点,提高了对样本的识别能力,同时提高了文本数据分类的精确度,采用统计显著性检验本文方法的有效性及优越性. 相似文献
11.
文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(K-Nearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。 相似文献
12.
文本分类中一种基于密度的KNN改进方法 总被引:2,自引:1,他引:1
特征降维与分类算法的性能是文本自动分类的两个主要问题.KNN算法以其简单、有效、非参数特点常用于文本分类,但是训练文本分布的不均匀对KNN的分类效果产生负面影响,而在实际应用中训练文本分布不均是常见现象.本文针对这种分类环境,首先提出了一种改进的tf-idf赋权方法用于特征降维,在此基础上进一步提出了一种基于密度的改进KNN方法用于文本分类, 使处于样本点分布较密集区域的样本点之间的距离增大.随后的文本分类试验表明,本文提出的方法基于密度的KNN方法具有较好的文本分类效果. 相似文献
13.
文本自动分类的测评研究进展 总被引:6,自引:0,他引:6
分类是文本挖掘的基础和核心,是近年来数据挖掘和网络挖掘的一个研究热点。本文从定性和定量两个方面,介绍国内外文本分类研究现状,分析影响文本分类的重要因素,希望通过对文本分类系统和算法的评测总结发现研究中存在的共同问题,为文本自动分类的优化、改进提供理论和事实依据。 相似文献
14.
多层次web文本分类 总被引:8,自引:0,他引:8
传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系。根据LSA理论提出了一种多层次web文本分类方法。建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根据相应的类模型存LS空间上分类。这种分类方法解决了LSA模型中高维矩阵难以进行奇异值分解的问题。同时体现了web文本中词条的语义关系,注重了词条在网页中的表现形式。实验表明,多层次web文本分类方法比基于平面分类体系的分类方法在查全率和准确率方面要好。 相似文献
15.
粗糙集理论是处理不精确、不准确数据的有效方法,但是通过粗糙集方法获得的决策规则对于不完整的信息承统和随机数据也是不确定的。本文描述了一个用于决策规则的可靠性评价方法。该方法独立于任何专用引申规则方法,并且参数能够被调整以适应不同的信息系统。 相似文献
16.
[目的/意义]研究应用粗糙集理论分析专利信息的可行性及其方法,建立识别核心专利的粗糙集理论模型。[方法/过程]综述国内外研究核心专利识别的相关文献,确定包含8个指标的核心专利识别指标体系,再用粗糙集理论分析专利信息数据,确定各指标的权重系数,按照计算的核心专利综合指数(CICP)大小将某特定技术领域的专利信息序列分为核心专利、关键专利、重要专利和一般专利。[结果/结论]以通信领域的976件专利数据为分析样本,运用本文核心专利识别模型识别出11件核心专利,其中包含获得中国专利奖的专利,核心专利识别结果在一定程度上表明核心专利识别模型的可行性和科学性;本文核心专利识别模型具有一般性,可应用于分析研究专利价值及其重要性。 相似文献