首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
文本特征降维对文本分类的精确性有着非常重要的影响.本文针对传统的TF-IDF没有考虑特征项的类间分布状况以及对类属低频词的抑制现象、MI在训练样本类别分布偏斜条件下的不足问题分别进行了改进,进而提出了一种基于类别的组合型文本特征选择算法.随后的文本分类试验表明,本文提出的加权模型相比较于传统的TF-IDF以及MI方法可以有效提高文本分类的精度.  相似文献   

2.
文本分类中的特征降维方法综述   总被引:42,自引:7,他引:42  
陈涛  谢阳群 《情报学报》2005,24(6):690-695
文本分类的关键是对高维的特征集进行降维。降维的主要方法是特征选择和特征提取。本文综述了已有的特征选择和特征抽取方法,评价了它们的优缺点和适用范围。  相似文献   

3.
借助特征聚类进行特征抽取是信息检索领域进行文本特征降维的重要手段之一.本文通过χ2统计和特征聚类相结合的模式,在尽量减少信息缺失的前提下两次对特征项维数进行压缩,通过分析特征的类别分布信息,实现了基于统计的特征降维;进而在基于类别概率分布的模式下实现了文本的矩阵表示,借助矩阵范数进行文本分类.实验结果表明,该方法的分类效率较高.  相似文献   

4.
文本分类中一种基于选择的二次特征降维方法   总被引:4,自引:2,他引:2  
特征选择和特征抽取是文本分类中特征降维的主要方法.目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果.本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的.对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好.  相似文献   

5.
从文本特征对文本分类结果的整体影响的角度出发,提出一种基于粒子群优化的文本特征选择方法(PSOTFS),使用粒子群算法来挖掘文本特征选择规则。PSOTFS首先使用开方检验对文本特征进行预选择,然后使用粒子群算法对预选择得到的文本特征进行精选。PSOTFS以一个粒子表示一条特征选择规则,特征选择规则集对应某个粒子群,采用分类准确率作为适应度函数,采用分组的方式对粒子的维度进行降维。实验结果表明,PSOTFS比开方检验、信息增益、文档频率和互信息方法能得到更好的分类效果。  相似文献   

6.
TF-IDF是一种常用的文本特征选择方法。基于该模型的特征选择思想,以特征项的类内分布、类间分布信息为依据,通过引入类内分布及类间分布权重因子对模型的TF及IDF部分进行加权,提出一种基于类别分布信息的文本特征选择模型。新模型使得TF部分含有类内文本频数信息,同时IDF部分含有特征项的类间频数信息。随后的文本分类试验表明,平均查全率、查准率分别提高6.4%、7.8%,F1值提高约7%,验证了本研究提出的基于类别分布的文本特征选择模型的有效性。  相似文献   

7.
特征降维是文本分类面临的主要问题之一。首先通过 分布对特征项进行选择,然后使用一种改进的基于密度聚类方法对选择后的特征项进行聚类,借助类别分布信息,在尽量减少信息缺失的前提下先后两次对文本特征维数进行了压缩;在基于类别概率分布的模式下实现文本的矩阵表示,借助矩阵理论进行文本分类。试验结果表明,该方法的分类效率较高。  相似文献   

8.
王煜  白石  王正欧 《情报学报》2007,26(5):643-647
本文提出了一种基于权重优化的样本相似度测量的距离公式,改进了KNN文本分类算法.KNN算法通常采用传统的VSM模型,各个特征具有相同的权重,使其不适应于文本处理的环境.本文首先根据神经网络理论,采用灵敏度方法对文本特征向量的每个特征的权重进行修正,并且采用降低运算量的神经网络特征选择方法进行第二次降维处理.然后根据同一特征对不同类别的文本类的分类作用不同,对距离公式中的特征权重进行进一步改进,从而进一步提高了KNN文本分类算法的精度.  相似文献   

9.
王煜  王正欧  王明春 《情报学报》2005,24(6):674-678
本文根据CHI值原理、粗集理论和决策树原理,提出了一种抽取Web文本分类规则的新方法。决策树分类方法具有出色的数据分析效率和容易抽取、易于理解的分类规则等优势,但对于维数达成千上万维的分类问题很难应用。因此本文先根据CHI值选择每个文本类中对分类贡献大的若干词条,然后采用粗集理论方法对选择的特征进行进一步提取,这样得到维数较小的文本特征向量空间,最后再使用决策树进行分类,从而既保证了分类精度又可很容易地抽取出利于理解的文本分类规则。  相似文献   

10.
基于多文档集合特征的多文档文摘生成方法在选取最优词时利用人工进行特征降维,方法过于机械,同时在回溯词鄄文档矩阵进行文本相似度计算时,存在对稀疏矩阵无法计算的问题.本文对话题追踪结果进行多文档文摘研究,提出一种有效的多文档文摘语义空间降维方法.新方法在整个话题范围内构造语义空间词鄄文档矩阵,采用奇异值分解对原始词鄄文档矩阵进行特征降维,同时构造能充分包含原始文档词汇信息且维数低的转换矩阵F,利用它来回溯词鄄文档矩阵,完成低维空间下的词相似度计算,进而完成文本单元相似度计算以及文本单元聚类,最终生成多文档自动文摘.实验结果表明,该方法能够对语义空间词鄄文档矩阵进行完美降维,同时避免稀疏矩阵无法计算的问题,对最终生成的多文档文摘有着很好的效果.  相似文献   

11.
特征词抽取和相关性融合的伪相关反馈查询扩展   总被引:2,自引:0,他引:2  
针对现有信息检索系统中存在的词不匹配问题,提出一种基于特征词抽取和相关性融合的伪相关反馈查询扩展算法以及新的扩展词权重计算方法。该算法从前列n篇初检局部文档中抽取与原查询相关的特征词,根据特征词在初检文档集中出现的频度以及与原查询的相关度,将特征词确定为最终的扩展词实现查询扩展。实验结果表明,该方法有效,并能提高和改善信息检索性能。  相似文献   

12.
本文通过实验比较了互信息、χ2统计算法和优势率三种算法在用于局部文本特征选取时对文本分类性能的影响.实验结果显示,在应用于局部特征选择的情况下,文本特征选取算法仍然可以将特征空间的维度降低90%以上,而不降低文本分类的性能.同时,我们发现在应用于局部文本特征选取时,优势率算法的性能不如互信息和χ2统计算法.另外,对于K最近邻分类算法,随着K值的增大,文本分类的查准率在增加,而查全率在降低.最后,本文详细分析了造成这三种算法性能差异的原因,并提出了一种改进算法,来提高优势率算法应用于局部文本特征选取时的性能.  相似文献   

13.
领域特征词的提取方法研究   总被引:5,自引:1,他引:4  
本文提出领域特征词(Domain Feature,DF)的概念,将其定义为:描述领域的最恰当的词语.由一个领域中所有领域特征词组成的集合称为领域特征词集(Domain Feature Set,DFs).为提高领域特征词集提取的效率和结果的客观性,本文给出一种以人机交互方式从自然语言语料库中提取的方法.该方法综合了长度优先切词算法和领域隶属度分析算法,前者保证召回率,后者提高准确率.实验证明,给定合适前景语料与背景语料,该方法能够显著提高领域特征词集构建的性能.领域特征词及其提取方法可以广泛地应用于信息和情报处理领域.  相似文献   

14.
We consider a multi-stage retrieval architecture consisting of a fast, “cheap” candidate generation stage, a feature extraction stage, and a more “expensive” reranking stage using machine-learned models. In this context, feature extraction can be accomplished using a document vector index, a mapping from document ids to document representations. We consider alternative organizations of such a data structure for efficient feature extraction: design choices include how document terms are organized, how complex term proximity features are computed, and how these structures are compressed. In particular, we propose a novel document-adaptive hashing scheme for compactly encoding term ids. The impact of alternative designs on both feature extraction speed and memory footprint is experimentally evaluated. Overall, results show that our architecture is comparable in speed to using a traditional positional inverted index but requires less memory overall, and offers additional advantages in terms of flexibility.  相似文献   

15.
以中小学简介信息分类为例,在分析该类数据特征项少、权重不均等特点的基础上,采用去噪处理、基于模糊集的同义处理等策略构建类别特征库,并以特征库为依据,使用模糊规则构建分类模型,实现对短文本数据的分类。实验结果表明:对于类别特征项较少、权值分布不均的短文本分类,模糊规则分类优于VSM、Rocchio等分类算法。  相似文献   

16.
尽管目前存在许多文本特征选择方法,但是它们都有着一定的局限性。提出一种新的基于群体增量学习(Population Based Incremental Learning)算法的文本特征选择方法,其特点是无需特征集的先验知识和容易实现,并且由于使用了简单分类器性能作为评价准则,计算复杂度很低。对Reuters-21578文本集的分类实验结果表明,该方法平均分类性能要优于卡方统计量、信息增益和简单遗传算法三种常用的特征选择方法。  相似文献   

17.
[目的/意义]面对高校信息呈现碎片化的趋势,提出高校信息碎片化整合流程,并应用随机森林算法构建高校信息碎片化整合的特征选择模型。[方法/过程]基于高校信息整合的发展现状与存在问题,分析随机森林算法原理及优势,将其运用到高校信息碎片化整合过程的特征选择模型中,并以高校贫困生认定为例,对该模型加以验证。[结果/结论]随机森林算法在高校信息整合特征选择上表现出较高的准确性和有效性,为高校信息碎片化整合提供了一种新的思路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号