共查询到17条相似文献,搜索用时 281 毫秒
1.
2.
3.
4.
5.
一种基于类别信息的文本自动分类模型 总被引:2,自引:0,他引:2
从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。 相似文献
6.
7.
基于图结构的中文文本表示方法研究 总被引:2,自引:0,他引:2
为解决基于统计的文本表示模型的信息缺失问题,本文提出了一种考虑词间语义和语序信息的基于图结构的中文文本表示方法,其思想是将文本的特征项表示成图结构中的节点,特征项间的关系表示成节点间的有向边,据此可将文本表示成由节点和有向边组成的图结构,并且将边赋予权重信息,该模型较大程度地保留了原文本的结构信息及语义信息.中文语料测试结果表明,基于图结构的文本表示方法对复杂文本语料的分类问题十分有效.对于简短文本语料,本文提出扩展特征项共现单元的修正方法,提高了图结构中文文本表示方法的普遍适用性. 相似文献
8.
9.
10.
针对文本聚类分析结果表达中缺乏语义关系的缺陷,本文利用人们在可视化形式下对模型和结构的理解和获取能力,提出了一种新的可视化表达方法。通过改进的Force-directed模型对聚类分析结果进行文本布局,表现文本间的语义相似关系;使用等值线生成算法构建层次性主题图,聚集和提炼文本主题;最终实现文本聚类分析结果的语义直观表达。实验结果表明,这种可视化方法不仅能够有效地表达聚类结果,体现类间、文本间的语义相关程度,而且还有助于发现隐含的信息,并通过类别之间的关联实现有效的信息导航。 相似文献
11.
12.
若要有效地实现文本分类,关键是对高维特征空间进行降维,降维方法分为特征选择和特征提取.本文对已有特征选择方法分析后发现,这些方法仅利用文档数来选择特征,没有考虑特征项的权重.为了找出本质特征,我们提出了一种基于特征项与类之间模糊关系的特征选择方法,引入特征项权重来确定其隶属度.采用KNN分类器,在Reuters-21578标准文本数据集上进行了训练和测试.实验表明,宏平均和微平均都达到了最高,分别为81.82%和94.88%,宏平均比IG,CHI提高了4.73%和1.12%,微平均比IG,CHI提高了1.56%和0.21%. 相似文献
13.
从文本特征对文本分类结果的整体影响的角度出发,提出一种基于粒子群优化的文本特征选择方法(PSOTFS),使用粒子群算法来挖掘文本特征选择规则。PSOTFS首先使用开方检验对文本特征进行预选择,然后使用粒子群算法对预选择得到的文本特征进行精选。PSOTFS以一个粒子表示一条特征选择规则,特征选择规则集对应某个粒子群,采用分类准确率作为适应度函数,采用分组的方式对粒子的维度进行降维。实验结果表明,PSOTFS比开方检验、信息增益、文档频率和互信息方法能得到更好的分类效果。 相似文献
14.
本文通过实验比较了互信息、χ2统计算法和优势率三种算法在用于局部文本特征选取时对文本分类性能的影响.实验结果显示,在应用于局部特征选择的情况下,文本特征选取算法仍然可以将特征空间的维度降低90%以上,而不降低文本分类的性能.同时,我们发现在应用于局部文本特征选取时,优势率算法的性能不如互信息和χ2统计算法.另外,对于K最近邻分类算法,随着K值的增大,文本分类的查准率在增加,而查全率在降低.最后,本文详细分析了造成这三种算法性能差异的原因,并提出了一种改进算法,来提高优势率算法应用于局部文本特征选取时的性能. 相似文献
15.
16.
基于句子的文本表示及中文文本分类研究 总被引:1,自引:0,他引:1
文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的. 相似文献
17.
文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(K-Nearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。 相似文献