共查询到18条相似文献,搜索用时 265 毫秒
1.
一种基于类别信息的文本自动分类模型 总被引:2,自引:0,他引:2
从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。 相似文献
2.
3.
4.
5.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高. 相似文献
6.
7.
8.
提出一种具有特征级别的领域特征集合的情感资源挖掘方法,将基于HowNet词典的分类法构建的情感特征与基于机器学习的特征分类方法中的无内容特征以及领域特征相融合,并将该集合放入支持向量机中进行情感分类实验,实验结果表明,使用抽取模式以及多特征融合的分类方法,可增强中文情感分类效果,验证两种分类方法综合研究的正确性与有效性,弥补目前特征级别的中文情感分类研究的不足. 相似文献
9.
基于统计频率的文本分类特征选择算法研究* 总被引:1,自引:0,他引:1
通过分析χ2统计量(Chi-square, CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性的缺点,对其进行改进,提出统计频率(Statistical Frequency, SF )算法。实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出良好的分类效果。 相似文献
10.
文本分类中一种基于密度的KNN改进方法 总被引:1,自引:1,他引:1
特征降维与分类算法的性能是文本自动分类的两个主要问题.KNN算法以其简单、有效、非参数特点常用于文本分类,但是训练文本分布的不均匀对KNN的分类效果产生负面影响,而在实际应用中训练文本分布不均是常见现象.本文针对这种分类环境,首先提出了一种改进的tf-idf赋权方法用于特征降维,在此基础上进一步提出了一种基于密度的改进KNN方法用于文本分类, 使处于样本点分布较密集区域的样本点之间的距离增大.随后的文本分类试验表明,本文提出的方法基于密度的KNN方法具有较好的文本分类效果. 相似文献
11.
12.
孙巍 《现代图书情报技术》2009,25(5):22-27
特征表示是数据聚类的关键问题之一。当前对科学数据特征表示的深度不够,从而在一定程度上影响科学数据聚类的效果。针对这一问题,提出复合文本描述的概念以及一种基于复合文本描述的科学数据特征表示方法,该方法的主要特点是运用不同的特征权重计算法分别对基于两种文本数据源的候选特征加以表示,并将两种特征集合并,最终实现强化特征集的目的。实验表明,该方法优于传统方法,使科学数据聚类的效果有明显提高。 相似文献
13.
停用词表对中文文本情感分类的影响 总被引:6,自引:2,他引:4
本文利用三种特征选择方法、两种权重计算方法、五种停用词表以及支持向量机分类器对汽车语料的文本情感类别进行了研究.实验结果表明,不同特征选择方法、权重计算以及停用词表,对文本情感分类的影响也不尽相同;除形容词、动词和副词外的其余词语作为停用词表以及不使用停用词表对情感分类作用较大,得到的分类结果比较好;总体上,采用信息增益和布尔型权重进行中文文本情感分类的效果较好. 相似文献
14.
一种用于主题提取的非线性加权方法 总被引:15,自引:0,他引:15
主题提取是文本处理的一项重要工作。本文首先分析了主题抽取中加权方法形成时的一些定量问题,然后提出了主题相关词一种非线性加权处理方法,对比实验结果显示它不仅是一种比较稳健的方法,而且能在一定程度上提高主题提取的正确率。 相似文献
15.
用户与档案之间的隔膜以及档案信息发现的困难,严重影响到档案信息的开发和利用,制约了档案价值的实现。本文基于“活化”理论,提出了两种激活档案的方案,一是采取普适法,通过深化档案内容揭示和丰富文本特征描述为档案增加能量,二是选择合适的催化剂和环境因素以降低档案的活化能基值,并详细探讨了两种方案的实施方法。 相似文献
16.
17.
医学生信息素养测评理论框架包括信息意识、信息知识、信息能力、信息伦理与道德4个测量维度。通过专家咨询法评价测试题项的内容效度(题项的准确性、清晰度和适用性),对整个测试体系在数量上进行了删减,并对部分题项的内容作了更科学的处理。通过综合指数法建立了各测试题项的权重系数。应用因子分析方法对测评体系进行结构效度检验,共提取4个公因子,能够与之前建立的测评理论框架中确定的4个维度相一致。方差分析结果表明,医学生与临床医学八年制学生、卫管专业本科生的信息素养水平的差异在统计学上有显著意义(P〈0.05),区分效度良好,测评体系整体信度较高。效应尺度统计量(ES)分析结果表明,《医学文献检索与利用》课程干预后,医学生的信息素养整体以及各维度的水平均有显著性改善。最终形成的标准化测评工具能够用于医学生信息素养水平的测量。 相似文献
18.
充分利用馆藏资源为读者提供服务是高校图书馆工作的重要内容。以资源利用的原始数据为基础,通过对山西医科大学汾阳学院图书馆馆藏资源的利用情况进行统计分析和全面研究,针对读者需求,结合实际提出了馆藏优化对策。 相似文献