期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘海峰刘守生张学仁苏展《现代图书情报技术》2010,26(4):72-76

从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。相似文献

2.

一种基于类别的组合型文本特征选择

刘海峰赵华刘守生《情报学报》2010,29(4)

文本特征降维对文本分类的精确性有着非常重要的影响.本文针对传统的TF-IDF没有考虑特征项的类间分布状况以及对类属低频词的抑制现象、MI在训练样本类别分布偏斜条件下的不足问题分别进行了改进,进而提出了一种基于类别的组合型文本特征选择算法.随后的文本分类试验表明,本文提出的加权模型相比较于传统的TF-IDF以及MI方法可以有效提高文本分类的精度. 相似文献

3.

文本分类中基于训练样本空间分布的K近邻改进算法

刘海峰刘守生姚泽清《情报学报》2013,32(1)

KNN算法是文本分类中广泛应用的算法.作为一种基于实例的算法,训练样本的数量和分布位置影响KNN分类器分类性能.合理的样本剪裁以及样本赋权方法可以提高分类器的效率.提出了一种基于样本分布状况的KNN改进模型.首先基于样本位置对训练集进行删减以节约计算开销,然后针对类偏斜现象对分类器的赋权方式进行优化,改善k近邻选择时大类别、高密度训练样本的占优现象.试验结果表明,本文提出的改进KNN文本分类算法提高了KNN的分类效率. 相似文献

4.

一种基于位置的改进中文文本特征选择 总被引：2，自引：1，他引：1

刘海峰赵华刘守生《图书情报工作》2009,53(21):102-105

通过引入位置因素修改TF IDF因子进行初次特征选择,提出一种基于位置的文本特征加权改进模型;再借助类别信息构造类别向量提高文本类别表示能力,进一步提出一种位置加权模式下基于类别信息的文本特征加权改进模型。随后的文本分类试验表明,该加权模型相较于传统的TF IDF方法,具有更好的文本分类效果。相似文献

5.

基于潜在语义索引的SVM文本分类模型

郭武斌周宽久张世荣《情报学报》2009,28(6)

本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高. 相似文献

6.

一种基于类别分布信息的中文文本分类模型

刘海峰王元元姚泽清《图书情报工作》2008,52(1):73-73

特征降维是文本分类面临的主要问题之一。首先通过分布对特征项进行选择,然后使用一种改进的基于密度聚类方法对选择后的特征项进行聚类,借助类别分布信息,在尽量减少信息缺失的前提下先后两次对文本特征维数进行了压缩;在基于类别概率分布的模式下实现文本的矩阵表示,借助矩阵理论进行文本分类。试验结果表明,该方法的分类效率较高。相似文献

7.

一种基于特征聚类的文本分类模型研究

刘海峰王元元姚泽清王倩《情报学报》2008,27(2):224-228

借助特征聚类进行特征抽取是信息检索领域进行文本特征降维的重要手段之一.本文通过χ2统计和特征聚类相结合的模式,在尽量减少信息缺失的前提下两次对特征项维数进行压缩,通过分析特征的类别分布信息,实现了基于统计的特征降维;进而在基于类别概率分布的模式下实现了文本的矩阵表示,借助矩阵范数进行文本分类.实验结果表明,该方法的分类效率较高. 相似文献

8.

基于多特征融合的中文情感分类方法研究

甘小红张兆年《图书情报工作》2012,56(21):109

提出一种具有特征级别的领域特征集合的情感资源挖掘方法,将基于HowNet词典的分类法构建的情感特征与基于机器学习的特征分类方法中的无内容特征以及领域特征相融合,并将该集合放入支持向量机中进行情感分类实验,实验结果表明,使用抽取模式以及多特征融合的分类方法,可增强中文情感分类效果,验证两种分类方法综合研究的正确性与有效性,弥补目前特征级别的中文情感分类研究的不足. 相似文献

9.

基于统计频率的文本分类特征选择算法研究* 总被引：1，自引：0，他引：1

张俊丽赵乃瑄冯君《现代图书情报技术》2008,24(11):44-48

通过分析χ2统计量（Chi-square, CHI）的缺陷和不足,针对它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性的缺点,对其进行改进,提出统计频率(Statistical Frequency, SF )算法。实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出良好的分类效果。相似文献

10.

文本分类中一种基于密度的KNN改进方法 总被引：1，自引：1，他引：1

刘海峰汪泽焱姚泽清刘守生《情报学报》2009,28(6)

特征降维与分类算法的性能是文本自动分类的两个主要问题.KNN算法以其简单、有效、非参数特点常用于文本分类,但是训练文本分布的不均匀对KNN的分类效果产生负面影响,而在实际应用中训练文本分布不均是常见现象.本文针对这种分类环境,首先提出了一种改进的tf-idf赋权方法用于特征降维,在此基础上进一步提出了一种基于密度的改进KNN方法用于文本分类, 使处于样本点分布较密集区域的样本点之间的距离增大.随后的文本分类试验表明,本文提出的方法基于密度的KNN方法具有较好的文本分类效果. 相似文献

11.

基于粗糙集加权的文本分类方法研究 总被引：6，自引：0，他引：6

胡清华谢宗霞于达仁《情报学报》2005,24(1):59-63

文本自动分类是当前智能信息处理中一类重要的研究课题。本文分析了基于统计理论的文本分类的基本特点,提出采用可变精度粗糙集模型中的分类质量构造新的特征词权重计算公式。这种新的加权方法,相对于广泛使用的逆文本频率加权方法,大大改进了文本样本在整个空间中的分布,使得类内距离减少,类间距离增大,在理论上将提高样本的可分性。最后利用支持向量机和K近邻两种分类器,验证了这种新的加权方法对分类效果确实有所提高。相似文献

12.

一种基于复合文本描述的科学数据特征表示方法

孙巍《现代图书情报技术》2009,25(5):22-27

特征表示是数据聚类的关键问题之一。当前对科学数据特征表示的深度不够,从而在一定程度上影响科学数据聚类的效果。针对这一问题,提出复合文本描述的概念以及一种基于复合文本描述的科学数据特征表示方法,该方法的主要特点是运用不同的特征权重计算法分别对基于两种文本数据源的候选特征加以表示,并将两种特征集合并,最终实现强化特征集的目的。实验表明,该方法优于传统方法,使科学数据聚类的效果有明显提高。相似文献

13.

停用词表对中文文本情感分类的影响 总被引：6，自引：2，他引：4

王素格魏英杰《情报学报》2008,27(2):175-179

本文利用三种特征选择方法、两种权重计算方法、五种停用词表以及支持向量机分类器对汽车语料的文本情感类别进行了研究.实验结果表明,不同特征选择方法、权重计算以及停用词表,对文本情感分类的影响也不尽相同;除形容词、动词和副词外的其余词语作为停用词表以及不使用停用词表对情感分类作用较大,得到的分类结果比较好;总体上,采用信息增益和布尔型权重进行中文文本情感分类的效果较好. 相似文献

14.

一种用于主题提取的非线性加权方法 总被引：15，自引：0，他引：15

韩客松王永成《情报学报》2000,19(6):650-653

主题提取是文本处理的一项重要工作。本文首先分析了主题抽取中加权方法形成时的一些定量问题,然后提出了主题相关词一种非线性加权处理方法,对比实验结果显示它不仅是一种比较稳健的方法,而且能在一定程度上提高主题提取的正确率。相似文献

15.

基于“活化”理论的科技名人档案开发研究

吕瑞花覃兆刿《档案学研究》2015,29(4):4-7

用户与档案之间的隔膜以及档案信息发现的困难,严重影响到档案信息的开发和利用,制约了档案价值的实现。本文基于“活化”理论,提出了两种激活档案的方案,一是采取普适法,通过深化档案内容揭示和丰富文本特征描述为档案增加能量,二是选择合适的催化剂和环境因素以降低档案的活化能基值,并详细探讨了两种方案的实施方法。相似文献

16.

制造系统的快速组构模式研究 总被引：2，自引：0，他引：2

苏秦孙静春王刊良《情报学报》2002,21(2):250-255

市场环境和顾客需求变化对制造系统提出了新要求 ,即制造系统的快速组构。本文提出了制造系统的快速组构的三种模式 ,并分析论述了三种模式的组构机理和方式相似文献

17.

医学生信息素养标准化测评工具研制（二）：测试题项

许卫卫杜建张士靖《数字图书馆论坛》2013,(5):47-58

医学生信息素养测评理论框架包括信息意识、信息知识、信息能力、信息伦理与道德4个测量维度。通过专家咨询法评价测试题项的内容效度（题项的准确性、清晰度和适用性）,对整个测试体系在数量上进行了删减,并对部分题项的内容作了更科学的处理。通过综合指数法建立了各测试题项的权重系数。应用因子分析方法对测评体系进行结构效度检验,共提取4个公因子,能够与之前建立的测评理论框架中确定的4个维度相一致。方差分析结果表明,医学生与临床医学八年制学生、卫管专业本科生的信息素养水平的差异在统计学上有显著意义（P〈0．05）,区分效度良好,测评体系整体信度较高。效应尺度统计量（ES）分析结果表明,《医学文献检索与利用》课程干预后,医学生的信息素养整体以及各维度的水平均有显著性改善。最终形成的标准化测评工具能够用于医学生信息素养水平的测量。相似文献

18.

基于资源利用分析的馆藏优化对策——以山西医科大学汾阳学院为例

何美卿《晋图学刊》2014,(1):19-24

充分利用馆藏资源为读者提供服务是高校图书馆工作的重要内容。以资源利用的原始数据为基础,通过对山西医科大学汾阳学院图书馆馆藏资源的利用情况进行统计分析和全面研究,针对读者需求,结合实际提出了馆藏优化对策。相似文献