首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 0 毫秒
1.
TF-IDF是一种常用的文本特征选择方法。基于该模型的特征选择思想,以特征项的类内分布、类间分布信息为依据,通过引入类内分布及类间分布权重因子对模型的TF及IDF部分进行加权,提出一种基于类别分布信息的文本特征选择模型。新模型使得TF部分含有类内文本频数信息,同时IDF部分含有特征项的类间频数信息。随后的文本分类试验表明,平均查全率、查准率分别提高6.4%、7.8%,F1值提高约7%,验证了本研究提出的基于类别分布的文本特征选择模型的有效性。  相似文献   

2.
一种基于类别信息的文本自动分类模型   总被引:2,自引:0,他引:2  
从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。  相似文献   

3.
文本特征降维对文本分类的精确性有着非常重要的影响.本文针对传统的TF-IDF没有考虑特征项的类间分布状况以及对类属低频词的抑制现象、MI在训练样本类别分布偏斜条件下的不足问题分别进行了改进,进而提出了一种基于类别的组合型文本特征选择算法.随后的文本分类试验表明,本文提出的加权模型相比较于传统的TF-IDF以及MI方法可以有效提高文本分类的精度.  相似文献   

4.
基于潜在语义分析和改进的HS-SVM的文本分类模型研究   总被引:1,自引:0,他引:1  
张玉峰  何超 《图书情报工作》2010,54(10):109-113
为提高文本分类的准确性与效率,提出一种基于潜在语义分析和改进的超球支持向量机的文本分类模型。该模型利用潜在语义分析进行特征抽取,消除同义词和多义词在文本表示时所造成的偏差,实现文本向量的降维。针对超球重叠区域的文本分类问题,设计一种新的决策方法-基于密集度的决策策略。实验结果表明,该模型在类别数目较小时具有较好的分类效果,改进的算法有效可行。  相似文献   

5.
深入分析知识研究的基本知识单元,对知识单元的概念、特性、载体及抽取过程做详细阐述,提出知识计量研究中的知识单元的定义与特性,对知识单元的独立性、组合性、链接性、多维性、外显性、可测性进行详细说明.根据知识单元特性以及中文文献特点,提出一种基于词长和位置考虑的TF/IDF多因素改进算法,以<半导体光电>期刊1999~2006年数据为实例,对比分析了传统TF/IDF特征词抽取方法与改进后特征词抽取算法,分析结果表明,基于词长和位置的TF/IDF多因素改进算法显著提高了知识单元抽取效率和准确性.  相似文献   

6.
特征降维是文本分类面临的主要问题之一。首先通过 分布对特征项进行选择,然后使用一种改进的基于密度聚类方法对选择后的特征项进行聚类,借助类别分布信息,在尽量减少信息缺失的前提下先后两次对文本特征维数进行了压缩;在基于类别概率分布的模式下实现文本的矩阵表示,借助矩阵理论进行文本分类。试验结果表明,该方法的分类效率较高。  相似文献   

7.
KNN算法是文本分类中广泛应用的算法.作为一种基于实例的算法,训练样本的数量和分布位置影响KNN分类器分类性能.合理的样本剪裁以及样本赋权方法可以提高分类器的效率.提出了一种基于样本分布状况的KNN改进模型.首先基于样本位置对训练集进行删减以节约计算开销,然后针对类偏斜现象对分类器的赋权方式进行优化,改善k近邻选择时大类别、高密度训练样本的占优现象.试验结果表明,本文提出的改进KNN文本分类算法提高了KNN的分类效率.  相似文献   

8.
文本分类中一种基于选择的二次特征降维方法   总被引:4,自引:2,他引:2  
特征选择和特征抽取是文本分类中特征降维的主要方法.目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果.本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的.对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好.  相似文献   

9.
文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(K-Nearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。  相似文献   

10.
KNN分类算法改进研究进展   总被引:5,自引:0,他引:5  
指出传统KNN(k-nearest neighbor)算法的两大不足:一是计算开销大,分类效率低;二是在进行相似性度量和类别判断时,等同对待各特征项以及近邻样本,影响分类准确程度.针对第一点不足,提出三种改进策略,分别为:基于特征降维的改进、基于训练集的改进和基于近邻搜索方法的改进;针对第二点不足,提出两种改进策略,分别为:基于特征加权的改进和基于类别判断策略的改进.对每种改进策略中的代表方法进行介绍并加以评述.  相似文献   

11.
关于期刊论文作者信息著录的建议   总被引:5,自引:1,他引:4  
刘茂生  张丽云 《编辑学报》2002,14(4):258-259
我国期刊论文关于作者的信息增加了不少内容,做好作者信息著录是适应信息时代的需要,是提高编辑质量的一项重要工作.提出了关于期刊论文作者信息著录的建议.  相似文献   

12.
[目的/意义]现有新闻文档实体排序研究大多以文档或实体为中心,如文本分类、实体链接等,关注实体在文本中的重要性的研究较少,本研究探讨基于重要性的新闻文档实体排序。[方法/过程]给定一篇文档,判断文档中实体相对文档而言的重要性,并基于此对实体进行排序。在搜狗全网新闻数据集上进行实验,并利用NDCG和逆序对比率两个指标对实体排序结果进行评价。[结果/结论]实验结果表明,基于实体频率、TF*IDF、信息熵、TextRank等的方法以及集成方法都达到了较好的效果,基于聚集系数的方法效果一般。其中基于TF*IDF的方法NDCG值为95.86%,是该指标下的最好结果;基于集成方法的逆序对比率值为84.46%,是该指标下的最好结果。  相似文献   

13.
基于危机管理的图书馆联盟研究   总被引:3,自引:0,他引:3  
图书馆联盟能够在危机管理中发挥基础性作用,基于危机管理的图书馆联盟是将图书馆联盟应用于危机信息管理领域,利用其资源共建共享等功能促进危机信息资源的保障、传播与发布,发挥图书馆联盟在危机信息管理中的一种组织形式,具有信息资源保障的完备性、信息服务提供的及时性、信息服务提供的权威性、社区干预的有效性等特点,具有危机信息资源管理和保障、危机信息分析和发布、危机信息评估和反馈等作用,可以提供预案管理、危机信息发布、参考咨询、危机安全教育、社区恢复干预等服务.  相似文献   

14.
设计面向综合性中文叙词表本体的叙词概念定义抽取方法,获得良好的实验效果并已投入实际应用。其中,基于"高频词与句子向量"和"TF*IDF向量"两种定义抽取算法提出的二维相对量的融合算法,能够更有效地抽取出前两种方法的良好结果,有效信息提高比一般可达到60%。  相似文献   

15.
在对传统情报服务模式进行反思的基础上 ,分析了过渡时期情报服务模式的演变特征 ,探讨了在社会主义市场经济条件下 ,构建情报社会化服务模式的原则 ,并提出了培育信息市场、建立以竞争情报为主体的情报经营服务体系和大力发展信息技术、加速手段现代化等模式优化对策  相似文献   

16.
一种用于主题提取的非线性加权方法   总被引:15,自引:0,他引:15  
韩客松  王永成 《情报学报》2000,19(6):650-653
主题提取是文本处理的一项重要工作。本文首先分析了主题抽取中加权方法形成时的一些定量问题,然后提出了主题相关词一种非线性加权处理方法,对比实验结果显示它不仅是一种比较稳健的方法,而且能在一定程度上提高主题提取的正确率。  相似文献   

17.
图书馆在网络新闻中展现出的社会形象对公众感知图书馆、使用图书馆具有重要意义。文章考察近20年新浪新闻报道的图书馆新闻,首次使用网络新闻作为数据来源,采用LDA主题模型方法建模,以探测、排序及归纳主题。文章归纳七类高价值主题:实体书籍业务、业界会议、地区图书馆、图书馆与政府部门合作、图书馆公众文化宣传、图书馆爱心公益、特殊群体图书馆,提出图书馆借助媒体建立社会形象建议。  相似文献   

18.
分析了网络环境下关键词的地位,并提出了其标引原则,指出了关键词应能清晰地提示论文主题内容、反映科技论文的创新性、表征论文的主题内容、为用户提供完整的信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号