期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

宣照国党延忠《情报学报》2008,27(5)

在文本分类的实际应用中经常使用粗略分类的数据来训练分类器,但是这种数据中经常会包含类别标记有误的数据,这些数据对文本分类结果的精度会造成不良影响。本文针对这个问题提出了一种噪声修正算法,首先建立文档关联网络,把文档上标记的类别作为在网络上划分的集团结构,并用模块度衡量集团结构的质量,通过优化模块度指标把噪声数据调整到合适的类别中,从而提高数据质量。实验结果表明,本文所提算法能够有效修正粗分类数据中的噪声,且有较高的有效性和鲁棒性。该算法可以用于文本分类训练数据的预处理,或作为辅助技术用于文献库建设等工作。相似文献

2.

基于训练集裁剪的加权K近邻文本分类算法

下载免费PDF全文

孙新欧阳童严西敏尚煜茗郭文浩《情报工程》2016,2(6):008-016

文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(K-Nearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。相似文献

3.

一种基于内容规则的网页去噪算法*

王建冬王继民田飞佳《现代图书情报技术》2008,24(3):51-54

提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。相似文献

4.

一种基于频次统计特性的兼类噪声消除方法

蔡巍王永成尹中航李伟《情报学报》2004,23(4):399-403

本文着重研究了自动分类知识库中因为样本兼类而引起的存在于概念类频中的噪声 ,提出了借助于统计特性来修正概念类频的算法。在进行理论分析的基础上 ,本文讨论了算法的实现步骤 ,并通过对新闻语料的分类实验 ,检验了降噪效果。实验显示 ,本方法可以减少兼类概念在知识库中的冗余次数 ,提高自动分类系统的性能指标相似文献

5.

面向FAQ文档的轻量级聚类算法

马连浩杨鑫华李荣键《图书情报工作》2008,52(1):117-117

文档聚类分析是组织文档的一种有效方法,在信息处理中被广泛应用于未知话题的自动发现并取得不错的效果。本文提出了一个轻量级聚类算法。该算法利用减小原始文档的索引数,来处理大量小文档,并把它们分组到几千个簇,或者通过更改特定参数,将聚类簇的数量减小到几十个。理论分析和实际应用表明,该算法改善了对高维数据和大量小文档处理效率。相似文献

6.

一种基于主题词表的快速中文文本分类技术 总被引：1，自引：0，他引：1

刘新刘任任《情报学报》2008,27(3)

针对中文文本的自动分类问题,提出了一种新的算法.该算法的基本思路是构造一个带权值的分类主题词表,该词表采用键树的方式构建,然后利用哈希杂凑法和长词匹配优先原则在主题词表中匹配待分类的文档中的字符串,并统计匹配成功的权值和,以权值和最大者作为分类结果.本算法可以避开中文分词的难点和它对分类结果的影响.理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平. 相似文献

7.

一种基于k-最近邻的无监督文本分类算法 总被引：2，自引：0，他引：2

余小鹏马费成《情报学报》2008,27(4)

k-最近邻分类(KNN)是一种广泛使用的文本分类方法,但是该方法并不适用分布不均匀的数据集,同时对k值也比较敏感.本文分析了传统KNN方法的不足及产生这些不足的根本原因,并提出一种无监督的KNN文本分类算法(UKNNC).该方法先采用误差平方和准则自适应地从k个最近邻居所包含的各类别中挑选与输入文档于同一簇的部分邻居作为参照,然后根据输入文档对各类参照邻居核密度的扰动程度进行分类.实验证明该方法具有更高的分类质量,能够有效适用于分布复杂的数据集,同时分类结果对k值不敏感. 相似文献

8.

基于特征权重优化的改进KNN Web文本分类算法

王煜白石王正欧《情报学报》2007,26(5):643-647

本文提出了一种基于权重优化的样本相似度测量的距离公式,改进了KNN文本分类算法.KNN算法通常采用传统的VSM模型,各个特征具有相同的权重,使其不适应于文本处理的环境.本文首先根据神经网络理论,采用灵敏度方法对文本特征向量的每个特征的权重进行修正,并且采用降低运算量的神经网络特征选择方法进行第二次降维处理.然后根据同一特征对不同类别的文本类的分类作用不同,对距离公式中的特征权重进行进一步改进,从而进一步提高了KNN文本分类算法的精度. 相似文献

9.

视频元数据全文检索系统的研究与实现 总被引：3，自引：0，他引：3

陈玮陆达《情报学报》2004,23(1):32-35

本文阐述了采用XML文档按照MPEG 7标准描述视频数据的趋势 ,研究了适合于半结构化视频描述的全文检索索引结构。该索引保存了文档中的结构信息 ,从而可以对视频数据进行全方位多层次的查询。提出了一些缩减索引空间的策略和算法。相似文献

10.

一种基于泊松估计的可控特征选择算法

高影繁王惠临《情报学报》2010,29(3)

特征选择是文本分类的关键技术之一.本文提出一种基于泊松估计的可控特征选择算法,该算法以基于泊松假设估算的文档频率作为衡量特征语义信息的依据,以通信领域中的信息率失真理论作为可控特征选择的思想来源.在Reuters-21578新闻语料上进行的实验结果表明,基于泊松估计的特征选择算法性能优于基于语义的WN算法和同样基于统计的IG、Chi2等算法;在以特征漏选率作为信息率失真函数的前提下,设定分类算法分类指标下限值,则可以通过改变特征漏选率得到任意的分类精度值.实验表明本文算法在与相关算法的对比中存在优势.算法思想来源于通信领域中的信息率失真理论,也是一种在领域融合方面的崭新尝试. 相似文献

11.

国内文本分类研究论文的统计分析 总被引：1，自引：0，他引：1

王志玲王效岳《图书情报工作》2006,50(11):136-138

介绍文本分类是一个跨信息检索、机器学习和计算语言学的综合研究领域，是信息处理的重要研究方向，指出它在自动标引、信息检索、文本过滤和文献组织等领域中有着广泛的应用;并通过应用文献计量学的方法对1998-2005年国内文本分类的研究论文进行统计分析，探讨近年来我国文本分类研究现状和主要发展趋势。相似文献

12.

WWW中文信息自动分类方法研究 总被引：6，自引：0，他引：6

郑家恒宋文中《情报学报》2002,21(5):532-536

本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按可信度最大归类。对 10 8篇试语料进行测试 ,封闭测试的归类正确率为98 1% ,开放测试的正确率为 83 3%。相似文献

13.

基于语义网络社团划分的中文文本分类研究

尹丽英赵捧未《图书情报工作》2014,58(19):124-128

为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。相似文献

14.

对小样本集进行分类技术研究 总被引：2，自引：0，他引：2

杨传耀张文德《情报学报》2004,23(2):142-146

随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具 ,文本自动分类系统是信息处理的重要研究方向。本文介绍了当今世界上较先进的“变换支持向量机”(TSVM ,transductivesupportvectormachines)技术 ,它与普通的“支持向量机”(SVM)相比 ,TSVM方法所需的样本量大大降低 ,它能有效地对小样本数据集进行分类 ,同时重点分析了实现它的关键技术、算法及其实现过程相似文献

15.

一个中文文本自动分类数学模型 总被引：9，自引：1，他引：8

曹素青曾伏虎曹焕光《情报学报》1999,18(1)

本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合（ＬｉｎｅａｒＬｅａｓｔＳｑｕａｒｅＦｉｔ,ＬＬＳＦ）技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。相似文献

16.

基于词典约简及多分类算法的文本分类系统的设计与开发 总被引：3，自引：1，他引：2

白振田侯汉清《情报学报》2008,27(3)

文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一.本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施.具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等.通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性.本文详细讨论了相关改进措施的原理、实现算法、流程及存在的问题. 相似文献

17.

多类多标签汉语文本自动分类的研究 总被引：9，自引：0，他引：9

施彤年卢忠良荣融王家云《情报学报》2003,22(3):306-309

本文提出了一种高效的汉语文本分类方法 ,并在实验中收到了良好的效果。由于汉语文本的特殊性 ,在训练前对训练文本进行自动分词和降维预处理。许多文本往往可能归到多个类 ,分类算法采用改进的Boosting算法。实验表明 ,在多类多标签的汉语文本特征提取和文档分类中 ,该算法收敛快、准确性高、综合效果较好相似文献

18.

Hierarchical Text Categorization Using Neural Networks 总被引：8，自引：1，他引：7

Miguel E. Ruiz Padmini Srinivasan 《Information Retrieval》2002,5(1):87-118

This paper presents the design and evaluation of a text categorization method based on the Hierarchical Mixture of Experts model. This model uses a divide and conquer principle to define smaller categorization problems based on a predefined hierarchical structure. The final classifier is a hierarchical array of neural networks. The method is evaluated using the UMLS Metathesaurus as the underlying hierarchical structure, and the OHSUMED test set of MEDLINE records. Comparisons with an optimized version of the traditional Rocchio's algorithm adapted for text categorization, as well as flat neural network classifiers are provided. The results show that the use of the hierarchical structure improves text categorization performance with respect to an equivalent flat model. The optimized Rocchio algorithm achieves a performance comparable with that of the hierarchical neural networks. 相似文献

19.

基于字频向量的中文文本自动分类系统 总被引：15，自引：3，他引：12

王梦云曹素青《情报学报》2000,19(6):644-649

本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字一类别两个向量空间的映射函数,并用该函数对测试文本进行分类。相似文献