期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种主动学习和协同训练相结合的半监督微博情感分类方法 总被引：1，自引：0，他引：1

毕秋敏李明曾志勇《现代图书情报技术》2015,(1):38-44

【目的】针对微博情感分类时未标注样本多和已标注集少的问题,提出一种新的方法。【方法】在协同训练算法的基础上引入主动学习思想,从低置信度样本中选取最有价值的、信息含量大的,提交标注,标注完后添加到训练集中,重新训练分类器进行情感分类。【结果】使用不同的数据集进行实验,实验结果表明该方法所构建的分类器性能优于其他方法,分类准确率明显提高。特别是在已标注样本占40%的情况下,提升5%左右。【局限】在协同训练过程中使用随机特征子空间生成方法不能保证每次构建的两个分类器都是强分类器,因此未能充分地满足协同训练的假设条件。【结论】引入主动学习思想后,能够解决协同训练对低置信度样本处理的不足,进而增强分类器性能,提高分类准确率。相似文献

2.

融合实体信息的图卷积神经网络的短文本分类模型分析

王治学《信息系统工程》2023,(9):122-125

基于融合实体信息,建立图卷积神经网络模型,该模型结构分别由类别输出、特征学习、嵌入输入以及实体链接四个模块构成,将其应用于短文本分类,在实际操作中,可以利用实体链接工具对短文本中实体进行抽取,并在图卷积神经网络支持下,进行建模、拼接以及融合处理,最后完成短文本分类。相较于传统文本分类方法,前者不仅可以保证极高的分类准确率,其分类性能也明显优于目前文本分类领域中现有主流方法,对后续自然语言处理更进一步研究有着重要现实意义。相似文献

3.

运用图示法自动提取中文专利文本的语义信息 总被引：1，自引：0，他引：1

姜春涛《图书情报工作》2015,59(21):115-122

[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。相似文献

4.

融合语义联想和BERT的图情领域SAO短文本分类研究

张玉洁白如江刘明月于纯良《图书情报工作》2021,65(16):118-129

[目的/意义] 针对SAO结构短文本分类时面临的语义特征短缺和领域知识不足问题,提出一种融合语义联想和BERT的SAO分类方法,以期提高短文本分类效果。[方法/过程] 以图情领域SAO短文本为数据源,首先设计了一种包含"扩展-重构-降噪"三环节的语义联想方案,即通过语义扩展和SAO重构延展SAO语义信息,通过语义降噪解决扩展后的噪声干扰问题;然后利用BERT模型对语义联想后的SAO短文本进行训练;最后在分类部分实现自动分类。[结果/结论] 在分别对比了不同联想值、学习率和分类器后,实验结果表明当联想值为10、学习率为4e-5时SAO短文本分类效果达到最优,平均F1值为0.852 2,与SVM、LSTM和单纯的BERT相比,F1值分别提高了0.103 1、0.153 8和0.140 5。相似文献

5.

基于粗糙集加权的文本分类方法研究 总被引：6，自引：0，他引：6

胡清华谢宗霞于达仁《情报学报》2005,24(1):59-63

文本自动分类是当前智能信息处理中一类重要的研究课题。本文分析了基于统计理论的文本分类的基本特点,提出采用可变精度粗糙集模型中的分类质量构造新的特征词权重计算公式。这种新的加权方法,相对于广泛使用的逆文本频率加权方法,大大改进了文本样本在整个空间中的分布,使得类内距离减少,类间距离增大,在理论上将提高样本的可分性。最后利用支持向量机和K近邻两种分类器,验证了这种新的加权方法对分类效果确实有所提高。相似文献

6.

文本分类中基于训练样本空间分布的K近邻改进算法

刘海峰刘守生姚泽清《情报学报》2013,32(1)

KNN算法是文本分类中广泛应用的算法.作为一种基于实例的算法,训练样本的数量和分布位置影响KNN分类器分类性能.合理的样本剪裁以及样本赋权方法可以提高分类器的效率.提出了一种基于样本分布状况的KNN改进模型.首先基于样本位置对训练集进行删减以节约计算开销,然后针对类偏斜现象对分类器的赋权方式进行优化,改善k近邻选择时大类别、高密度训练样本的占优现象.试验结果表明,本文提出的改进KNN文本分类算法提高了KNN的分类效率. 相似文献

7.

文本分类器稳定性评估研究

程泽凯林士敏《情报学报》2005,24(1):64-68

文本分类是文本挖掘的基础和核心。构建一个分类准确而且稳定的文本分类器是文本分类的关键,很多学者提出了不同的文本分类器模型和算法。在现有的分类器评估方法中,关心的只是分类准确率,而对稳定性这个重要的评价标准却没有涉及。本文提出使用开放测试和封闭测试的准确性指标的比值作为衡量文本分类器稳定性的评估标准。通过文献数据验证以及在所建构的贝叶斯分类器实验平台MBNC上进行的检验表明,用这种标准评价文本分类器具有其合理性。相似文献

8.

基于LDA模型融合Catboost算法的文本自动分类系统设计与实现北大核心

刘爱琴郭少鹏张卓星《国家图书馆学刊》2023,32(5):84-92

互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost算法获得文档在主题上的概率分布,然后利用训练集提取出的隐含主题-文本矩阵进行分类器训练,最终构建文本分类系统。研究结果显示,该系统能够有效完成文本混合自动分类,分类误差率较低,分类性能明显优于传统的文本分类方法。相似文献

9.

微博短文本预处理及学习研究综述 总被引：1，自引：0，他引：1

王连喜《图书情报工作》2013,57(11):125-131

认为因短文本具有特征稀疏性和高度冗余性,微博短文本的预处理及学习方法研究已经成为微博信息挖掘及应用的关键,并在许多方面有着非常重要和广泛的应用。重点分析微博短文本的特性,并对微博短文本的预处理和学习方法及其应用现状进行归纳和总结,包括短文本特征表示、短文本特征拓展与选择、短文本分类与聚类学习、热点事件发现及自动文摘等。最后指出相关研究的局限性,并对未来的发展方向进行展望。相似文献

10.

基于概率主题模型的短文本自动分类系统构建

刘爱琴马小宁《国家图书馆学刊》2020,29(6)

互联网平台的蓬勃发展产生了以新兴媒体为承载的数字资源，如何从中有效实现知识检索、知识发现成为信息管理领域和互联网技术领域的一个重要课题。本文以《中国分类主题词表》为主题词受控表，首先从词的粒度层面对语料数据进行短文本信息挖掘，其次基于隐含狄利克雷分布（LDA）模型切分文本内容，最后依据词频统计实现主题词的提取、聚类，并通过共现矩阵构建短文本自动分类系统。该系统一方面有效地实现了知识的快速聚类和关联自动分类，另一方面为用户提供了满意度更高的知识发现服务及相关扩展服务。图8。表5。参考文献16。相似文献

11.

Using the Web as corpus for self-training text categorization

Rafael Guzmán-Cabrera Manuel Montes-y-Gómez Paolo Rosso Luis Villaseñor-Pineda 《Information Retrieval》2009,12(3):400-415

Most current methods for automatic text categorization are based on supervised learning techniques and, therefore, they face the problem of requiring a great number of training instances to construct an accurate classifier. In order to tackle this problem, this paper proposes a new semi-supervised method for text categorization, which considers the automatic extraction of unlabeled examples from the Web and the application of an enriched self-training approach for the construction of the classifier. This method, even though language independent, is more pertinent for scenarios where large sets of labeled resources do not exist. That, for instance, could be the case of several application domains in different non-English languages such as Spanish. The experimental evaluation of the method was carried out in three different tasks and in two different languages. The achieved results demonstrate the applicability and usefulness of the proposed method. 相似文献

12.

基于概念簇的文本分类算法

马甲林刘金岭金春霞《图书情报工作》2013,57(15):132

针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等缺陷所导致的分类效率低和精度不高的问题,以知网(HowNet)为知识库,构建语义概念向量模型SCVM(Semantic Concept Vector Model)表示文本,根据概念语义及上下文背景对同义词进行归并,对多义词进行排歧,提出基于概念簇的文本分类算法TCABCC (Text Classification Algorithm Based on the Concept of Clusters),通过改进传统KNN,用概念簇表示各个类别训练样本,使相似度的计算基于文本概念向量和类别概念簇。实验结果表明,该算法构造的分类器在效率和性能上均比传统KNN有较大的提高。相似文献

13.

多层次web文本分类 总被引：8，自引：0，他引：8

凌云刘军王勋《情报学报》2005,24(6):684-689

传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系。根据LSA理论提出了一种多层次web文本分类方法。建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根据相应的类模型存LS空间上分类。这种分类方法解决了LSA模型中高维矩阵难以进行奇异值分解的问题。同时体现了web文本中词条的语义关系,注重了词条在网页中的表现形式。实验表明,多层次web文本分类方法比基于平面分类体系的分类方法在查全率和准确率方面要好。相似文献

14.

基于BERT模型的科技政策文本分类研究

沈自强李晔丁青艳王金颖白全民《数字图书馆论坛》2022,(1)

在智慧政务的应用背景下,利用深度学习的方法对海量的科技政策文本数据进行自动分类,可以降低人工处理的成本,提高政策匹配的效率。利用BERT深度学习模型对科技政策进行自动分类实验,通过TextRank算法和TF-IDF算法提取政策文本关键词,将关键词与政策标题融合后输入BERT模型中以优化实验,并对比不同深度学习模型的分类效果来验证该方法的有效性。结果表明,通过BERT模型,融合标题和TF-IDF政策关键词的分类效果最佳,其准确率可达94.41%,证明利用BERT模型在标题的基础上加入政策关键词能够提高政策文本自动分类的准确率,实现对科技政策文本的有效分类。相似文献

15.

基于KNN的中文文本分类反馈学习研究

刘怀亮张治国马志辉赵捧未《图书情报工作》2008,52(10):101-104

本文依据KNN分类算法和反馈学习的思想,在分析中文文本分类过程的基础上,给出了基于反馈学习的中文文本分类模型和基于KNN的中文文本分类反馈学习过程。通过实验研究了反馈学习对中文文本分类模型性能的影响。结果表明,反馈学习是实时变化信息的一种有效的学习方法,它对训练不充分的文本分类器具有很大的改善作用。相似文献

16.

多层次融合的学术文本结构功能识别研究

王佳敏陆伟刘家伟程齐凯《图书情报工作》2019,63(13):95-104

[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括，针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题，本文在对学术文本层次结构进行解析的基础上，构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验，该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别，接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升，综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%，并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优，最后对学术文本结构功能错分情况进行了分析，指出本研究潜在的应用领域和下一步的研究方向。相似文献

17.

中国大学生的网络使用:基于大规模日志分析的模式识别新方法

严承希王军王珂《图书情报工作》2019,63(14):83-93

[目的/意义]深入挖掘和准确理解中国大学生日常网络行为模式，不仅对促进用户行为和检索领域的发展具有巨大的理论意义，而且在提升面向大学生用户的企业个性化服务与信息推荐能力方面也具有潜在的社会价值和实践意义。[方法/过程]提出一种基于大规模日志分析的大学生用户行为模式识别新方法，该方法包括一种基于深度学习和文本分析技术的半监督学习算法"MaxMatching"以及混合两种特征熵（香农熵与真实熵）的聚类模型。[结果/结论]实证结果表明本方法不仅在算法和结果解释上具有一定的优势，而且能从网络使用能力、访问时序性和主题倾向性三方面归纳与呈现中国大学生网络行为全方位模式。该方法和结论有效地拓展了信息检索领域查询项的语义化理解方面的方法体系，也为企业提升面向大学生用户的个性化信息推荐服务提供一定的参考和可行性意见。相似文献

18.

基于训练集裁剪的加权K近邻文本分类算法

下载免费PDF全文

孙新欧阳童严西敏尚煜茗郭文浩《情报工程》2016,2(6):008-016

文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(K-Nearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。相似文献

19.

Integrating External Knowledge to Supplement Training Data in Semi-Supervised Learning for Text Categorization

Mohammed Benkhalifa Abdelhak Mouradi Houssaine Bouyakhf 《Information Retrieval》2001,4(2):91-113

Text Categorization (TC) is the automated assignment of text documents to predefined categories based on document contents. TC has been an application for many learning approaches, which prove effective. Nevertheless, TC provides many challenges to machine learning. In this paper, we suggest, for text categorization, the integration of external WordNet lexical information to supplement training data for a semi-supervised clustering algorithm which can learn from both training and test documents to classify new unseen documents. This algorithm is the Semi-Supervised Fuzzy c-Means (ssFCM). Our experiments use Reuters 21578 database and consist of binary classifications for categories selected from the 115 TOPICS classes of the Reuters collection. Using the Vector Space Model, each document is represented by its original feature vector augmented with external feature vector generated using WordNet. We verify experimentally that the integration of WordNet helps ssFCM improve its performance, effectively addresses the classification of documents into categories with few training documents and does not interfere with the use of training data. 相似文献