首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
【目的】文章比较多个基于深度神经网络的中文新闻文本分类模型,旨在找到准确度较高的方法用以实际工作,为中文新闻文本分类提供更加高效的方法。【方法】对文本分类技术和中文新闻分类进行了梳理和归纳,对中文新闻文本的特征和预处理进行了阐述,详细介绍FastText算法、Bert分类算法、TextCNN算法和TextRNN算法。【结果】四种深度神经网络算法均可以应用于中文新闻文本分类,可以有效处理信息紊乱问题以及快速准确进行分类。【结论】通过对四种深度神经网络算法进行试验和效果对比,发现FastText模型在实际工作中的文本分类效果最为优异。  相似文献   

2.
简单介绍了文本分类的定义及应用,针对文本信息自动分类的研究动态,分析了当前我国文本信息自动分类研究中存在的问题,提出进一步完善文本自动分类的建议和方法。  相似文献   

3.
国内文本分类研究论文的统计分析   总被引:1,自引:0,他引:1  
介绍文本分类是一个跨信息检索、机器学习和计算语言学的综合研究领域,是信息处理的重要研究方向,指出它在自动标引、信息检索、文本过滤和文献组织等领域中有着广泛的应用;并通过应用文献计量学的方法对1998-2005年国内文本分类的研究论文进行统计分析,探讨近年来我国文本分类研究现状和主要发展趋势。  相似文献   

4.
Web文本分类技术研究现状述评   总被引:1,自引:0,他引:1  
本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发展等进行了深入探讨;并对Web文本分类过程的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法进行了分析;最后总结了Web文本分类技术存在着新分类方法不断涌现、传统分类方法的进一步发展、文本、语音和图像分类技术的融合等几种发展趋势,以及存在着分词问题、目前还没有发现"最佳"的特征选择等研究的不足之处。  相似文献   

5.
文本自动分类的测评研究进展   总被引:6,自引:0,他引:6  
分类是文本挖掘的基础和核心,是近年来数据挖掘和网络挖掘的一个研究热点。本文从定性和定量两个方面,介绍国内外文本分类研究现状,分析影响文本分类的重要因素,希望通过对文本分类系统和算法的评测总结发现研究中存在的共同问题,为文本自动分类的优化、改进提供理论和事实依据。  相似文献   

6.
Web自动文本分类技术研究综述   总被引:1,自引:0,他引:1  
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势.  相似文献   

7.
[目的/意义] 对引文文本分类的标准、实现方法和应用进行梳理,分析存在的问题,提出可改进的方向。[方法/过程] 总结目前引文文本分类的几个重要角度,如基于引用功能、基于情感倾向、基于引文影响力等,对引文文本分类的实现方法进行比较,分析其优缺点。[结果/结论] 目前引文文本没有统一的分类标准和实现方法,引文文本的获取较为困难,计算机分类算法准确率较低,中文引文文本分析文献少。未来研究思路和方向应该是:统一文本分类的标准,提高引文文本计算机处理技术的准确性,扩大应用范围。  相似文献   

8.
Web文本挖掘浅析   总被引:7,自引:0,他引:7  
首先讨论Web挖掘与Web信息检索的关系,然后重点分析Web文本挖掘,并提出Web文本挖掘的方法,包括文本特征表示、文本分类和文本聚类。最后,提出了利用Web挖掘技术实现Web智能化服务和挖掘引擎的应用。  相似文献   

9.
Web内容挖掘在数字图书馆中的应用   总被引:3,自引:1,他引:3  
黎琳  赵英 《图书馆学研究》2006,(2):19-21,24
Web信息是数字图书馆数字资源的重要来源,文章详细阐述了对Web内容中的文本信息的挖掘,包括:文本自动摘要、文本分类和文本聚类。在挖掘过程中基于用户需求和用户特征,针对文本分类,重点分析了分类过程和在数字图书馆中的应用;针对文本聚类,介绍两种基本聚类原理以及与文本分类的不同之处,重点论述其在数字图书馆中如何应用。最后提出内容挖掘与用户挖掘的结合更有助于服务用户。  相似文献   

10.
基于机器学习的自动文本分类模型研究   总被引:2,自引:0,他引:2  
基于机器学习的方法是自动文本分类中非常重要的一大类方法。本文先给出了形式化的定义,提出了自动文本分类的流程模型,然后选取了支持向量机(Support Vector Machine,SVM)算法作为一个典型例子进行分析,最后作者通过一个中文文本分类实验评价了该算法的效果。  相似文献   

11.
根据互信息、RBF神经网络和关联规则原理,提出了一种抽取WEB文本分类规则的新方法。先根据互信息选择和各类相关程度大的若干词条,然后采用RBF神经网络方法对选择的特征进行进一步提取,得到维数较小的文本特征向量空间。之后再根据挖掘出的关联规则获取WEB文本分类规则,建立文本分类器,在保证了分类精度的前提下抽取出利于理解的文本分类规则。  相似文献   

12.
网络信息分类组织发展趋势探析   总被引:17,自引:1,他引:16  
分析网络信息分类组织在类目体系构建方面涉及的主要问题,在调查和访谈的基础上指出网络信息分类组织发展的新趋势,并提出改进和完善它的建议。  相似文献   

13.
分面分类在网络资源组织中的应用   总被引:15,自引:1,他引:14  
针对网络信息资源的特点,构想在网络信息资源组织中使用分面分类的几种方式,包括在编制分类搜索引擎的分类表时使用复分表、仿分,在信息标引中使用分面叙词表,在综合性分类搜索引擎的检索界面上部分使用分面分类思想,在专业性搜索引擎检索界面上完全使用分面分类表进行可视化检索等。  相似文献   

14.
[目的/意义] 从专利分类修订角度研究技术演化,为技术演化研究提供新思路。[方法/过程] 首先根据IPC分类表H部2009-2018年的修订情况,总结出新增分类、删除分类、类内转移分类、类间转移分类4种修订类型。其次针对分类修订后产生的过档文献提出基于Word2vec+TextCNN模型的过档文献再分类方法,使新旧版分类表通过再分类专利产生衔接。最后结合H部2009年-2018年被修订分类及再分类专利进行技术演化初步探索。[结果/结论] 专利再分类模型可有效解决过档文献问题,为专利再分类工作提供参考,同时可衔接新旧版专利分类表;结合IPC分类修订及再分类专利可分析分类修订中的主要技术演化方向,为技术演化研究提供新视角。  相似文献   

15.
The Bahi'i World Centre Library developed a classification for Bahi'i materials by expanding the Library of Congress BP300-395 section. With the development of a computerized cataloguing system (called MAGE) at the Bahi'i World Centre Library, and particularly with the review of authorities for Bahi'i subject headings, this classification has been further modified. The experience provides an interesting example of how the process of computerization can affect classification schemes.  相似文献   

16.
科技论文自动分类知识库的构建   总被引:2,自引:0,他引:2  
吴起立 《图书情报工作》2003,47(5):38-39,62
认为可利用人工智能方法自动分类,以解决信息分类的瓶颈问题。  相似文献   

17.
本文以欧盟的Renardus项目为例,分析了分类法映射技术在学科信息门户交叉浏览中的应用,包括:分类法映射的模式、通用分类法的选择、分类法类目映射关系的确立、分类对照表的生成、交叉浏览的显示结果等内容,以及该项目对我国学科信息门户建设的启示。  相似文献   

18.
《中图法》(第5版)计算机类目存在学科体系不完整、类目关系混乱、类目名称不规范、类目注释不当、编码错误等问题。本研究参照《学科分类与代码表》(GB/T13745-2009)和《国民经济行业分类》(GB/T4754-2017)对计算机科学和计算机产业的分类方法,依据计算机科学的体系结构和应用问题,从宏观上作了重新组织,措施得当,逻辑性强,有利于提高类目的实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号