共查询到20条相似文献,搜索用时 135 毫秒
1.
2.
文本分类是信息检索与数据挖掘领域的研究热点,近年来得到了广泛的关注和快速的发展.根据免疫否定选择原理,设计了基于掩码分段匹配的否定选择分类器,用于实现文本匹配选择分类,克服传统否定选择分类方法对大样本空间分类效果不好的缺点.给出了适用于免疫优化的分类规则编码及分类信息分的评价标准,避免了传统分类算法缺乏全局优化能力的缺点,提高了对样本的识别能力,同时提高了文本数据分类的精确度,采用统计显著性检验本文方法的有效性及优越性. 相似文献
3.
4.
文本分类作为处理和组织大量文本数据的关键技术,在信息过滤、信息检索、搜索引擎、数字图书馆等领域有着广泛的应用前景.基于文献计量法对1999~2008年间文本分类相关研究论文作了统计分析,按基础理论研究和应用研究两部分分别进行了深入的探讨,前者涉及了文本分类过程中的各种关键技术:文本预处理、文本表示、特征降维、分类算法、效果评估,后者则包括文本分类在各领域的应用研究和文本分类系统的设计与开发.文章深入地揭示了文本分类研究内容、发展历程、研究热点和理论成果,并对未来的研究趋势进行了预测. 相似文献
5.
Web自动文本分类技术研究综述 总被引:1,自引:0,他引:1
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势. 相似文献
6.
7.
8.
基于潜在语义分析和改进的HS-SVM的文本分类模型研究 总被引:1,自引:0,他引:1
9.
10.
将神经网络集成思想引入WEB文本分类领域,构造一个用于Web文本分类的多BP神经网络集成模型;详述模型的设计思路与结构框架,并分别在公有的英文数据集、实际的中文数据集上进行分类实验;与经典的SVM模型、KNN模型相比,神经网络集成模型具有更高的分类精度,且对于训练样本集规模具有更好的鲁棒性,不失为一种高效的文本分类新方法,研究其在文本分类领域的应用将是一个有前景的方向。 相似文献
11.
三种文档语义倾向性识别方法的分析与比较* 总被引:2,自引:0,他引:2
研究并实现三种文档倾向性识别的方法:基于情感词加权的方法、基于语义模式分析的方法和基于文本分类的方法。第一种方法利用特征词汇的情感语义倾向性。第二种方法对自然语言的句法结构进行简化,以获取合适粒度的倾向性语义模式。第三种方法则直接利用传统的基于文本分类的方法。通过在网络舆情分析系统中的具体实现,探讨这三种方法各自的不足和优势。 相似文献
12.
基于情感倾向识别的汽车评论挖掘系统构建 总被引:2,自引:0,他引:2
文本情感识别是一个具有广泛应用前景的研究领域,它在信息检索、文本过滤、产品在线跟踪评价、民情民意调查分析、智能教学系统中都有着广泛应用。而汽车情感识别正在成为人们日益关注的研究热点。本文利用文本分类技术,采用分步骤分模型的设计方法,构建出汽车情感倾向识别系统,通过对汽车评论进行挖掘和分析,识别其情感倾向和演化规律,并以可视化的界面将结果展现给用户,从而向汽车生产商提供反馈信息,同时可以为汽车消费者提供购车指导。另外本文还就汽车语料库的建立,分类模型的构建以及本系统构建过程中的一些关键问题进行了分析和探讨。 相似文献
13.
14.
研究语音信息内容分析的特点,对比文本信息分析处理的异同,对语音信息的内容分析技术进行综述并给出内容分析技术的体系框架,并对语音识别、情感信息的识别、语音识别分类等重难点技术进行研究。 相似文献
15.
16.
Web文本分类技术研究现状述评 总被引:1,自引:0,他引:1
本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发展等进行了深入探讨;并对Web文本分类过程的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法进行了分析;最后总结了Web文本分类技术存在着新分类方法不断涌现、传统分类方法的进一步发展、文本、语音和图像分类技术的融合等几种发展趋势,以及存在着分词问题、目前还没有发现"最佳"的特征选择等研究的不足之处。 相似文献
17.
[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括,针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题,本文在对学术文本层次结构进行解析的基础上,构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验,该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别,接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升,综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%,并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优,最后对学术文本结构功能错分情况进行了分析,指出本研究潜在的应用领域和下一步的研究方向。 相似文献
18.
提出了一种基于预抽取支持向量机及模糊循环迭代算法的改进的支持向量机(Support Vector Machines,SVM)的两类文本分类方法, 与传统的SVM相比, 该方法具有高得多的计算效率。文中给出了具体算法并将其用于文本分类中,实验表明了本算法用于文本分类的有效性及其高效率。 相似文献
19.
马芳 《现代图书情报技术》2011,(12):58-63
为减少人工分类的不确定性和分类错误,将文本分类技术引入专利自动分类系统,采用径向基函数神经网络(RBFNN)算法完成专利文本的训练和分类,并进行相关测试分析。实验结果表明,采用RBFNN分类器在专利文本自动分类中具有较理想的性能,测试平均F1值在70%以上。 相似文献
20.
[目的/意义] 在"新冠"疫情这类突发公共卫生事件中,网络社交媒体上迅速产生大量关于疫情的言论,其中包含不少蓄意传播的谣言,不仅危害公众心理健康,而且会影响应对公共卫生事件的方案实施。识别突发公共卫生事件的谣言能够使民众正确面对危机,为社会安定、网络治理起到积极的维护作用。[方法/过程] 首先对采集到的疫情期间已被证实的谣言进行深度分析,提取谣言文本的主要特征,包括上下文特征、话题类别特征、情感程度特征、关键词特征等;然后针对文本分类模型中的文本特征表达较为单一的问题,利用不同的模型对提取的谣言文本特征进行向量化,并对各类文本特征进行加强和融合。其中通过TF-IDF计算的词向量权重在捕获上下文特征的同时,能够加强词粒度的关键词特征信息。最后,使用BiLSTM+DNN模型对融合的特征向量进行分类判别。[结果/结论] 实验结果表明,话题类别、情感程度等特征对谣言识别均有贡献,特别是经过强化后的词向量与其他特征融合后对识别准确率有明显提升,召回率、F1值等指标均达到90%以上,效果超过其他的谣言识别模型,说明笔者所构建的方法能够很好地实现对突发公共卫生事件背景下的谣言识别。 相似文献