首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
吴波 《鸡西大学学报》2009,9(5):151-152
介绍了网络环境下文本自动分类的过程,针对文本信息自动分类的研究方法,分析了当前我国文本信息自动分类研究中存在的问题,提出了其未来发展的趋势。  相似文献   

2.
文本分类是情报检索的基础性工作,它的任务是在给定的分类体系下,根据分类的文本所描述的内容,来确定该文本所属的类别,从而提高信息检索的速度和准确度。本文从实用的角度出发,以具有确定分类标准的关键词分类为应用背景,模仿人工分类的思想,采用一种较简单的通过给主、次关键词分别赋予不同的权重进行文献分类的方法,构建了一个文本分类的实验系统,该系统简化了文本自动分类的繁杂技术,克服了人工分类的不足,可用于管理计算机科学专业的毕业生论文。实验表明,此系统得到了较高的分类准确率。  相似文献   

3.
文本分类是实现网络资源快速分类的一项关键技术。通过对文本分类、网络教学资源、基础教学网络环境进行分析,针对网络教学资源的特点,提出了一个Rocchio算法的网页自动分类模型,并在基础教学网络环境下进行了仿真实验。实验结果表明,该模型能获得较好的分类效果,适合于基础教学资源的分类。  相似文献   

4.
文本分类是情报检索的基础性工作,它的任务是在给定的分类体系下,根据分类的文本所描述的内容,来确定该文本所属的类别,从而提高信息检索的速度和准确度.本文从实用的角度出发,以具有确定分类标准的关键词分类为应用背景,模仿人工分类的思想,采用一种较简单的通过给主、次关键词分别赋予不同的权重进行文献分类的方法,构建了一个文本分类的实验系统.该系统简化了文本自动分类的繁杂技术,克服了人工分类的不足,可用于管理计算机科学专业的毕业生论文.实验表明,此系统得到了较高的分类准确率.  相似文献   

5.
提出了一种基于机器学习的Web文本自动分类的架构,提出了中文Web文档自动分类的主要技术问题。介绍了中文Web文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。最后对中文Web文档自动分类器进行了实验。  相似文献   

6.
通过对文本分类的相关技术进行深入研究 ,提出了一种基于VSM的中文网页自动分类模型的构造方法  相似文献   

7.
利用RBF网络进行文本自动分类,对训练集进行聚类,使得每个簇内部的相似性尽可能高,而簇之间的相似性尽可能低.为每一个簇的中心定义相应的径向基函数,再对由这些径向基函数构成的两层神经网络进行训练.因考虑到了不同簇之间的差异性,因此很好解决"兼类"问题.  相似文献   

8.
把粗糙集与神经网络结合,应用于文本分类,可以充分发挥两种方法的优势,取长补短,粗糙集理论可以有效地对样本集进行约简,从而简化了神经网络的结构,减少了网络的训练次数,学习速度和分类精度明显提高,并用仿真实验验证了此方法的有效性.  相似文献   

9.
文本自动分类技术是自然语言处理的一个重要的应用领域,是替代传统的繁杂人工分类方法的有效手段和必然趋势.本文简要介绍了文本分类的特征提取算法,并通过实验比较了各种提取算法在KNN中的性能.实验表明IG、MI、CE、χ2、WE五种特征提取方法在KNN分类器中性能接近,互信息(MI)特征提取方法随着特征数的提高分类性能提高地较快,当特征数目较小的时候分类性能极差.  相似文献   

10.
通过对文本分类的相关技术进行深入研究,提出了一种基于VSM的中文网页自动分类模型的构造方法。  相似文献   

11.
在迅速增加的海量数据中,文本形式的数据占很大比重。文本分类作为最常见的文本挖掘技术,可在大量杂乱的文本数据中发现有价值的信息,具有重要意义。文本分类面临的首要问题是如何在确保分类准确率的同时缩短分类时间。提出使用分类模型FastText学习单词特征以解决该问题,同时在数据集上使用停用词处理方法降低噪声数据对分类模型的影响。实验结果表明,使用FastText文本分类模型在数据集上准确率达到96.11%,比传统模型提高近4%,且模型处理每条文本的平均时间为1.5ms,缩短了约1/3。  相似文献   

12.
文本分类是自然语言处理中的一项重要基础任务,指对文本集按照一定的分类体系或标准进行自动分类标记。目前网络文化监督力度不够、不当言论不受限制,导致垃圾评论影响用户体验。因此提出一种基于注意力机制的CLSTM混合神经网络模型,该模型可以快速有效地区分正常评论与垃圾评论。将传统机器学习SVM模型和深度学习LSTM模型进行对比实验,结果发现,混合模型可在时间复杂度上选择最短时间,同时引入相当少的噪声,最大化地提取上下文信息,大幅提高评论短文本分类效率。对比单模型分类结果,基于注意力机制的CLSTM混合神经网络模型在准确率和召回率上均有提高。  相似文献   

13.
Web文本挖掘是数据挖掘技术在网络信息处理中的一个重要应用,如何将web文档转换成数据挖掘所要求的格式,即web文档预处理是一项很重要的研究课题.本文的方法是:从Internet网上下载了大量的网页文件,将网页文件转换成文本文件,然后通过算法对这些文本文件中的数据进行词频统计,删除非用词,去掉高频词,对单词进行词根处理,建立用词词表,从而抽取用词,按字母排序生成词频索引,和字典文件进行对照,获取单词的ID,最后生成Reuters-21578的Database数据格式.这样就将web文档数据转换成标准的数据集,以便为数据挖掘中分类、聚类作好准备.  相似文献   

14.
朴素贝叶斯文本分类模型是一种简单而高效的文本分类模型,但是它的独立性假设属性使其无法表示现实世界属性之间的依赖关系,从而影响它的分类性能。这里提出一种改进的基于贝叶斯定理的文本分类模型——“树桩网络(Stump Network)”,并将该方法与朴素贝叶斯文本分类器和TAN(Tree Augmented Naive Bayes)文本分类器进行实验比较,结果表明,在大多数数据集上该文本分类方法具有较高的分类正确率。  相似文献   

15.
词相似度计算在文本分类等自然语言处理众多任务中有广泛应用,为了提高准确率并将其应用于文本分类任务中,提出基于知网与同义词林以及基于nGram训练大规模语料相结合的方法,通过词义演化技术检测词义变化确定两种方法的权重,利用皮尔逊相关系数对比人工定义词语相似度。通过实验将该方法与基于知网和同义词林的方法进行对比,根据随时间改变而词义有无变化选取15对词语进行测试,结果表明后者比前者提高了28%。由此可以看出,基于语料与语义词典的方法明显比单纯基于语义词典的方法好,但仍有较大改进空间。  相似文献   

16.
Processing strategies or text adjuncts that are mnemonically effective with some types of text produce no benefits with other text types. A framework for understanding these seemingly inconsistent mnemonic effects across different types of text is presented. The framework suggests that two types of conceptual elaboration are important for free recall: individual-item processing and relational processing. The mnemonic effectiveness of text adjuncts or other manipulations to increase elaboration of a text will depend on: (1) the type of conceptual elaboration induced by the particular text adjunct or study strategy; (2) the type of elaboration invited by the text itself; and (3) the overlap between the processing induced by the text adjunct or study strategy and the processing invited by the text itself. Significant enhancement in recall is anticipated only to the extent that the text adjunct or study strategy encourages processing that is complementary to the processing invited by the material itself. The viability of this framework is demonstrated in a review of the pertinent literature on the mnemonic effects of encoding difficulty. Then, research stimulated by the framework that uses educationally relevant study and text adjuncts (embedded questions, outlining, adjunct pictures) is reviewed. Predictions generated by the framework are consistently upheld.  相似文献   

17.
农业短文本中包含词数较少,导致语义获取不充分和分类效果下降。利用 Attention 机制加强关键词在分类时的权重,并结合 BiLSTM 设计 LSTM-Attention 模型。对 30 000 份原始数据经过中文分词、句法分析、文本向量化后,将 LSTM-Attention 模型训练成一个 LSTM-Attention 分类器,解决分类器对待分类文本数据敏感的问题。利用 30 000 份标准数据和加 30%干扰信息的复杂数据测试分类器分类效果,结果表明,LSTM-Attention 模型分类正确率达 98.59%,比传统 LSTM 模型高 3.72%,比 BiLSTM 模型高 1.61%,说明使用 BiLSTM 结 合 Attention 机制能够有效提升农业短文本分类效果。利用不同测试数据对 LSTM-Attention 分类器测试发现,LSTM-Attention 分类器具有良好收敛性,其分类效果不依赖于分类数据特征,分类效果稳定性佳。  相似文献   

18.
对文本分类技术进行研究,首先介绍文档频数特征词评价方法;然后提出一种词分布均衡度评价的特征词选取方法,最后分析基于词分布均衡度评价的支持向量机文本分类算法,并实验证明其优越性.  相似文献   

19.
The authors explored elementary students' comprehension of informational text in disciplinary learning. Forty on-grade-level readers in Grades 2–5 participated. A priori and emergent coding was used to analyze 120 verbal protocols and 120 oral recalls. Analyses of variance and correlations showed students' processing and recall of procedural text contrasted with their processing and recall of biography or persuasive text. Also, second-grade students did not process informational text as actively or recall informational text as well as third- through fifth-grade students did. An expanded focus on students' comprehension of informational text in disciplinary learning and further study of the relationships among students' text use, text processing and recall, and development are warranted.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号