首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对自然语言处理中普遍存在的特征缺失问题,提出了基于特征缺失补偿最大熵模型的文本分类方法.为避免数据稀疏时出现训练过适应,采用高斯先验平滑进行特征补偿,并提出基于条件最大熵计算增益和基于特征频数的混合特征选择方法.通过实验将本方法与中心法、最近邻、贝叶斯、SVM和平滑前的最大熵文本分类器进行了比较,实验结果表明基于特征缺失补偿最大熵模型分类器的综合性能超过以上算法.  相似文献   

2.
随着自然语言处理技术的快速发展,藏文信息处理技术也取得了较大进展。其中,藏文舆情分析作为藏族地区社会舆情分析的重要技术,受到广泛关注。但是,现有的藏文文本情感分析研究由于起步较晚,还存在很大提升空间。本文提出基于深度集成学习的藏文文本情感分析算法。并通过建立藏文情感数据集进行实验,本文算法在三类情感(正向、负向、中性)中精确率平均提升1.65%,召回率提升1.63%,F1分数提升1.96%。实验结果表明,本文采用的深度集成学习有效地提高了文本情感分类的性能。  相似文献   

3.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。  相似文献   

4.
[目的/意义]旨在为提高获取开源军事情报效率提供参考.[方法/过程]对互联网上的开源文本信息进行分析处理,利用基于机器学习的文本分类方法从中筛选出军事类文本信息,并分析文本向量空间模型与分类模型对于开源军事情报提取效果的影响.[结果/结论]文本分类方法具有较高的准确率、召回率、F-score,实现了中文开源军事情报的分...  相似文献   

5.
余敦一 《科技通报》2014,(4):191-193
提出一种基于改进TFIDF算法的海量文本分类识别方法,将特征之间的信息熵与特征内信息熵作为文本分类识别的加权因子,采用神经网络的非线性映射能力实现权值计算和TFIDF算法的模糊化,从而解决文本分类不准确和海量文本的分类问题。采用5个类别文档,每个类别5个文档,3个特征项来进行实际试验验证,结果表明,改进的TFIDF算法能够更好的实现文本识别分类,具有更小的方差特性,对随机文本分布具有更强的鲁棒性,收敛速度更快,具有很好的应用价值。  相似文献   

6.
王倩  曾金  刘家伟  戚越 《情报科学》2020,38(3):64-69
【目的/意义】在学术大数据的应用背景下,对学术文本更加细粒度、语义化的分析挖掘日益迫切,学术文本结构功能识别成为科研领域的一个研究热点。【方法/过程】本文从段落的层次来识别章节结构功能,提出利用结合卷积神经网络和循环神经网络的特征对学术文本段落进行表达,然后进行分类。【结果/结论】文本提出的深度学习方法在整体分类结果上优于传统的机器学习方法,同时极大的减少了传统特征工程的人力需求。  相似文献   

7.
王佳敏  吴乐艳  李鹏程  熊资  陆伟  杜佳 《情报科学》2021,39(11):173-179
【目的/意义】本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别 模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法。【方法/过程】采用人工的方式扩展和完 善致谢功能分类规则,生成学术文献致谢功能自动标引规则模板,对1,750,275条致谢文本进行功能标引。在此基 础上,采用 SciBERT 模型对致谢文本句进行向量表达,引入 Softmax 回归模型实现致谢功能自动分类,采用 warmup策略进行模型调优,并与基准实验进行对比。【结果/结论】得到一个大规模、高质量的学术文献致谢功能数 据集,经人工检验准确率达到93%;基于SciBERT的识别模型比基准模型表现更好,在扩展数据集上的F1值高于 98%,在各个类别上的预测结果也有不同程度的提升。【创新/局限】致谢功能识别模型缺少对致谢文本独有特征的 考虑和融合。  相似文献   

8.
覆盖算法在文本分类中的应用   总被引:4,自引:0,他引:4  
本文利用前向神经网络的交叉覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类。应用该算法对语料库中的文本进行实验,从实验结果来看,该算法在运行时间和精度上都取得了令人满意的结果。  相似文献   

9.
[研究目的]为了帮助政府、企业和科研人员从海量的听证公开文本中发现科技相关政策和热点,快速、全面地识别出有价值的信息。[研究方法]梳理听证公开文本的类型与特点,并对其中有价值的信息进行合理的界定与分类;根据文本的内容特征和话语特征提出事件句识别、事件类型检测和事件论元抽取的三阶段式事件抽取方法,以实现有价值信息的抽取;对抽取的有价值信息进行深入分析。[研究结论]与基准模型相比,该研究所提方法在事件句识别召回率上提高33%,F1提高17%,在事件类型检测的精确率上提高1%,在事件论元抽取的精确率上提高18%,召回率提高4%,取得了一定效果,为此类文本进一步分析提供了新研究思路。  相似文献   

10.
藏文文本数字水印在藏文电子公文安全方面具有非常重要的意义,但目前文本水印还存在着鲁棒性不强,水印容量不足等问题。本文针对上述问题展开研究,提出了一种基于词链结构的藏文文本零水印算法。首先,将藏文文本表示成词链形式,然后,记录下词链中与文本主题词相关度较大的词语的位置作为水印信息进行存档,需要进行版权验证时再用相同的方法提取水印,并用已存档的水印进行判决。实验结果表明,该算法可以有效地抵抗同义词替换、词语调换等攻击,同时,提高了水印容量。  相似文献   

11.
《科技风》2016,(2)
通过对中文文本中二元组进行分类,可以提取出文本中的中文词汇。研究中文二元组的组合规律,抽取二元组的词频、邻接熵、二元组概率、互信息值、卡方值等多个特征。利用机器学习的方法将二元组分为二元词、非词和待扩展词三类,实现中文词汇的自动提取。实验分别采了用朴素贝叶斯模型和决策树算模型进行训练,利用模型预测中文二元组,抽取中文词汇。实验结果表明,决策树算模型分类效果较好,准确率70.3%,召回率73.5%,F1值71.9%。  相似文献   

12.
针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。  相似文献   

13.
针对主观文本识别、情感分词以及情感分类模型选择等研究方法上存在的效率较低、文本表达维度高等问题,文章提出了一种基于旋进原则和AdaBoost集成技术的回归SVM情感分类模型(AdaBoost+ SVM-L),不仅提高了主观文本标注准确率,更通过AdaBoost+ SVM-L模型对情感样本的极性和强度进行了判断,实现了文本情感强度阈值的可视化.并通过分组对照实验比较了SVM、NB以及AdaBoost+ SVM-L模型的性能指标.  相似文献   

14.
基于词频的中文文本分类研究   总被引:1,自引:0,他引:1  
姚兴山 《现代情报》2009,29(2):179-181
本文对中文文本分类系统的设计和实现进行了阐述,对分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细的介绍。将基于词频统计的方法应用于文本分类。并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,在无词表的情况下,通过统计构造单字和二字词表,对文本进行分类,并取得不错的效果。  相似文献   

15.
文本分类是文本数据挖掘领域的重要技术之一。从分类算法对文本语义信息的利用程度这一角度出发,将文本分类划分为基于词形的算法和基于语义的算法两类,对每类算法进行了描述,并对当今文本数据的多样性及文本分类算法改进的可选方向进行了研究。  相似文献   

16.
基于SVM与KNN的中文文本分类比较实证研究   总被引:1,自引:0,他引:1  
本文详细介绍了中文文本分类过程以及SVM和KNN两种方法在中文文本分类中的具体步骤,给出了中文文本分类的模型。通过实验对SVM算法和传统的KNN算法应用于文本分类效果进行了比较性实证研究。研究表明,SVM分类器较KNN在处理中文文本分类问题上有更良好的分类效果,有较高的查全率和查准率。  相似文献   

17.
KNN算法是文本分类技术中比较常用的算法。但是,当训练集容量较大时,KNN算法分类的效率大大降低。在对中文短信文本的分类时,结合中文短信文本的特点,给出了先由LAS算法进行降维,然后利用KNN算法进行分类的算法。实验结果表明,该算法提高了中文短信文本的分类质量和分类速度。  相似文献   

18.
赵蓉英  魏明坤 《现代情报》2017,37(12):96-101
[目的]随着科学技术的不断发展,网络化发展的现象越来越受到人们的重视。如何在海量的网络信息中识别人物观点成为研究者关注的焦点,网络人物观点被视为网络文本表达的主要思想,是构成网络信息的"魂"。在海量的网络信息中快速识别网络人物观点对掌握网络信息主题具有重要作用。[方法]本文在前人研究的基础上理论与应用相结合,从文本分析的视角研究网络人物的观点。利用相应的算法对文本内容进行预处理,再通过文本句子中的词汇、词性标注和词汇之间的距离关系实现观点指示动词识别和观点持有者识别,从而实现网络人物的观点识别。[结果]通过网络人物观点算法识别的实证研究发现,通过对网络人物进行指代消解和观点持有者的扩展能有效地提高观点识别的准确率。  相似文献   

19.
本文依据反馈学习的思想和支持向量机分类算法,在分析中文文本分类过程的基础上,给出了基于反馈学习的中文文本分类模型,通过实验研究了反馈学习对中文文本分类模型性能的影响.结果表明,反馈学习对分类性能的提高有明显作用,它是对实时变化信息的有效解决方法.  相似文献   

20.
【目的/意义】随着互联网在社会中的影响力逐渐增大,面对网络群体性事件对社会生活的冲击,需把握网络群体性事件的演化规律,确定事件类别,提炼事件特征,基于不同类别的网络群体性事件,提出有针对性的应对措施。【方法/过程】通过LDA主题模型与K-means算法相结合,利用LDA模型实现文本潜在语义的识别,最终运用SVM算法进行网络群体性事件聚类分析,得到五类网络群体性事件。【结果/结论】构建的网络群体性事件动态识别模型,通过大量的文本训练,在事件聚类数为5时具有良好的解释性,完成了网络群体性事件的客观分类,分别为:经济型、社会型、文化型、民族型和环境型,为政府分类应对策略提供依据。【创新/局限】利用LDA主题模型和Kmeans算法,减少了模型的迭代次数,确定最佳主题数,提高了网络群体性事件识别结果的准确性,但是运用慧科新闻数据库搜集到的文本数据范围有限,且分类结果反应的事件特征具有一定局限性,后续研究可进一步扩大动态文本数据库,对分类算法进行改进和深化。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号