首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。  相似文献   

2.
基于向量空间模型的文本信息表示   总被引:2,自引:0,他引:2  
文本分析向量空间模型中的表示方法和映射过程中用到的关键技术和算法--特征选取和向量映射,给出文本建立向量空间模型,并进行特征选取和维度压缩,生成字典.在特征选取部分设计了一个特征选取模块,模块中的三种特征选取算法和它们的实现方式以可插拔方式组合在模块中.在向量映射部分,分析了它的主要步骤,设计了文本解析流水线,并展示了...  相似文献   

3.
在分析工程文本中命名实体实际特征的基础上,提出一种基于CRF与规则相结合的工程领域命名实体识别方法。在完善用户词典并对文本进行分词后,以短语级的粒度为原则从中确定特征,将文本交由CRF算法进行处理;分析CRF的处理结果,根据语言学规律及工程文本特点编写规则,对CRF处理结果进行优化。实验表明,该方法的全局F1值能够达到93.45。  相似文献   

4.
对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。  相似文献   

5.
传统的舆情分析多采用文本聚类和分类技术,但是由于自然语言自身表达的复杂性和灵活性,文本聚类和分类技术很难从根本上反映话题评论人员对待话题的真实态度。针对文本聚类和分类技术的局限性,设计了应用于公司舆情分析的改进概念图算法。改进的概念图能表示部分概念节点的倾向性,利用改进的概念图计算每条评论的健康度,可有效地从语义分析角度计算评论语句的健康度。研究结果表明,应用于公司舆情分析的改进概念图算法,其正确率普遍高于基于文本聚类和分类技术的舆情分析方法。  相似文献   

6.
论文采取一种特殊的文本搜集方式,对浙江大学近百名本科生的媒介接触行为进行了一次较为系统的考察,采用内容分析法对采集来的文本资料进行分析。研究发现,大学生群体在媒介接触和信息选择的过程中呈现出很强的倾向性和目的性,对媒介的选择上呈现出一种权威性与多样性相结合的特征,对信息的选择上则遵循一种以政治和民生新闻为导向的简便信息原则。并且在对待传统媒体和新媒体的信息选择上,其选择行为的差异性也十分明显。  相似文献   

7.
为弥补目前国内学者只做单一算法研究且语料单一的缺陷,使用Word2vec词向量模型结合支持向量机(SVM)、卷积神经网络(CNN)和长短期记忆网络(LSTM)3种不同分类算法,研究了不同中文文本分类问题,包括微博语料的多维细粒度情感分类、酒店评价的倾向性分析和新闻文本的主题分类。将3种分类模型在不同文本中的分类效果进行对比,结果显示这3种算法对于不同的中文分类效果各有不同:不同维度的词向量对准确率等评价指标影响很大;支持向量机模型更适合于细粒度的微博情感分类;卷积神经网络、长短期记忆网络算法更适合于噪声小、文本长且规范的新闻主题分类任务。分类粒度会对算法准确性产生影响,粒度越细、任务越复杂,算法准确性越低。  相似文献   

8.
副文本不应局限定位于"一种辅助性的次要文本",应关注文本内部的层级性特征和功能的多元化特征。序跋作为副文本的主要类型之一,是以立体化、交互性的形式参与文本系统的构建。以《葵园四种》为例,在文本定位方面,不同层级间的序跋具有"元"特征,其层级性高低取决于对应的主文本;在内容配置方面,序跋主题"评书、知人、论世"的倾向性影响了文本的内指、外指协作机制;在功能类型方面,以经济学思维审视文本的动态进程,序跋具有组篇功能、交际功能、宣传功能与导读功能。  相似文献   

9.
特征提取是文本挖掘、信息检索、自然语言处理(NLP)、文本情感分析、网络舆情分析等领域的研究热点。特征提取作为文本挖掘系统的主要因素,文本特征提取性能是文本分类结果的重要性度量。从两方面对特征选择算法进行总结,分析国内外对常用特征提取算法的改进和创新,最后针对影响特征提取的因素,指出在实际应用中应考虑的问题。  相似文献   

10.
文本分类是文本数据挖掘领域的重要技术之一。从分类算法对文本语义信息的利用程度这一角度出发,将文本分类划分为基于词形的算法和基于语义的算法两类,对每类算法进行了描述,并对当今文本数据的多样性及文本分类算法改进的可选方向进行了研究。  相似文献   

11.
本研究对25位场馆教育部门负责人关于场馆教师专业素质进行半结构化访谈,基于扎根理论采用定性分析软件Nvivo11.0对访谈的录音文本逐字逐句编码,再对比分析国外相关研究,总结出我国场馆教师的专业素质特征,包括专业知识、专业技能和专业理念三个维度,共34个具体特征,并结合实验数据论述当前我国场馆教育部门负责人对于专业素质的倾向性及重视不足之处,从而为场馆教师的准入和培训提供依据。  相似文献   

12.
以语用等效原则为标准分析了博物馆文本的特征和英译策略,以此来宣传中华文化,实现有效的跨文化交流。以徐州圣旨博物馆的文本为例,对博物馆文本的语用功能及中西博物馆文本的文体特征进行了研究和分析。以语用翻译的核心思想,即语用等效作为英译的原则,以此实现信息提示、文化传播和诱导行动的语用功能,提出了重组原文信息,简化原文信息和增补原文信息的翻译方法。  相似文献   

13.
学习者的个体特征和学习过程中的行为表现对在线学习结果具有一定的预测作用。为了探究在职教师在线学习结果的影响因素及预测模型,研究以教师信息技术应用能力在线学习为研究场景,选取1041名教师作为研究对象,依据性别、年龄、学科、学段等倾向性指标和参与、专注、绩效、规律4个维度的行为表现指标建立4种学习结果预测模型,综合评估7种分类算法后选择较优的预测模型和算法,并对确定的预测模型进行调参优化、动态适应性检验、可视化呈现和规则提取,并对预测风险给出了干预策略。研究表明:应用CART决策树算法通过倾向性指标和行为表现指标的混合预测模型获得了较优的预测效果,并且该模型具有早期的预测能力,可以为培训管理者在不同的学习阶段实施学习干预和支持服务提供科学依据。  相似文献   

14.
近年来,随着互联网和社交网络的发展,网络上文本信息迅速增长,对文本情感进行分析成为研究热点。根据文本情感分析方法的不同,总结了近年来文本情感分析的研究进展。将文本情感分析分为基于词典的方法和基于机器学习的方法两大类:基于词典的文本情感分析方法分为人工构建和自动构建两种;基于机器学习的文本情感分析方法分为基于贝叶斯算法、基于最大熵算法和基于SVM的文本情感分析3种。通过梳理国内外研究现状,对两类情感分析方法进行了深入分析,对文本情感分析进行了总结和展望。  相似文献   

15.
可读性指文本易于阅读的程度或性质,评估对外汉语文本可读性在对外汉语教学中十分重要。文章针对对外汉语文本可读性难以人工评估的问题,提出了一种基于随机森林算法的对外汉语文本可读性自动评估方法。该方法从基础特征、词性特征、等级特征和语法特征这四个维度提取特征,进行特征选择后在训练集上利用随机森林算法训练分类器,并在测试集上证实了该方法的有效性。  相似文献   

16.
学界对法国著名作家莫泊桑短篇小说《项链》的内涵以及其中的女主人公玛蒂尔德形象的解读呈现出了多元化的趋势。学界已经从女性主义,马克思主义阶级批判,弗洛伊德精神分析,基于本体象征文本探析以及基于女主人公马蒂尔德性格的哲学分析,对《项链》的文本内部及文本外部均进行了详实而深入的探究。本文试图在社会规约的范畴探究《项链》中体现的对于女主人公马蒂尔德以及与其境遇类似的女性潜在的社会规训倾向性。  相似文献   

17.
近年来,电子商务发展迅速,对电商商品评论进行情感分析可为消费者购物、商家调整销售策略与电商平台个性化推荐提供重要参考意见,因此提出双通道卷积记忆神经网络文本情感分析模型。首先,通过词向量与由特征词典构造的扩展特征矩阵两个不同的通道进行卷积运算,再利用卷积神经网络提取文本局部最优信息,最后利用长短期记忆神经网络学习长距离的上下文情感,完成文本情感分析任务。实验结果表明,与多种文本情感分析方法相比,双通道卷积记忆神经网络文本分析算法具有较高的精度,达到95%,且考虑了文本语义信息与文本情感信息,可获得更好的文本表示,同时兼顾文本局部特征与上下文信息的学习,可有效提高文本情感分析准确率。  相似文献   

18.
提出了一种基于行颜色梯度分析的视频字幕区提取算法。该算法首先计算视频图像帧中每一行的颜色梯度偏差以检测可能包含文本像素的行区间.然后扩展毗邻行中可能包含文本的像素区间形成一个可能包含文本字符串的二维像素区块,接着根据文本区块和图像背景间的几何性质的差异确定包含文本的二维文本像素区块。最后,利用从电视节目中采集的新闻视频和网络下栽的图像对算法进行了试验验证。  相似文献   

19.
网络已成为当今世界重要的信息载体,但是网络信息良莠不齐,对人们的生活造成了很多负面影响,因此,如何正确识别网络中的敏感话题,是当前网络舆情分析与监管的重要任务之一。本文以识别网络论坛中的敏感话题为目标,基于网络论坛文本在结构和表达上表现出的篇幅短、结构不完整、文字口语化等特性,将该类文本表示成基于向量空间模型的文本矩阵,并根据网络敏感话题具有先验知识和态度倾向性等特点,提出了基于倾向性词典的特征提取方法,可有效提高网络敏感话题识别的正确率,最后通过实验验证了这一改进的有效性,证实了本文的研究价值。  相似文献   

20.
针对微博短文本特征难以提取的特点,结合微博文本的3种专属特殊符号:“@”、“//”和“#”分析微博文本的特点,从而对TF IDF算法进行改进,并且考虑用户兴趣时间的长短来进行微博短文本特征词的选取。实验结果表明,相对于原有算法,该算法能够有效提高微博短文本特征词提取的准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号