首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 544 毫秒
1.
针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法。该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心特征词;其次分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,以构建维度较低、语义丰富的概念向量空间;最后采用MaxEnt、SVM等多种算法构造分类器实现对数字文献的自动分类。实验结果表明:相比传统基于特征选择的短文本分类方法,该方法能有效地实现对短文本特征的语义扩展,提高数字文献分类的分类性能。  相似文献   

2.
[目的/意义]提出融合母评论文本信息的评论短文本情感分类模型以提高互联网环境下短文本评论情感分析效果,适应舆情工作中的实际应用需求。[方法/过程]以短视频平台舆情事件的评论数据为实验对象,利用GRU提取母评论文本特征和直接提取评论区特征,分别将这些特征与CNN提取原评论文本特征并行融合进行情感分类。[结果/结论]相较于传统深度学习方法,引入的母评论文本特征使两个数据集的情感分类效果都获得了一定提升,F1值等均分别提升了2%和1%,说明本文提出的特征引入方案能够提升评论短文本的分类效果,为舆情工作中的情感监测实际应用提供了思路,验证了舆情相关理论研究对实际技术应用有借鉴和指导意义。  相似文献   

3.
【目的/意义】随着互联网产业的快速发展,各种社会化媒体应用应运而生,伴随着这些应用的发展,口语化 短文本形式的信息也急速膨胀。如何从这些信息资源中挖掘出关键内容并实现自动分类已经成为文本挖掘领域 的重要课题之一。【方法/过程】本文以微博为例,设置词和字两种特征粒度,选择信息增益、信息增益率、Word2vec 和特征频度降低特征维度,重点探讨两种特征在口语化短文本分类中的特点和作用。【结果/结论】实验结果表明, 对词特征进行筛选和提取之后的分类效果仍然不如字特征在微博文本分类中的表现。因此,在口语化短文本分类 中选择字特征或许是一个较实用的、效果较好的方法。  相似文献   

4.
海量以文本形式描述的地理信息存在于互联网中,大量地理相关的网络化信息难以得到发掘。为有效提升文本信息中与地理相关文本类别精准度。针对特征矩阵对分类结果的影响,在文本预处理中加入地理类特征名词,提出基于地理名词的TF-IDF特征权重计算方法,并在向量空间模型中引用新的特征矩阵。实验结果表明,加入地理特征名词可以降低特征维度,新的特征矩阵可以优化分类结果。该方法更准确地分类出与地理相关文本信息。本实验只针对与地理相关的文本信息发现,并未对地理信息进一步分类。此方法具有一定的应用前景和实用价值,可在此基础上进一步对文本信息类别中的地理分类进行研究。  相似文献   

5.
自然语言处理是人工智能领域中的一个热门方向,而文本分类作为自然语言处理中的关键技术受到专家学者的广泛关注。随着机器学习技术的发展,决策树算法已经在文本分类中取得了较好的分类效果。本文针对短文本分类问题,利用TFIDF提取文本特征后,结合梯度提升决策树算法进行文本分类,并与朴素贝叶斯、逻辑回归和支持向量机的分类效果进行对比分析,验证了梯度提升决策树用于短文本分类的可行性。  相似文献   

6.
为了给教育研究和管理提供可靠的决策支持,对网络信息进行分类处理就成为了一种需要。鉴于TFIDF对短文本分类存在的缺陷,本文采用基于迭代的TFIDF算法对文本向量进行了优化。试验结果表明,基于迭代的TFIDF算法可以有效提高短文本文档分类的准确率。  相似文献   

7.
文本自动分类技术研究综述   总被引:2,自引:0,他引:2  
文章从文本表示、特征选择、分类算法、常用基准语料以及评估指标等方面对近年来的研究成果进行综述并讨论。认为短文本分类和多语言文本分类管理是新出现的重要且紧迫的问题,并对这两个问题以及数据集偏斜、多层分类、标注瓶颈等几个关键问题进行重点讨论。最后总结并展望这些研究内容。  相似文献   

8.
陈辉 《中国科技信息》2004,27(19):32-33
在对互联网上海量文本信息进行管理的过程中,文本自动分类是一项关键且基础的技术。本文主要介绍了文本分类的概念、实施过程.相关技术以及文本分类在网络信息服务中的几个典型用途。  相似文献   

9.
采用含语义的词语或篇幅更长的语言片段作为中文短文本的特征描述存在明显的可操作性问题.文章综合探讨了汉字特征在中文短文本分类计算中的可行性以及影响规律,比较了关键词、词语和汉字的类目区分能力,认为后者的分类效果略低于篇幅大的语言片段,但其具有可计算性强和文本覆盖率高的优点;基于类现频次和信息增益复合方法对汉字特征进行了筛选,总结了汉字特征数量减少对分类效果的影响规律;分析了不同特征权重设置对汉字特征分类效果的影响及其原因,认为汉字在词语中的位置参数及其频次参数的有效结合可以在一定程度上提高汉字特征的分类效果.  相似文献   

10.
顾东蕾 《现代情报》2008,28(4):183-186
本研究通过剖析CNKI的微观结构,实例列举出CNKI应用实践中出现的问题.指导用户的检索和查询.为CNKI的进-步改进提供建设性的建议.CNKI在引文链接方面做到引文完全和引文深化;在相关文献链接方面以关键词链形成的关键词链引文献群形成某源文献相关文献集合;在知识元链接方面以共词网络确定各篇源文献的相关知识元.这样将从不同的层面揭示了知识资源的分类、重组和利用,实现知识元的解读与耦合,全面体现知识网络的知识服务特色.  相似文献   

11.
【目的/意义】随着旅游网站的增加,游客的网络评论日益增多。针对传统方法在旅游短文本评论主题分类 时出现特征维度过高和数据稀疏等问题,本文提出一种基于卷积神经网络和 SOM的旅游评论主题发现方法。【方 法/过程】首先采用词向量来进行文本表示,降低了特征维度过高问题;其次,通过卷积神经网络对评论文本提取高 阶的抽象特征;最后在通过 SOM 模型基于提取到的抽象特征对主题进行聚类。【结果/结论】实验结果表明, CNN-SOM算法较传统文本聚类算法在准确率、召回率和 F值上都有显著提高,能够更好的进行旅游评论的主题 发现。  相似文献   

12.
【目的/意义】从海量微博信息中提取准确的主题词,以期为政府和企业进行舆情分析提供有价值的参考。 【方法/过程】通过分析传统微博主题词提取方法的特点及不足,提出了基于语义概念和词共现的微博主题词提取 方法,该方法利用文本扩充策略将微博从短文本扩充为较长文本,借助于语义词典对微博文本中的词汇进行语义 概念扩展,结合微博文本结构特点分配词汇权重,再综合考虑词汇的共现度来提取微博主题词。【结果/结论】实验 结果表明本文提出的微博主题词提取算法优于传统方法,它能够有效提高微博主题词提取的性能。【创新/局限】利 用语义概念结合词共现思想进行微博主题词提取是一种新的探索,由于算法中的分词方法对个别网络新词切分可 能不合适,会对关键词提取准确性造成微小影响。  相似文献   

13.
[目的/意义]针对单纯使用统计自然语言处理技术对社交网络上产生的短文本数据进行意向分类时存在的特征稀疏、语义模糊和标记数据不足等问题,提出了一种融合心理语言学信息的Co-training意图分类方法。[方法/过程]首先,为丰富语义信息,在提取文本特征的同时融合带有情感倾向的心理语言学线索对特征维度进行扩展。其次,针对标记数据有限的问题,在模型训练阶段使用半监督集成法对两种机器学习分类方法(基于事件内容表达分类器与情感事件表达分类器)进行协同训练(Co-training)。最后,采用置信度乘积的投票制进行分类。[结论/结果]实验结果表明融入心理语言学信息的语料再经过协同训练的分类效果更优。  相似文献   

14.
通过对文本数据库的优化索引提高信息检索功能,传统的数据库索引方法采用单层文本特征聚类方法,聚类特征不一致时,存在非法聚类和非法结果输出的安全问题。提出一种基于虚拟数据加速分布重组的数据库索引技术,首先构建虚拟数据加速分布重组模型,改进数据库的分布模型,提高对文本数据的索引能力,把需要的文档集经过预处理后,构建文本数据库,算出各个候选扩展词的权重后,需要根据各个词与原查询词的相关度,构成数据库文本扩展词集合,采用相关规则挖掘的规则词作为扩展,得到了虚拟数据的加速分布系统状态函数,构建规则库,从中提取与原查询相关的扩展词,进而实现查询扩展,实现数据库索引算法改进。仿真结果表明,该算法进行文本数据库索引的收敛性好,检索精度和有效连接数较高,执行时间短,展示了其优越性。  相似文献   

15.
越来越多的研究者认识到维基百科是知识获取的有效知识源,然而维基百科站点内部现有的搜索引擎没有充分利用其丰富的语义信息,因此,本文对面向中文维基百科的检索模式进行了对比研究。实验表明,本文提出的基于分类体系的语义检索模式在检准率、检全率以及检索速度方面能取得更好的效果,让用户更充分地利用到中文维基百科这个大规模知识库。  相似文献   

16.
陈杰  马静  李晓峰  郭小宇 《情报科学》2022,40(3):117-125
【目的/意义】本文融合文本和图像的多模态信息进行情感识别,引入图片模态信息进行情感语义增强,旨在 解决单一文本模态信息无法准确判定情感极性的问题。【方法/过程】本文以网民在新浪微博发表的微博数据为实 验对象,提出了一种基于DR-Transformer模型的多模态情感识别算法,使用预训练的DenseNet和RoBERTa模型, 分别提取图片模态和文本模态的情感特征;通过引入Modal Embedding机制,达到标识不同模态特征来源的目的; 采用浅层Transformer Encoder对不同模态的情感特征进行融合,利用Self-Attention机制动态调整各模态信息特征 的权重。【结果/结论】在微博数据集上的实验表明:模型情感识别准确率为 79.84%;相较于基于单一文本、图片模 态的情感分类算法,本模型准确率分别提升了 4.74%、19.05%;相较于对不同模态特征向量进行直接拼接的特征融 合方法,本模型准确率提升了 1.12%。充分说明了本模型在情感识别的问题上具有科学性、合理性、有效性。【创 新/局限】利用 Modal Embedding 和 Self-Attention 机制能够有效的融合多模态信息。微博网络舆情数据集还需进 一步扩充。  相似文献   

17.
朱学芳  冯曦曦 《情报科学》2012,(7):1012-1015
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。  相似文献   

18.
谭金波 《情报杂志》2007,26(9):87-88,91
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,其对文举分类的效果起着至关重要的作用。目前,特征项权重的计算方法很多,但在层次分类环境下哪种方法较好还没有定论。以层次分类环境为出发点,对TF.IDF和基于熵概念的权重方法进行了比较研究,实验结果表明TF.IDF整体得分最高,能够对文本进行较好地形式化表示。  相似文献   

19.
维基百科作为一部资源共享的百科全书,质量和内容应该是关注的焦点.笔者围绕维基百科的质量问题,对其信息工作组织模式进行了系统分析,探讨了维基百科社群对质量问题的认识,分析了维基百科的交流模式和工作组织对维基百科内容质量的影响,总结了维基百科质量保证的过程以及控制方式,丰富了开放协同环境中信息质量控制问题的研究.  相似文献   

20.
陈锟  裴雷  范涛 《现代情报》2023,(6):24-34
[目的/意义]针对突发事件分类研究中模态单一或缺失、分类效果不理想等问题,本文提出结合文本和图片特征信息,以多模态融合的方式对突发事件进行分类。[方法/过程]本文提出一种基于多模态融合的突发事件分类模型(Emergency Classification Model with Hybrid Fusion, ECMHF),由BERT联动BiLSTM构成的文本特征抽取分类模型、VGG19为基础的图像特征抽取分类模型、融合文本描述特征和视觉语义特征的多模态融合层加上预测类别输出层组成的多模态分类模型3部分构成主体框架,最后将所有模型的决策层输出分配权重后再融合。[结果/结论]以收集的突发事件新闻数据为实验样本进行实证研究。结果表明,ECMHF模型在所有模型中性能最佳,F1值达到最高的99.072%,比次优模型高出0.51%。加入混合融合策略的ECMHF模型能够有效地识别出突发事件的类别。未来将在更为广泛和多元的突发事件多模态数据集中进行验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号