首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。  相似文献   

2.
基于图结构的中文文本表示方法研究   总被引:2,自引:0,他引:2  
为解决基于统计的文本表示模型的信息缺失问题,本文提出了一种考虑词间语义和语序信息的基于图结构的中文文本表示方法,其思想是将文本的特征项表示成图结构中的节点,特征项间的关系表示成节点间的有向边,据此可将文本表示成由节点和有向边组成的图结构,并且将边赋予权重信息,该模型较大程度地保留了原文本的结构信息及语义信息.中文语料测试结果表明,基于图结构的文本表示方法对复杂文本语料的分类问题十分有效.对于简短文本语料,本文提出扩展特征项共现单元的修正方法,提高了图结构中文文本表示方法的普遍适用性.  相似文献   

3.
赵辉  刘怀亮 《图书情报工作》2013,57(11):120-124
为解决短文本特征词少、概念信号弱的问题,结合维基百科进行特征扩展以辅助中文短文本分类。通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算,利用消歧页结合短文本上下文信息解决一词多义问题,进而以词语间语义相关关系为基础进行特征扩展,以补充文本特征语义信息。最后,给出基于维基百科的中文短文本分类算法,并对其进行实验验证。结果表明,该算法能有效提高中文短文本分类效果。  相似文献   

4.
以提高领域概念相关性判断的准确度为研究宗旨, 提出综合利用中文维基百科的分类体系结构和概念释义内容进行概念间语义相关度计算的方法.选取中文维基百科分类体系下的图书情报领域的概念为实验对象, 将基于分类信息和文本信息的加权算法与单独基于分类信息的语义距离算法和信息量算法, 以及基于文本信息的文本重叠算法进行对比分析.实验结果表明:加权算法能取得更好的效果, 可为实现面向领域的信息检索、领域本体构建等应用提供重要技术支持.  相似文献   

5.
文本分类是网络主题舆情分析中的关键技术,传统Web文本分类将文本关键词的相似度作为分类依据,丢失许多重要的语义信息,导致分类结果不够准确且计算量大.本文提出一种基于语义相似度的Web文本分类方法,利用特定的领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量,给出Web文本相似度的计算公式并实现基于语义相似度的KNN算法.结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少计算量并提高了分类精确度.  相似文献   

6.
整合中文维基语义的网络论坛话题追踪方法研究   总被引:1,自引:0,他引:1  
研究中文维基语义图上的网络论坛话题追踪,对于提高舆情分析系统获取情报的效率及信息处理质量有很大价值.以涉军主题帖子为背景,借鉴维基百科语义相关度与词语共现关系,构建反映词语间静态与动态关联的文本概念图,改进PR算法的关键词挖掘方法,利用维基知识解决论坛文本中的语义特征稀疏问题,减少噪音以提高论坛文本语义相关度计算的准确性.最后实验证明该方法的优越性.  相似文献   

7.
赵一鸣  尹嘉颖 《情报学报》2023,(10):1187-1198
共词网络是研究语言现象的重要方法,语义特征是词汇共现现象中重要的隐性知识,研究共现词之间的语义关系及特征,可以从语义视角改进共词网络的研究,并利用语义学知识为现有的共词分析方法赋能。本文提出了一种语义增强型的共词网络构建和分析方法,从共现特征、网络特征与语义特征3个维度丰富了共词网络节点和边的属性。通过实验构建了基于14万余篇新闻文本数据的语义增强型全文本共词网络,并重点对共现词对的语义特征进行分析,结合案例呈现了该方法在计算语言学研究和行业应用上的价值。本文从词间语义关系的视角,拓展了共词网络的构建和分析方法,描述了共现词汇的语义特征,证实了语义关系的非对称性和传递性,为语义关系的分类与推导提供了理论依据,在语义消歧、词义理解等方面具有应用价值。  相似文献   

8.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高.  相似文献   

9.
基于语义网络的概念检索研究与实现   总被引:50,自引:8,他引:42  
本文介绍一种基于语义网络的中文搜索引擎概念检索模型,并应用此模型,针对计算机及其应用领域,创建了一个含有500多个概念节点,包括一个分类体系和近300种概念相关关系的语义网络,初步实现了特定领域的概念检索。实验结果表明,该模型对于建设知识化、智能化的中文搜索引擎是非常有用的。  相似文献   

10.
张晗  赵玉虹 《图书情报工作》2016,60(11):135-142
[目的/意义]针对共词分析存在的普遍问题,提出一种基于细粒度语义分析的共词网络构建与分析方法。[方法/过程]借助SemRep实现源文本主题概念及其语义关系的规范化抽取并由此构建语义共词网络,然后以节点的中心度和边的频次为指标对内容特征词进行抽取,利用UMLS语义网络规定的语义搭配模式,通过概念-语义类型-语义类型组的两级映射,对语义述谓项进行类团划分。[结果/结论]通过与常规共词分析方法比较,发现基于细粒度语义关系的共词分析能有效地揭示文本主题内容,利用UMLS语义网络资源能从语义学角度清晰准确地对语义共词网络进行类团划分。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号