首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 421 毫秒
1.
为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。  相似文献   

2.
基于单句粒度的微博主题挖掘研究   总被引:1,自引:0,他引:1  
针对现有主题挖掘方法的不足,本文提出一种以句子为粒度的微博主题挖掘方法.首先,以标点符号为依据进行微博文本的句子划分,选择名词和动词为特征词来表征句子;其次,以高频特征词在微博文本集中的共现频次为基础构建词语相似矩阵,辅助计算句子相似度,构建句子相似矩阵;然后,以句子相似矩阵为基础进行聚类分析,通过分析聚类结果实现主题发现;最后,利用改进的LexRank算法计算各主题句子的重要度值,组合重要度值高的句子生成主题摘要,以完成对主题的描述.文章通过实验证明了该方法的可行性.  相似文献   

3.
领域特征词的提取方法研究   总被引:5,自引:1,他引:4  
本文提出领域特征词(Domain Feature,DF)的概念,将其定义为:描述领域的最恰当的词语.由一个领域中所有领域特征词组成的集合称为领域特征词集(Domain Feature Set,DFs).为提高领域特征词集提取的效率和结果的客观性,本文给出一种以人机交互方式从自然语言语料库中提取的方法.该方法综合了长度优先切词算法和领域隶属度分析算法,前者保证召回率,后者提高准确率.实验证明,给定合适前景语料与背景语料,该方法能够显著提高领域特征词集构建的性能.领域特征词及其提取方法可以广泛地应用于信息和情报处理领域.  相似文献   

4.
[目的/意义]在海量网络新闻和微博等新媒体文本中自动识别网络热点话题并抽取有意义词串来描述热点事件,对自动识别和描述网络舆情具有重要的研究意义。[方法/过程]在现有热点描述词抽取方法中,利用关联规则或多元词组合方法在抽取过程中存在噪音词较多和特征词语义被放大或转移等问题。本文提出一种基于复合词生成的描述词抽取方法,在所提取的语义更为精确的描述词集合上使用一趟聚类算法对新闻文本进行聚类,自动识别网络热点话题并对热点话题进行排名。[结果/结论]对腾讯新闻事件文本数据集所做的实验结果表明,本文所提出的方法较传统的词特征抽取方法在聚类结果上具有更好的话题簇识别能力和簇描述能力。  相似文献   

5.
汉语文本特征词的抽取方法   总被引:13,自引:3,他引:10  
薛翠芳  郭炳炎 《情报学报》2000,19(3):242-247
本文从自动文摘的需求出发 ,探讨特征词自动抽取的方法和技术 ,设计并实现了两种不同的特征词自动抽取算法。这些方法对文本的自动分类和全文检索也有一定的借鉴意义。  相似文献   

6.
[目的/意义]数据源描述(又称数据源摘要)是Deep Web集成检索领域存在的关键问题之一,数据源描述的质量直接影响着集成检索系统的检索效率和效果。本文提出一种基于领域特征和用户查询取样的数据源描述方法,以期为非合作环境下资源集成应用与研究提供参考和借鉴。[方法/过程]该方法为异构非合作型数据源的离线取样方法,通过分析数据源和用于查询的领域主题属性,依次构建领域特征词集、初始特征词集和高频特征词集,并最终获得以高频特征词查询取样的数据源描述信息。结合流行的CORI算法,深入分析基于推理网络的用户查询与数据源描述的相关度计算方法,并基于此方法设计基于Lemur工具集的集成检索系统,验证了上述方法的有效性。[结果/结论]所提方法在查全率和查准率方面均得到很好的表现。与其他方法相比,该方法在样本数据自动更新和运维管理方面具有明显成本优势和实用价值。  相似文献   

7.
在线产品评论中通常包含多个产品特征,影响评论接收者对产品的总体判断.表征产品整体、组件和性能的产品特征词之间存在各种关系,这些关系影响评论接收者的信息处理和整合过程.现有的评论倾向性合成方法主要考虑的是词汇在文本中出现的位置、频率等因素,没有考虑到词汇之间的关系.本文提出了一种基于产品特征词关系识别的倾向性合成方法,首先在产品特征词、情感词和修饰词提取的基础上,将特征句表示为一个三元组,然后识别产品特征词之间的等同、等级和相关关系,构建产品特征词关系图,在此基础上由底至顶、由类内至类间完成文本倾向性合成.我们在手机评论集上对该方法进行了验证,实验结果表明,使用该方法得到的评论倾向性值与在线评分、人工标注倾向性值之间存在显著的正相关关系,相关系数分别为0.701和0.823.  相似文献   

8.
一种基于N-Gram改进的文本特征提取算法   总被引:3,自引:0,他引:3  
介绍一种改进的文本特征提取及匹配算法。该算法基于N-Gram算法思路进行文本处理和特征提取,设计了gram关联矩阵用于统计与合并特征词,从而在固定长度N-Gram算法的基础上能够提取出不同长度的特征词。实验证明,该特征提取算法能够更为准确地描述文本特征,可应用于文本检索、Web挖掘等信息处理领域。  相似文献   

9.
面向查询扩展的特征词频繁项集挖掘算法   总被引:1,自引:0,他引:1  
为了获取高质量的扩展词,提出一种面向查询扩展的基于文本数据库的特征词频繁项集挖掘算法。该算法采用支持度衡量特征词频繁项集,给出新的剪枝策略,并结合原始查询,挖掘同时含有查询词项和非查询词项的特征词频繁项集,以提高挖掘效率。实验表明,与传统的挖掘算法相比,本算法更有效、更合理。  相似文献   

10.
[目的 /意义]针对历史古籍事件识别问题,对比序列标注方法和文本生成方法,探究两种方法在古汉语上的表现,构建模型实现历史古籍事件识别自动化,以提高面向历史古籍构建知识图谱的效率。[方法 /过程]选取《三国志》为原始语料,序列标注实验对《三国志》事件数据集进行BMES标注,构建BBCN-SG模型,文本生成实验构建T5-SG模型,对比两种方法的表现。接下来,构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。最后,结合三个文本生成模型,融入Stacking集成学习的思想,构建Stacking-TRN-SG模型。[结果 /结论 ]在历史古籍事件识别建模问题上,文本生成方法的表现明显优于序列标注方法。而在文本生成方法中,RoBERTaSG模型的识别效果综合最好。Stacking集成学习能够大大提高生成模型的识别效果,构建的Stacking-TRN-SG模型达到70.35%的召回率,初步实现历史古籍的自动事件识别。  相似文献   

11.
从文本特征对文本分类结果的整体影响的角度出发,提出一种基于粒子群优化的文本特征选择方法(PSOTFS),使用粒子群算法来挖掘文本特征选择规则。PSOTFS首先使用开方检验对文本特征进行预选择,然后使用粒子群算法对预选择得到的文本特征进行精选。PSOTFS以一个粒子表示一条特征选择规则,特征选择规则集对应某个粒子群,采用分类准确率作为适应度函数,采用分组的方式对粒子的维度进行降维。实验结果表明,PSOTFS比开方检验、信息增益、文档频率和互信息方法能得到更好的分类效果。  相似文献   

12.
基于句子的文本表示及中文文本分类研究   总被引:1,自引:0,他引:1  
文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的.  相似文献   

13.
在数据库开发过程中,常常会遇到报表打印的问题, 本文介绍了在VB报表设计开发过程中,可根据报表类型的不同, 采用VB中相应的报表实现方法,并总结了一般报表的实现方法,比较了各自的优缺点;针对复杂报表的实现,提出采用Microsoft Office Web Component的可行性,其中详细分析了复杂报表生成方案。  相似文献   

14.
王煜  王正欧  王明春 《情报学报》2005,24(6):674-678
本文根据CHI值原理、粗集理论和决策树原理,提出了一种抽取Web文本分类规则的新方法。决策树分类方法具有出色的数据分析效率和容易抽取、易于理解的分类规则等优势,但对于维数达成千上万维的分类问题很难应用。因此本文先根据CHI值选择每个文本类中对分类贡献大的若干词条,然后采用粗集理论方法对选择的特征进行进一步提取,这样得到维数较小的文本特征向量空间,最后再使用决策树进行分类,从而既保证了分类精度又可很容易地抽取出利于理解的文本分类规则。  相似文献   

15.
特征降维是文本分类面临的主要问题之一。首先通过 分布对特征项进行选择,然后使用一种改进的基于密度聚类方法对选择后的特征项进行聚类,借助类别分布信息,在尽量减少信息缺失的前提下先后两次对文本特征维数进行了压缩;在基于类别概率分布的模式下实现文本的矩阵表示,借助矩阵理论进行文本分类。试验结果表明,该方法的分类效率较高。  相似文献   

16.
借助特征聚类进行特征抽取是信息检索领域进行文本特征降维的重要手段之一.本文通过χ2统计和特征聚类相结合的模式,在尽量减少信息缺失的前提下两次对特征项维数进行压缩,通过分析特征的类别分布信息,实现了基于统计的特征降维;进而在基于类别概率分布的模式下实现了文本的矩阵表示,借助矩阵范数进行文本分类.实验结果表明,该方法的分类效率较高.  相似文献   

17.
尽管目前存在许多文本特征选择方法,但是它们都有着一定的局限性。提出一种新的基于群体增量学习(Population Based Incremental Learning)算法的文本特征选择方法,其特点是无需特征集的先验知识和容易实现,并且由于使用了简单分类器性能作为评价准则,计算复杂度很低。对Reuters-21578文本集的分类实验结果表明,该方法平均分类性能要优于卡方统计量、信息增益和简单遗传算法三种常用的特征选择方法。  相似文献   

18.
文本分类中一种基于密度的KNN改进方法   总被引:2,自引:1,他引:1  
特征降维与分类算法的性能是文本自动分类的两个主要问题.KNN算法以其简单、有效、非参数特点常用于文本分类,但是训练文本分布的不均匀对KNN的分类效果产生负面影响,而在实际应用中训练文本分布不均是常见现象.本文针对这种分类环境,首先提出了一种改进的tf-idf赋权方法用于特征降维,在此基础上进一步提出了一种基于密度的改进KNN方法用于文本分类, 使处于样本点分布较密集区域的样本点之间的距离增大.随后的文本分类试验表明,本文提出的方法基于密度的KNN方法具有较好的文本分类效果.  相似文献   

19.
数字档案馆建设的不断推进,视频档案的数量在急剧增加,视频档案作为档案资料重要组成部分——视频档案的检索成为了数字档案馆建设亟须解决的问题。针对该问题提出了一种基于Contourlet变换的视频检索框架。该方法首先提取视频关键帧,然后对视频关键帧进行3层Contourlet分解,对各高频方向子带求均值和标准差,生成关键帧的特征向量,再计算所有关键帧特征向量的均值生成视频特征,最后利用欧式距离来度量视频的相似度。实验结果证明该方法比小波变换具有更好的综合性能,对于加边框、添加图标、添加字幕、改变比率、镜像、丢帧和噪声等攻击具有较好的鲁棒性。  相似文献   

20.
特征表示是数据聚类的关键问题之一。当前对科学数据特征表示的深度不够,从而在一定程度上影响科学数据聚类的效果。针对这一问题,提出复合文本描述的概念以及一种基于复合文本描述的科学数据特征表示方法,该方法的主要特点是运用不同的特征权重计算法分别对基于两种文本数据源的候选特征加以表示,并将两种特征集合并,最终实现强化特征集的目的。实验表明,该方法优于传统方法,使科学数据聚类的效果有明显提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号