首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 765 毫秒
1.
设计并实现一个基于向量空间模型和简单贝叶斯的文本分类系统,系统采用层级多标签的分类策略。详细介绍词语切分统计、终分类器值计算、层级小类校正和兼类判断四个子系统模块。基于向量空间模型分类的第一级大类和层级小类的微平均分别为89.7%和77.8%,简单贝叶斯分别为67.6%和66.5%。  相似文献   

2.
基于属性相关性分析的贝叶斯分类模型   总被引:1,自引:0,他引:1  
朴素贝叶斯分类器是一种简单而有效的概率分类方法,然而其属性独立性假设在现实世界中多数不能成立。为改进其分类性能,近几年已有大量研究致力于构建能反映属性之间依赖关系的模型。本文提出一种向量相关性度量方法,特征向量属于类的的概率由向量相关度及其属性概率计算。向量相关度可通过本文给出的一个公式进行估计。实验结果表明,使用这种方法构建的分类模型其分类性能明显优于朴素贝叶斯,和其他同类算法相比也有一定提高。  相似文献   

3.
基于概念向量空间的文档语义分类模型研究   总被引:1,自引:0,他引:1  
针对传统文档自动分类方法和目前语义分类方法中存在的问题,提出一种新的基于概念向量空间的文档语义分类模型,该模型通过字符匹配算法将原文档高维词向量空间中相互独立的词项匹配到描述本体概念的属性集合,进而映射成属性集合对应的本体概念,形成低维的、语义丰富的文档概念向量空间。采用目前非常流行的数据集“20Newsgroups”作为实验数据集,对基于概念向量空间的文档语义分类模型进行实验验证。实验结果表明:提出的文档语义分类方法与传统基于词向量空间的文档分类方法相比,能够极大地降低向量空间维度,提高文档分类的性能。   相似文献   

4.
支持向量机在文本自动分类中的应用研究   总被引:3,自引:0,他引:3  
田晓宇  梁静国 《情报学报》2006,25(2):208-214
针对数据挖掘中的文本自动分类问题,提出了一种基于支持向量机的分类方法。构造了可用于多个模式类识别的多层级连式SVM模型,该模型可完成对多个模式的分类识别。根据训练样本的分类体系完成对模型的构造之后,即可应用于实际文档的自动分类。文中给出了该模型的构造及应用的方法,用两种核函数作为内积回旋方案,以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

5.
抄袭剽窃论文识别研究综述   总被引:2,自引:0,他引:2  
抄袭剽窃论文的识别是知识产权保护中一项重要的内容,已有众多的识别方法和系统.本文从抄袭剽窃的定义、文本的表示(向量空间模型、广义向量空间模型、隐性语义索引模型)、文本相似度的研究内容、文本相似度的计算方法(基于统计学的计算方法和基于语义理解的计算方法)、数字指纹和词频统计两大类技术和方法和抄袭剽窃识别系统等方面为基本思路,对该领域中已提出的主要研究方案进行了分类阐述和比较分析,总结了其最新研究进展,为下一步的研究提出了新的课题和设想.  相似文献   

6.
多层次web文本分类   总被引:8,自引:0,他引:8  
凌云  刘军  王勋 《情报学报》2005,24(6):684-689
传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系。根据LSA理论提出了一种多层次web文本分类方法。建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根据相应的类模型存LS空间上分类。这种分类方法解决了LSA模型中高维矩阵难以进行奇异值分解的问题。同时体现了web文本中词条的语义关系,注重了词条在网页中的表现形式。实验表明,多层次web文本分类方法比基于平面分类体系的分类方法在查全率和准确率方面要好。  相似文献   

7.
基于SUMO和WordNet本体集成的文本分类模型研究   总被引:1,自引:0,他引:1  
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和WordNet本体集成的文本分类模型,该模型利用WordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。  相似文献   

8.
本文开展了基于混合深度信念网络的多类文本表示与分类方法的研究,以解决传统的Bag-of-Words(BOW)表示方法忽略文本语义信息、特征提取存在高维度高稀疏的问题。文章基于文本关键字,针对多类的分类任务(如新闻文本和生物医学文本),以关键字的词向量表示作为文本输入,同时结合深度信念网络(Deep Belief Network,DBN)和深度玻尔兹曼机网络(Deep Boltzmann Machine, DBM),设计了一种混合深度信念网络(Hybrid Deep Belief Network,HDBN)模型。文本分类和文本检索的实验结果表明,基于词向量嵌入的深度学习模型在性能上优于传统方法。此外,通过二维空间可视化实验,由HDBN模型提取的高层文本表示具有高内聚低耦合的特点。  相似文献   

9.
介绍一个建立在向量空间模型上的文档分类系统。该系统着重解决向量维数压缩和中文专有词汇获取等问题。在特征项的选取上,我们并不采用文档中出现的全部词汇,而是利用语料库统计信息生成的关键词汇。实验结果表明,较之以采用全体词汇作为特征项进行分类的方法,本方法能有效地进行向量维数压缩,同时也提高了分类准确率。  相似文献   

10.
网上免费资源综述   总被引:10,自引:0,他引:10  
随着互联网的发展,网上免费资源已经影响到了图书馆的资源组成和未来发展。本对网上免费资源进行了分类,将其分为盈利性和非盈利性两大类,两大类又分别为新闻信息类、娱类和普及类;机构企业信息类和学术类五个小类,并对图书馆最为关心的学术类的网上免费资源作了综述。  相似文献   

11.
雷育生  甘仞初  杜顶 《情报学报》2005,24(4):445-448
运用复杂系统理论分析了向量空间模型(VSM)法进行大规模文本信息处理过程中自动生成特征词集方法的局限性。指出人机结合、定性定量综合集成的方法才是当前解决特征词集生成问题的根本途径。给出了一种人机结合的文本特征词集生成方法,并进行了实例验证。  相似文献   

12.
本文从理论上探讨了向量空间模型及其改进模型在专题文献过滤中的相关算法。概念扩充模型解决了词的同义现象,提高了召回率;潜在语义分析模型通过统计方法,提取并量化这些潜在的语义结构,进而消除同义词、多义词的影响,提高文本表示的准确性,从而使专题研究中文献过滤的召回率和准确率都有显著提高。  相似文献   

13.
曾文  徐红姣  李颖  王莉军  赵婧 《情报工程》2016,2(3):037-042
文本相似度的计算方法以采用TF-IDF的方法对文本建模成词频向量空间模型(VSM)为主,本文结合科技期刊文献和专利文献特点,对TF-IDF的计算方法进行了改进,将词频的统计改进为科技术语的频率统计,提出了一种针对科技文献相似度的计算方法,该方法首先应用自然语言处理技术对科技文献进行预处理,采用科技术语的自动抽取方法进行科技文献术语的自动抽取,结合该文提出的术语权重计算公式构建向量空间模型,来计算科技期刊文献和专利文献之间的相似度。并利用真实有效的科学期刊和文献数据进行实验测试,实验结果表明文中提出的方法优于传统的TF-IDF计算方法。  相似文献   

14.
基于词序方法的文本相似度计算模型   总被引:1,自引:0,他引:1  
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%.  相似文献   

15.
[目的/意义] 移动图书馆服务平台的改进需求识别对于进一步完善移动图书馆服务,提高用户满意度有重要意义。[方法/过程] 依托扎根理论,利用Nvivo软件对移动图书馆用户开放性调查所获取的文本数据进行分析,通过编码表达其数量特征和内容特征。[结果/结论] 移动图书馆服务平台的改进需求涉及“功能改进需求”“技术改进需求”和“用户关怀改进需求”3个主范畴,其中“功能改进需求”参考点最多。从子范畴来看,“功能丰富性”“功能适用性”“用户体验提升”最为受到用户的关注。利用10个树状节点、36个自由节点构成移动图书馆服务平台改进需求的结构体系。  相似文献   

16.
以矩阵理论作为研究的切入点,将经典向量空间模型中常用的向量和集合以矩阵的形式加以重构,并认为基于向量内积法的相似性计算与相应矩阵的乘法运算等价。结合稀疏矩阵和数据稀疏的定义,分析VSM信息检索背景下数据稀疏产生的原因;同时,讨论三种情形下数据稀疏对相似性计算的共同影响--部分毫无意义的时间复杂度。最后,给出规避数据稀疏问题的三层策略:文本级策略、文本集级策略和矩阵级策略。  相似文献   

17.
针对现有语义标注系统通用性差的问题,本研究设计了基于先导词算法的MARTT语义标注系统。MARTT利用有监督的机器学习方法从文本中提取领域规则,以适应不同的数据集。为了检验算法的效率,研究以中国植物志和北美植物志数据为样本,运用十折交叉论证方法与NB、SVM的标注性能进行了比较。结果表明,先导词算法在准确率、召回率及计算成本上均优于其它两种算法。而且,在两个不同的数据集上都获得了理想的结果,证实MARTT所具有的良好适应性。  相似文献   

18.
[目的/意义]基于内容的过滤推荐中,针对向量空间模型表示文本时容易造成维度灾难的问题,提出利用余弦值r与匹配度值Sim相结合的方法对原有模型进行改进。[方法/过程]由文献资源和用户兴趣分别筛选出权重较大特征词的词向量,进而由公式计算余弦值r,结合对应的特征词权重进一步计算出匹配度值Sim,将其作为向目标用户推荐文献的依据,并利用河北工业大学图书馆的相关数据对改进模型、向量空间模型及LDA主题模型进行实验,最后利用查准率、召回率、F1值及运行时间等评价指标对3种模型的实验结果进行分析。[结果/结论]实验结果表明所提出的改进模型相比较于实验中的向量空间模型与LDA主题模型具有更高的应用价值与运行效率。  相似文献   

19.
本文介绍一种基于句法分析和格式语义结构,被称为“语义矢量空间模式”的文献自动标引/检索技术。在此模式中,自然语言文献和检索提问均表示为语义矩阵。通过计算语义矩阵的相似值,检索系统可以预测文献与给定提问之间的相关度,从而达到检索相关文献的目的。初步试验结果表明,若文献及检索提问较长,特别是以原文献作为提问样本时,此检索技术与康奈尔大学的SMART系统相比,在检全率、检准率和相关排序有效性方面均有所改进  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号