首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 484 毫秒
1.
WordNet与SUMO本体之间的映射机制研究   总被引:1,自引:0,他引:1  
针对本体概念与自然语言词汇之间存在普遍性与特殊性的矛盾,以WordNet同义词典和SUMO本体为研究对象,对两者进行简要概述,详细分析两者之间的映射动机,提出自然语言词汇、WordNet同义集和SUMO本体概念之间的映射模型,并深入分析WordNet同义集与SUMO本体概念之间的映射实例、映射效果及应用。希望藉此更好地利用WordNet同义词典与SUMO本体概念之间的映射关系去解决本体概念与自然语言词汇之间的矛盾,促进本体更广泛地应用于智能检索、语义分类、数据挖掘等领域。  相似文献   

2.
基于概念向量空间的文档语义分类模型研究   总被引:1,自引:0,他引:1  
针对传统文档自动分类方法和目前语义分类方法中存在的问题,提出一种新的基于概念向量空间的文档语义分类模型,该模型通过字符匹配算法将原文档高维词向量空间中相互独立的词项匹配到描述本体概念的属性集合,进而映射成属性集合对应的本体概念,形成低维的、语义丰富的文档概念向量空间。采用目前非常流行的数据集“20Newsgroups”作为实验数据集,对基于概念向量空间的文档语义分类模型进行实验验证。实验结果表明:提出的文档语义分类方法与传统基于词向量空间的文档分类方法相比,能够极大地降低向量空间维度,提高文档分类的性能。   相似文献   

3.
基于领域本体和概念向量的中文文本相似性测度研究   总被引:2,自引:0,他引:2  
文本相似性测度被广泛用于计算用户提问与文档资源相关程度以及基于内容相似资源推荐。OCVSM是一种基于领域本体和概念向量相似性测度的方法。该方法将军用飞机领域知识本体OntoAvion的概念集作为词汇抽取特征项,根据本体中概念间的关系确定特征项的相似度,最后利用余弦算法计算文本向量相似度。实验证明,该方法与基于语言学词典的相似性测度方法相比,更接近用户对文本相似性的判断。表10。图5。参考文献10。  相似文献   

4.
基于本体概念的矢量检索模型研究   总被引:1,自引:0,他引:1  
聂卉  龙朝晖 《图书情报工作》2007,51(9):121-123,134
针对传统矢量空间模型文本特征值的计算,给出将文本的评价由基于语法的词条空间转化为概念空间的方法和策略:基于领域本体,依据本体概念间的各种关联,先以一定的映射规则,将词条映射到领域的概念术语空间;然后用概念统计和语义归纳替代传统的词频统计,从概念语义的层次计算文本的特征矢量。实验证明,基于本体概念的矢量检索模型能够有效地表达文本的语义内容,获得更好的检索效果。  相似文献   

5.
法律框架本体与顶层本体SUMO的映射研究   总被引:2,自引:0,他引:2  
本体映射是本体集成的关键环节,也是实现本体间知识共享和重用的主要方法。本文从映射的方法入手,通过将法律框架本体的框架、词元、语义类型和框架元素分别与SUMO中的类建立联系来实现法律框架本体与SUMO映射的目的。  相似文献   

6.
基于字频向量的中文文本自动分类系统   总被引:15,自引:3,他引:12  
王梦云  曹素青 《情报学报》2000,19(6):644-649
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字一类别两个向量空间的映射函数,并用该函数对测试文本进行分类。  相似文献   

7.
为了有效处理文本中的复杂语义问题,提出了一种基于领域本体的SOM文本逐层聚类方法.该方法基于领域本体的概念及其逻辑语义关系,将文本向量的表示从词的层面上升到主题概念层面,大大消减了文本向量的维数,提高了聚类效率.基于领域本体的概念层次关系,采用SOM算法实现文本的逐层聚类,以分层方式组织文档,方便用户由粗到精、由总体到局部地查阅文本集.通过无人机领域的Web文本聚类实验,验证了该方法的有效性.  相似文献   

8.
经典向量空间模型中关键词相互独立的基本假设,造成了检索性能的限制.针对这一问题,本文介绍并分析了国内外学者对经典向量空间模型提出的改进研究.针对其研究的不足,通过分析经典向量空间模型的特点,构建领域本体以建立向量空间模型中关键词之间的语义联系,通过计算关键词之间的语义相似度,提出语义增量的概念,对关键词之间的语义联系进行量化分析.结合语义增量,对TF-IDF算法进行了改进,提出了STF-IDF算法,据此建立了语义向量空间模型,以期待提高经典向量空间模型在语义检索方面的性能.最后用实例验证了该模型在查全率和查准率方面均要优于原模型.  相似文献   

9.
介绍一个建立在向量空间模型上的文档分类系统。该系统着重解决向量维数压缩和中文专有词汇获取等问题。在特征项的选取上,我们并不采用文档中出现的全部词汇,而是利用语料库统计信息生成的关键词汇。实验结果表明,较之以采用全体词汇作为特征项进行分类的方法,本方法能有效地进行向量维数压缩,同时也提高了分类准确率。  相似文献   

10.
一个中文文本自动分类数学模型   总被引:9,自引:1,他引:8  
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。  相似文献   

11.
提出一种新的领域本体学习方法,结合形式概念分析(FCA)与关联规则挖掘从非结构化文本中获取情报学本体。该方法从文本集中通过种子-扩展机制的方法获取领域核心概念,构建文档概念格(文档×关键词矩阵),在此基础上通过形式概念分析方法来识别概念之间的等级关系,通过关联规则挖掘概念间的相关关系。最后,采用基于"黄金标准"的方法对本体学习的结果进行评价,结果表明:通过这种方法构建的本体可以达到较高的领域知识覆盖率,而且能够识别概念之间部分隐含的关系,从而验证该方法在领域本体的构建中实用且有效。  相似文献   

12.
国内外主要本体库比较分析研究   总被引:2,自引:0,他引:2  
介绍4种国内外主要的通用本体库WordNet、DBpedia、Cyc、HowNet和两个比较成功的专业领域本体库生物医学和企业领域本体库,从描述语言、存储方式、查询语言、构建平台和应用领域5个方面分别对4种通用本体库和领域本体库进行比较分析,为国内外学者在本体库及其应用研究方面提供帮助。  相似文献   

13.
针对汉语框架网络本体(CFN)在词汇覆盖面及语义分析和推理中存在的不足,在充分分析其结构的基础上,通过将其与另外两大知识库WordNet和VerbNet的集成,以增强汉语框架网络本体的广度和深度,从而达到构建一个功能强大的汉语框架网络本体知识库的目的。  相似文献   

14.
Text Categorization (TC) is the automated assignment of text documents to predefined categories based on document contents. TC has been an application for many learning approaches, which prove effective. Nevertheless, TC provides many challenges to machine learning. In this paper, we suggest, for text categorization, the integration of external WordNet lexical information to supplement training data for a semi-supervised clustering algorithm which can learn from both training and test documents to classify new unseen documents. This algorithm is the Semi-Supervised Fuzzy c-Means (ssFCM). Our experiments use Reuters 21578 database and consist of binary classifications for categories selected from the 115 TOPICS classes of the Reuters collection. Using the Vector Space Model, each document is represented by its original feature vector augmented with external feature vector generated using WordNet. We verify experimentally that the integration of WordNet helps ssFCM improve its performance, effectively addresses the classification of documents into categories with few training documents and does not interfere with the use of training data.  相似文献   

15.
针对语义检索在实际应用中面临的用户查询意图获取困难、潜在语义索引计算复杂、领域本体覆盖范围小、概念语义类型不丰富、自动化程度低等问题,提出基于WordNet和SUMO本体集成的自动语义检索及可视化模型。实验表明这种模型能够过滤掉大量与用户查询无关的信息,提高信息检索系统的检准率,并很好地满足用户可视化和个性化检索需求。  相似文献   

16.
Taxonomy、Folksonomy和Ontology的分类理论及相互关系   总被引:3,自引:0,他引:3  
Taxonomy(知识分类学)是关于具体或抽象事物的分类组织的学科与方法,Folkson.omy(分众分类)是大众自发的用标签对网络信息分类标识和共享的资源组织方法,Ontology(知识本体)是从语义和知识层次上描述构架信息系统的概念模型.本文归纳整理了这三个与分类相关的概念及其特性,并进一步厘清这些相关概念间的关系,希望研究结果有助于加深对分类相关概念的理解及应用.  相似文献   

17.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号