共查询到19条相似文献,搜索用时 156 毫秒
1.
基于概念向量空间的文档语义分类模型研究 总被引:1,自引:0,他引:1
2.
基于文档结构的向量空间检索模型研究 总被引:9,自引:0,他引:9
分析了传统向量空间检索模型在网络信息检索中的不足 ,给出了基于文档结构的向量空间检索模型。该模型将文档在逻辑上分成N段 ,依据特征项对文档内容代表能力的不同 ,选择有限的最能代表逻辑段内容的特征项构造文本逻辑段的特征项向量与权值向量 ,并以此为基础计算文档与提问的匹配相似度值 ,从而决定匹配文档的检出与排列顺序。进行了两种模型算法时间复杂度的比较分析 ,讨论了改进模型的可能应用前景和存在问题。 相似文献
3.
4.
基于社会化标签网络的细粒度用户兴趣建模 总被引:1,自引:0,他引:1
针对目前由社会化标签抽取用户兴趣模型过程中存在的问题,在借鉴社会网络分析的基础上,提出构建网站层次和用户层次的社会化标签网络对用户产生的社会化标签进行序化,进而分别得到反映主题领域的社会化标签使用文档和用户标签网络,通过两者相似度的计算形成细粒度用户兴趣模型。实验结果能够验证该模型的科学性。 相似文献
5.
基于SUMO和WordNet本体集成的文本分类模型研究 总被引:1,自引:0,他引:1
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和WordNet本体集成的文本分类模型,该模型利用WordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。 相似文献
6.
文本分类相似度模型和概率模型的实现与比较* 总被引:1,自引:0,他引:1
刘华 《现代图书情报技术》2006,1(4):53-55
设计并建立一个基于向量空间模型和简单贝叶斯的文本分类系统,系统引入小类校正和兼类判断的算法,完成层级多标签的分类。进行基于向量空间模型和简单贝叶斯分类效果的对比,实验证明,在约3万篇测试集上(共15个大类,244个小类),基于向量空间模型的大类分类高25.2个百分点,层级小类分类高26.3个百分点。 相似文献
7.
介绍一个建立在向量空间模型上的文档分类系统。该系统着重解决向量维数压缩和中文专有词汇获取等问题。在特征项的选取上,我们并不采用文档中出现的全部词汇,而是利用语料库统计信息生成的关键词汇。实验结果表明,较之以采用全体词汇作为特征项进行分类的方法,本方法能有效地进行向量维数压缩,同时也提高了分类准确率。 相似文献
8.
许琦 《中国科技资源导刊 (中国信息导报)》2010,(4):55-60
文章提出一种基于语义知识库知网和向量空间模型理论的文档语义模型构建方法,论述知网知识描述方式
的特点,提出一种滑动窗口语义消歧算法,利用知网的义原层次体系对文档模型进行语义化处理,根据语境确定语义,
将模型特征项转换为关键词的义项,较好地解决了由于自然语言中存在的同义、近义、上下位等语义关系而产生的模型
偏差问题。通过计算义项相似度,加权得到文档相似度。实验证明,该方法较好地描述了文档特征,能够达到良好的聚
类效果,是切实可行的。 相似文献
9.
许琦 《中国科技资源导刊》2010,42(4)
文章提出一种基于语义知识库知网和向量空间模型理论的文档语义模型构建方法,论述知网知识描述方式的特点,提出一种滑动窗口语义消歧算法,利用知网的义原层次体系对文档模型进行语义化处理,根据语境确定语义,将模型特征项转换为关键词的义项,较好地解决了由于自然语言中存在的同义、近义、上下位等语义关系而产生的模型偏差问题.通过计算义项相似度,加权得到文档相似度.实验证明,该方法较好地描述了文档特征,能够达到良好的聚类效果,是切实可行的. 相似文献
10.
基于域加权词频法的XML文档级检索实现与评价 总被引:1,自引:0,他引:1
利用BM25F模型,通过实验,在INEX 04数据集的基础上,实现了对多个域(元素)词频进行加权的XML文档级检索。XML文档结构的确蕴含了一定的语义信息。利用这些语义信息,可以提高检索性能。表2。图1。参考文献16。 相似文献
11.
刘华 《现代图书情报技术》2007,2(3):43-45
设计并实现一个基于向量空间模型和简单贝叶斯的文本分类系统,系统采用层级多标签的分类策略。详细介绍词语切分统计、终分类器值计算、层级小类校正和兼类判断四个子系统模块。基于向量空间模型分类的第一级大类和层级小类的微平均分别为89.7%和77.8%,简单贝叶斯分别为67.6%和66.5%。 相似文献
12.
13.
汉语文本结构的自动分析 总被引:5,自引:1,他引:4
本文试图运用向量空间模型来确定文本段落之间内容的相关性,从而实现文本主题的自动分析,找出构成文本大主题的各个小主题,从这些小主题入手来实现自动文摘,可为自动文摘技术探索一条新途径。另一方面,通过文本结构的自动分析,可确定文本结构的类型,也为全文检索等信息处理技术提供一些有用的信息。 相似文献
14.
Text Categorization (TC) is the automated assignment of text documents to predefined categories based on document contents. TC has been an application for many learning approaches, which prove effective. Nevertheless, TC provides many challenges to machine learning. In this paper, we suggest, for text categorization, the integration of external WordNet lexical information to supplement training data for a semi-supervised clustering algorithm which can learn from both training and test documents to classify new unseen documents. This algorithm is the Semi-Supervised Fuzzy c-Means (ssFCM). Our experiments use Reuters 21578 database and consist of binary classifications for categories selected from the 115 TOPICS classes of the Reuters collection. Using the Vector Space Model, each document is represented by its original feature vector augmented with external feature vector generated using WordNet. We verify experimentally that the integration of WordNet helps ssFCM improve its performance, effectively addresses the classification of documents into categories with few training documents and does not interfere with the use of training data. 相似文献
15.
16.
The paper proposes a Vector Space Model over the Cayley-Klein Hyperbolic Geometry (referred to as Hyperbolic Information Retrieval = HIR) using a similarity measure derived from the hyperbolic distance. It is shown that the proposed model is equivalent with the classical Vector Space Model using Cosine measure with normalized weighting scheme. It is also shown that the categoricity of the new retrieval system can be varied by only modifying the radius of the hyperbolic space and without using a different weighting scheme and similarity measure, which is not the case in the VSM, where the same effect can only be obtained by both changing the weighting scheme and similarity measure at the expense of a more costly computation. Experiments are also reported to demonstrate and support the ideas, and they show that categoricity in HIR can be varied more than O(n) faster, where n is the number of index terms, than in the VSM. 相似文献
17.
利用改进的信息增益特征选择的方法,对文本进行了有效的自动聚类。从语料库中抽取了250篇文本,利用向量空间模型和信息增益特征降维方法,构造文本特征向量,并最终利用C-均值方法聚类,聚类结果精度、召回率、F-measure分别达到0.82、0.88、0.83。 相似文献
18.
基于向量空间模型的文献相关性数据库的研究与实现* 总被引:1,自引:0,他引:1
探讨“相关性”的概念,简述文献相关性数据库的研究现状,提出基于词表和特征项提取的向量空间模型,并在此基础上设计、构建中国生物医学工程文献相关性数据库及其检索系统。 相似文献
19.
在信息检索中,代数理论是构建检索模型的重要手段之一,以代数理论为基础的检索模型克服了布尔模型不能进行部分匹配的缺点而广为采用。本文分析了代数理论的向量空间模型,并对该模型进行了扩展:用最小项标引词以反映词与词之间的关系,用奇异值分解来捕捉文献的语义结构;最后对这三种模型进行了比较。 相似文献