首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
一种基于位置的改进中文文本特征选择   总被引:2,自引:1,他引:1  
通过引入位置因素修改TF IDF因子进行初次特征选择,提出一种基于位置的文本特征加权改进模型;再借助类别信息构造类别向量提高文本类别表示能力,进一步提出一种位置加权模式下基于类别信息的文本特征加权改进模型。随后的文本分类试验表明,该加权模型相较于传统的TF IDF方法,具有更好的文本分类效果。  相似文献   

2.
基于关键词的科技文献聚类研究   总被引:1,自引:0,他引:1  
描述一种基于改进TF IDF特征词加权算法的科技文献聚类方法:首先提取科技文献的特征词;然后根据特征词的词频、所在位置和词性为特征词加权,建立科技文献的向量空间模型;接着使用基于密度的聚类算法对科技文献向量空间模型数据进行聚类分析;最后使用主成分分析法对科技文献聚类的结果进行标识,利用F measure方法对聚类结果进行评价。实验表明,用提出的科技文献聚类方法能够从所检索的科技文献中发现热点研究领域,并能识别具有学科融合性质的研究方向。  相似文献   

3.
准确的科学主题预测能够明确学科未来的发展方向,为科研领域的发展规划和管理决策提供参考。本文着眼于新生科学主题的预测,基于知识单元重组视角,将主题-特征词的表征关系类比为科学概念-知识单元的表征关系,提出科学主题预测方法。首先,使用LDA (latent Dirichlet allocation)主题模型获取全局主题、特征词与概率矩阵,通过转置向量空间获得特征词向量;其次,运用ARIMA (autoregressive integrated moving average model)模型预测特征词的词频并计算向量调节系数,从而获得特征词预测向量,运用t-SNE (t-distributed stochastic neighbor embedding)算法将预测向量降维,并使用模糊C-均值算法将低维预测向量聚类生成预测主题,实现知识单元的重组;最后,筛选出由多个原始主题聚合而来、具有全新释义的预测主题,将其视为科学主题预测结果。本文以“知识管理-知识组织-知识服务”领域为例进行实证研究,预测出智库、数字人文等在已有领域研究中尚未出现的新词与相关主题,并通过特征词直接聚合与概念集成这两种主题...  相似文献   

4.
可获得性论体系结构中的文献单元网络(上)   总被引:12,自引:7,他引:5  
梁灿兴 《图书馆》2002,(2):8-13,7
基于图书馆的研究对象是“文献群中知识单元的可获得性”的观点,分析了文献单元网络发展的动力结构,提出自由知识网络是图书馆在互联网时代的新形态,从知识单元可获得性的发展规律中,论证了这种发展的必然性。  相似文献   

5.
设计面向综合性中文叙词表本体的叙词概念定义抽取方法,获得良好的实验效果并已投入实际应用。其中,基于"高频词与句子向量"和"TF*IDF向量"两种定义抽取算法提出的二维相对量的融合算法,能够更有效地抽取出前两种方法的良好结果,有效信息提高比一般可达到60%。  相似文献   

6.
论知识网络的结构   总被引:8,自引:0,他引:8  
详细探讨知识网络的结构组成,重点对知识节点及其类型进行全面深入的讨论:首先对构成知识节点的知识元.知识单元、知识因子、知识点等概念进行区别;其次提出知识关联包括同一性关联、隶属性关联和相关性关联三种关联类型;最后对与知识网络结构密切相关的知识链、知识链接等概念进行论述.  相似文献   

7.
中文文本关键词自动抽取方法研究   总被引:6,自引:1,他引:5  
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求.  相似文献   

8.
基于知识元的数字图书馆多粒度集成知识服务研究   总被引:1,自引:0,他引:1  
[目的/意义] 为满足用户多粒度的知识需求,提出一种数字图书馆多粒度集成知识服务模式。[方法/过程] 首先对知识元的类型与描述规则以及不同类型知识元的实体对象结构加以定义;然后根据知识元抽取、标引和链接的方法,提出基于显性、隐性知识链接的多粒度知识集合集成方法;最后通过规范化分解用户提交的知识需求,构建"需求——知识——资源"三级映射,实现数字图书馆多粒度的集成知识服务模式。[结果/结论] 该方法将知识服务的控制单位从粗粒度的文献单元,深入到以知识元、知识元集合为单位的细粒度知识单元中,为用户提供不同粒度的知识资源。  相似文献   

9.
可获得性论的文献及相关概念   总被引:18,自引:8,他引:10  
梁灿兴 《图书馆》2002,(1):9-15
基于图书馆学的研究对象是“文献群中知识单元的可获得性”的观点,分析了图书馆学的基本过程,得出了图书馆学的基本对象是知识单元、文献单元、文献单元网络、文献、文献群,并讨论了这些概念的定义。指出了文献单元是图书馆学对文献研究的侧重点。  相似文献   

10.
基于知识元的学术论文内容创新性智能化评价研究   总被引:1,自引:0,他引:1  
[目的/意义] 创新性是对学术论文质量最基本的要求,是学术论文的灵魂,是学术论文评价的核心。知识元是学术论文基本组成单元。基于知识元理论和机器学习相关理论与算法,从学术论文内容层面研究计算机如何智能化地进行创新性评价及其实现过程与方法。[方法/过程] 首先,构建学术论文的研究问题、理论、方法、结论4个知识元本体,接着提出基于知识元的学术论文创新性判断模型。其次,根据学术论文研究特点,构建理论与方法机器分类模型及知识元的抽取规则与抽取方法,建立规则库和知识语料库。最后,基于语义相似度计算方法,根据判断规则和相关权重对学术论文4个维度的创新性进行评分。[结果/结论] 基于知识元抽取的学术论文创新性评分系统的实证结果表明,该智能化评价方法具有一定的可行性,可为学术论文内容创新性智能化评价系统的最终实现提供方法借鉴。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号