首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   35篇
  免费   0篇
  国内免费   2篇
教育   8篇
科学研究   16篇
各国文化   1篇
信息传播   12篇
  2015年   1篇
  2012年   3篇
  2011年   4篇
  2010年   3篇
  2009年   6篇
  2008年   4篇
  2007年   5篇
  2006年   6篇
  2005年   2篇
  2003年   1篇
  2000年   1篇
  1999年   1篇
排序方式: 共有37条查询结果,搜索用时 31 毫秒
1.
在海量信息中检索时,与用户查询相关的信息常常被漏掉,而与查询无关的信息———信息垃圾,却大量地出现在检索结果中。改进文本信息检索系统的质量,提高检索效能,已成为亟待解决的问题。本文针对能够影响检索效力的一个易被忽略的因素———修饰语,研究其在文本信息检索中的作用。为此,构建了修正的向量空间模型(Modified Vector Space Model,MVSM),并以英文文本进行试验,进而说明修饰语的作用。  相似文献   
2.
基于VSM的文本分类挖掘算法综述   总被引:2,自引:0,他引:2  
简要介绍了VSM和文本分类挖掘的流程,分析了基于统计方法和基于机器学习的6种常用构造文本分类挖掘分类器的算法,指出了利用各种算法构造的分类器的特点,同时给出了这些算法的优化方向,为使用者选择、学习、改进算法提供依据。  相似文献   
3.
适用于隐含主题抽取的K最近邻关键词自动抽取   总被引:1,自引:0,他引:1  
众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现.本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法.现有的关键词抽取技术仅仅是对正文词汇的抽取,不能抽取隐含主题.隐含主题的抽取是关键词自动抽取技术的难点,但是该方法可以有效抽取隐含主题.该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理.实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题.  相似文献   
4.
认为读者兴趣建模是实现图书馆主动信息服务技术的关键,传统的VSM向量模型不能很好地从读者的图书访问行为记录中提取更多的信息用于建立用户兴趣模型。提出一种新的读者兴趣建模技术,对传统VSM模型加以扩展,从读者的静态特征信息和不同的访问行为信息中构建两层结构的兴趣模型,可以更精确地发现和描述读者的阅读偏好,提高主动信息推送的准确性。
  相似文献   
5.
基于改进VSM的中文问答系统研究   总被引:1,自引:0,他引:1  
针对向量空间模型中的权重计算公式仅考虑词语项在文档中的相关频数,提出词语项本身的领域权重概念,改进了向量空间模型的权重计算.同时结合关键词距离和关键词顺序信息,实现了句子相似度计算,以特定课程的FAQ库检索作S@n测试对比,结果表明改进后的相似度模型提高了s@n值  相似文献   
6.
一个基于反馈的信息过滤系统的设计与实现   总被引:7,自引:0,他引:7  
随着互联网上信息的迅速增长 ,信息过滤技术得到越来越广泛的应用。本文论述了一个基于反馈的内容信息过滤系统的设计和实现。它采用向量空间模型 ,使用类重心分类算法来形成用户兴趣文件 ,采用余弦算法比较待过滤文档和用户兴趣文件的相似度 ,并使用Rocchio反馈模型来重建用户兴趣文件。实验表明 ,本文提出的策略和方法是切实可行的  相似文献   
7.
介绍了一个基于Web挖掘技术的财经类搜索引擎的实现的关键技术,提出了类别向量的概念以及如何将Web结构挖掘和内容挖掘结合起来,并利用改进的VSM技术实现网页自动分类.  相似文献   
8.
An automatic patent categorization system would be invaluable to individual inventors and patent attorneys, saving them time and effort by quickly identifying conflicts with existing patents. In recent years, it has become more and more common to classify all patent documents using the International Patent Classification (IPC), a complex hierarchical classification system comprised of eight sections, 128 classes, 648 subclasses, about 7200 main groups, and approximately 72,000 subgroups. So far, however, no patent categorization method has been developed that can classify patents down to the subgroup level (the bottom level of the IPC). Therefore, this paper presents a novel categorization method, the three phase categorization (TPC) algorithm, which classifies patents down to the subgroup level with reasonable accuracy. The experimental results for the TPC algorithm, using the WIPO-alpha collection, indicate that our classification method can achieve 36.07% accuracy at the subgroup level. This is approximately a 25,764-fold improvement over a random guess.  相似文献   
9.
基于词典约简及多分类算法的文本分类系统的设计与开发   总被引:3,自引:1,他引:2  
文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一.本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施.具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等.通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性.本文详细讨论了相关改进措施的原理、实现算法、流程及存在的问题.  相似文献   
10.
VSM中词权重的信息熵算法   总被引:3,自引:1,他引:2  
刁倩  王永成  张惠惠  何骥 《情报学报》2000,19(4):354-358
本文提出一种基于Shannon信息熵的向量空间模型(VSM)中的词权重算法。同时结合词与文献的相关权重的经典计算方法IDF(InverseDocumentFrequency),进一步总结了向量空间模型(VSM)中两种词权重计算的具体公式。  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号