首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
有效避免伪反馈的"查询主题漂移"主要需要解决两大问题,一是如何确定相关文档,形成较高质量的伪相关文档集,另一个是在伪相关文档集里如何挑选扩展信息.本文主要研究在获取了高质量伪相关文档集合的基础上如何有效进行XML查询扩展.针对XML文档的特点,提出了扩展向量空间模型的查询词扩展方法.实验结果表明,与初始查询和传统的词项扩展方法相比,该扩展方法更能获得与用户查询意图相关的扩展信息,更能有效地提高检索质量和性能.  相似文献   

2.
介绍一个建立在向量空间模型上的文档分类系统。该系统着重解决向量维数压缩和中文专有词汇获取等问题。在特征项的选取上,我们并不采用文档中出现的全部词汇,而是利用语料库统计信息生成的关键词汇。实验结果表明,较之以采用全体词汇作为特征项进行分类的方法,本方法能有效地进行向量维数压缩,同时也提高了分类准确率。  相似文献   

3.
在网络环境日趋复杂、电子文档的信息安全保障工作难度也日趋加大的情况下,电子文档信息安全保障能力成为检验文档信息利用服务水平的一项重要指标。电子文档的安全防护涉及全社会、多领域以及多学科,因此,它是一个复杂的、庞大的系统工程。这就促使我们必须结合国家的相关规定,站在战略的高度对电子文档的安全保障工作进行统筹考虑,从而为其建立起行之有效的安全保障体系。基于此,本文进行如下探讨。  相似文献   

4.
基于文档结构的向量空间检索模型研究   总被引:9,自引:0,他引:9  
韩毅 《情报学报》2004,23(2):158-162
分析了传统向量空间检索模型在网络信息检索中的不足 ,给出了基于文档结构的向量空间检索模型。该模型将文档在逻辑上分成N段 ,依据特征项对文档内容代表能力的不同 ,选择有限的最能代表逻辑段内容的特征项构造文本逻辑段的特征项向量与权值向量 ,并以此为基础计算文档与提问的匹配相似度值 ,从而决定匹配文档的检出与排列顺序。进行了两种模型算法时间复杂度的比较分析 ,讨论了改进模型的可能应用前景和存在问题。  相似文献   

5.
王松林 《图书馆》1994,(4):20-22
本文考察了计算机文档的发展源流,根据AACR_2R第九章的改动情况,详细介绍了计算机文档的定义及其载体形式、著录用信息源、文档特征项及文档著录标识等有关知识,对于西文计算机文档的著录有一定的意义。  相似文献   

6.
基于主题概念的多文档自动摘要研究   总被引:4,自引:0,他引:4  
文章叙述了一种针对大规模文档集的综合性自动摘要的研究与实践。首先利用HOWNET来计算文献主题概念的内聚度,在此基础上,处理文档之间的相关度以及各自在整个文档集中的主题重要度等特征;其次阐述了基于文档综合主题辞和综合优先度的多文档自动摘要生成原理。实验结果表明,该系统经过对新闻多文档集进行综合性分析,生成的能有效地反映重要的主题内容。  相似文献   

7.
文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(K-Nearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。  相似文献   

8.
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内容与结构语义相融合的XML语义相似性度量方法.同时,针对IEEE数据集无法提供每篇文档的类别信息,本文从相关文档的分布情况引入了相关簇率和相关文档分布率的概念来进行聚类质量评价.数据集IEEE CS上的实验表明,与同类相似性度量方法和传统方法相比,本文所提方法具有可行性和更好的聚类效果.  相似文献   

9.
姚长青  杜永萍 《图书情报工作》2012,56(18):50-53,109
舆情跟踪是对媒体信息流中的热点话题进行实时追踪,是近年来自然语言处理领域的研究热点。实现该任务的核心技术是进行文本分类,运用信息增益以及互信息计算特征项权重,提取向量空间模型中文档表示的有效特征;分别采用Rocchio、K-Nearest Neighbor(KNN)、Bayes方法对于给定主题的事件实现舆情跟踪。在测试集上的最优性能F-Measure值达到86.2%。舆情跟踪在信息安全等领域具有广阔的应用前景,为用户及时判断网络热点事件的发展趋势提供有效指导依据。  相似文献   

10.
数字档案馆的安全防范——数字档案馆研究之七   总被引:3,自引:1,他引:3  
一 "维护档案的完整与安全",是我国档案工作基本原则的重要内容之一,也是档案工作者的基本职责之一.数字档案馆要维护其馆藏电子文档的完整与安全,较传统档案馆维护传统文档的完整与安全,难度大大增加.因为,数字档案馆保管的电子文档因其数字化的特征而增加了保管的复杂性(如需要建立电子文档的内容信息、背景信息、结构信息、外形特征信息等的组合保管模式)和安全维护的难度,再加上数字档案馆运行的网络环境本身的安全性极其脆弱,从而使得数字档案馆面临着严重的安全问题.那么,数字档案馆如何实施有效的安全防范呢?"数字档案馆的安全包括网络、系统、信息、物理等方面,要由可靠的技术措施和完善的管理制度来保证多方面的安全."①  相似文献   

11.
电子档案对档案工作者的挑战   总被引:1,自引:0,他引:1  
在信息时代,随着科学技术的不断向前推进,档案载体也随之多样化,电子文件、电子档案的出现,呼换着全新的文档工 作模式。本文就电子文件、电子档案的出现,档案工作者如何更新观念能更好地适应时代的发展需要,促进档案事业与时代发展相适应 做了探讨。  相似文献   

12.
基于坏账风险控制的企业客户档案管理研究   总被引:1,自引:0,他引:1  
客户档案管理是企业信用管理和档案部门的基础性工作,在企业坏账风险控制和管理的各个环节有着广泛的用途。企业客户档案主要包括基础性原始资料和标准的企业资信调查报告。建立企业客户档案应遵循集中、动态和分类管理的原则;在管理模式上应根据企业规模因地制宜,重视客户档案数据库的建设和管理。  相似文献   

13.
方志物产挖掘及系统构建   总被引:1,自引:0,他引:1  
本文首先根据方志文献的行文特征,设计一个统一规范的方志文献文档处理格式,用于文本文档的预处理.本文建立方志全文数据库,并基于数据库构建一个物产挖掘系统,进行物产信息挖掘,方法如下:通过抽取数据库正名字段内容识别物产正名,通过模式识别方法识别物产异名别称.最后建立包含物产正名和异名别称的物产标引词典,对全部物产文献进行标引,从而挖掘出物产名称.经测试,异名别称的识准率为71.6%,识全率为88.6%,表明系统是可行的.  相似文献   

14.
论档案信息服务均等化——以公共档案馆为视角   总被引:1,自引:0,他引:1  
档案信息服务均等化是社会公共服务均等化的一个重要方面。文章在简要介绍档案信息服务均等化的内涵和主要内容之后,阐述了公共档案馆在推进档案信息服务均等化过程中的优势,并指出在此过程中,公共档案馆是主导力量,发挥着主力军的作用。最后,以公共档案馆为理论视角,提出了一系列推进档案信息服务均等化的措施和攻略。  相似文献   

15.
Traditionally, clippings of newspaper articles, pictures from magazines, pamphlets, charts, graphs, posters, proceedings, or copies thereof, and other miscellaneous information sources have been stored in vertical files in libraries. The practice of creating and maintaining vertical files is extremely time consuming. In a medical library, in particular, old information about diagnosis, treatment, and prognosis can quickly become incorrect, misleading, and possibly harmful. Adequately tending to the vertical files can require a librarian to create a balancing act between properly maintaining vertical files and meeting the needs of the users in other areas of the library. The maintenance of vertical files is, by nature, highly consumptive of paper and space consuming. A reasonable alternative to the traditional vertical files is the World-Wide Web. Search engines exist for locating specific information, and bookmarks and/or links which point users to particularly useful sites can be set in search software. Some methods for searching are discussed, and a variety of World-Wide Web information sources are offered.  相似文献   

16.
王协舟  刘安福 《图书馆》2007,(1):105-108
文章分析了现代信息服务系统中的档案信息服务,并对档案信息服务的产业化特点及其与公益型档案信息服务的关系进行了探讨。  相似文献   

17.
随着规范控制工作的国际化,国际名称规范文档共建共享成为必然趋势。本文对影响名称规范文档共享的要素——名称规范文档遵循的编目规则、采用的描述格式和数据元素构成的差异进行分析,基于虚拟国际规范文档(VIAF)匹配思路,通过中国高等教育文献保障系统管理中心(CALIS)、香港中文名称规范数据库(HKCAN)和VIAF的数据匹配实验,分析当前国内规范文档存在的问题:名称规范文档记录不全,检索结果输出不按相关度排列,国内各机构对中国人名的拼音标目不规范。本文在控制规则、附加信息、数据模型等方面提出相应对策,以提高文档的共享效率,希望能为推动我国规范控制工作的国际化进程提供参考。图2。表4。参考文献19。  相似文献   

18.
文章针对档案信息资源开发的理论基础、计算机技术的运用对开发工作的影响以及新形势下如何做好档案信息资源开发工作等进行了论述,并在此基础上探讨了文件工作档案工作一体化和图书情报档案一体化的相关理论基础及其对档案信息资源开发的影响和其实施的可行性.  相似文献   

19.
汤刘柳  李海涛 《山西档案》2020,(2):125-130,39
保障电子文件的真实性是推动电子文件单轨制管理实践的首要技术支点。研究从技术视角出发,以电子文件真实性保障的技术条件为切入点,首先明确了单轨制管理模式下电子文件真实性的涵盖内容、结构、背景信息三要素,其次以X工程电子文档管理系统建设实践为例,结合项目创设的PKI公钥基础设施以及CA系统架构总结项目采用的基础型和应用型两类关键技术,探讨单轨制管理模式下电子文件真实性保障的技术策略。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号