首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
《中文新闻信息分类》标准经过历时一年8个月的研制及反复检测论证,在2005年9月2日专家评审会上,标准审查委员会一致通过对《中文新闻信息分类》国家标准(送审稿)的审查,建议标准起草组尽快形成报批稿,上报国家标准化管理委员会作为推荐性国家标准发布实施。作为我国第一部即将上报的新闻信息分类标准,《中文新闻信息分类》标准的研制工作取得了初步的成果,但能否在业界真正实现应用,达到整合全球中文新闻信息的目的,最为关键的是下一步技术支撑的构建。因此,只有建立自动标引系统,实现自动分类,《中文新闻信息分类》标准的现实价值才能真正体现。本文提出了实现自动标引的整体构想,希望为《中文新闻信息分类》标准下一步的研究与实际应用有所贡献。  相似文献   

2.
探讨我国网络新闻资源分类标引体系   总被引:2,自引:0,他引:2  
目前我国还没有统一的网络新闻信息分类标准,各家媒体各自为政,造成了网络新闻信息系统的重复建设,资源浪费严重。多元的新闻信息标引体系,不利于软件商进行自动分类标引软件的开发,不利于新闻信息全面而准确的检索,不利于网络新闻资源系统的发展,更不利于用户对新闻信息资源的使用。研究并制订统一规范的网络新闻信息分类标引体系,是当务之急。  相似文献   

3.
查贵庭  侯汉清 《情报学报》2002,21(3):273-277
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。  相似文献   

4.
Factiva新闻分类标引体系及其对我国的启示   总被引:1,自引:0,他引:1  
李安 《图书馆建设》2003,127(6):102-104
目前,我国还没有统一的新闻分类标准,这将有碍于我国新闻编辑工作和数据库建设的开展,因为标准化、国际化和科学化的分类标准,是编辑处理庞大新闻信息资源,开发各种自动分类和标引软件,进而组织多媒体数据库的基础。笔者认为,全面规划,统一协调,借鉴国外成果,结合中国国情,才能形成有中国特色的新闻信息分类体系。本文介绍国外新闻分类成果之一——Factiva分类标引体系,并提出其对我国新闻信息分类法编制工作的几点启示。  相似文献   

5.
我国新闻事业的飞速发展,新闻信息资料呈现急剧膨胀的态势。互联网的不断普及,使信息出现网络化、海量化、多元化、迅捷化的新特点,导致新闻信息资料的交流和共享日益迫切。面对海量增长的新闻信息,大家普遍感到查找有用的新闻信息资料越来越困难,迫切要求改变目前国内中文新闻资料分类标准不统一的状况,尽早制定全国统一的新闻资料分类标准,并在此基础上实现新闻信息的自动标引。  相似文献   

6.
基于知识库的网页自动标引和自动分类系统的设计   总被引:15,自引:0,他引:15  
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。  相似文献   

7.
近五年来自动标引研究在关键词抽取、标引系统设计、自动分类标引、网络信息自动标引、数字图像标引、音频信息标引、视频信息标引、自动标引结果评价等方面取得很大进展,但尚存弱点与不足之处,还不能达到人工标引的效果。今后的研究将朝着探索更优越的语言分析技术、更高端的多媒体信息自动标引方法、高效的知识库智能自学习机制、多种标引方法或模型的互补的集成学习等方向发展。  相似文献   

8.
使用基于《中图法》知识库的中文信息自动标引和自动分类系统,对中文图书进行自动标引与自动分类的实验,以测试该系统对图书的适用性。实验通过对中文图书进行计算机自动标引与自动分类、人工打分测评、测试结果统计分析,得出中文图书的各标引源主题表达能力依次为:书名、内容提要、两级目次、参考文献、一级目次,在此基础上对标引源进行加权设计,权值设为5:3:2:2。实验证明该系统用于中文图书的自动标引与自动分类是可行的。表6。参考文献9。  相似文献   

9.
分类法主题法一体化自动标引系统的基本原理和方法   总被引:7,自引:0,他引:7  
本文阐述基于文献题名的自动标引系统的原理和方法,该系统是分类法主题法一体化的。文中说明了依据文献题名对文献进行分类和主题标引的可行性、从题名中自动轴词、以体系分类法为基础的自动分类用分类词表、自动分类规则及以分面分类法为基础的文献自动分类、自由体系自动分类、半自动抽词、检索系统的分类法主题法一体化检索功能保证检索系统质量的关键因素等问题。  相似文献   

10.
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论.  相似文献   

11.
文献自动分类就是实现书本分类法的机读化,利用计算机对文献进行分类标引.本文分别从分类标引人员和用户检索等不同的角度分析了自动分类系统建设过程中应考虑的事项.  相似文献   

12.
基于集成学习的自动标引方法研究   总被引:1,自引:0,他引:1  
目前大多数自动标引方法不能有效利用文本中包含的多个特征.而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取.同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量.为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引.实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率.另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果.  相似文献   

13.
何琳  侯汉清 《中国索引》2006,4(1):39-43
由于《中国图书馆分类法》的类目数目庞大和文献在各类目上分布的不均衡,导致基于机器统计学习的自动分类技术在此类多层分类上的力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过两种分类技术相结合的方法对信息资源进行分类,提出了用相关度度量来测定关键词和类目概念之间的关联,构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配,并在小规模的测试集上得到了较好的效果。本文详细讨论此种分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。  相似文献   

14.
基于语料和基于标引经验的自动分类模式比较   总被引:1,自引:0,他引:1  
以传统文献分类体系为框架,构建知识库或分类器来实现信息的自动分类是信息加工自动化的一个发展方向。这种自动分类系统一般有两种模式:基于训练语料和基于人工标引经验。我实验室分别在这两种模式的基础上设计开发了两个不同的自动分类系统。本文将详细介绍这两个自动分类系统的结构、设计及其构建,然后分别从原理、知识库构建、分类算法等方面对这两者进行比较分析。  相似文献   

15.
章成志 《中国索引》2009,7(2):16-23
目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明,基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。  相似文献   

16.
从目前数字图书馆的实际困难出发,提出一个依托《军事信息资源分类法》,挖掘人工标引经验,用之于自动分类的方案。  相似文献   

17.
基于标引经验和机器学习相结合的多层自动分类   总被引:6,自引:0,他引:6  
由于《中国图书馆分类法》类目数目庞大且各类目上文献分布不均衡,导致基于机器统计学习的自动分类技术在这种多层分类体系上力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过将两种分类技术相结合的方法对信息资源进行分类,提出了用相关度来测定关键词和类目概念之间的关联,构建关键词、分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。  相似文献   

18.
基于UCL的网页信息自动标引技术研究   总被引:1,自引:0,他引:1  
参照都柏林核心元数据规范构建网页信息的标引框架,提取网页特征信息,采用ADO技术实现网页信息的自动标引,实验结果表明,标引信息映射到网页的正确率为100%。最后,将标引技术应用到互补结构网络智能代理终端,验证UCL标引方法的有效性。实验结果显示,通过基于UCL的网页信息自动分类及标引技术能够实现信息的主动服务,满足用户的个性化需求。  相似文献   

19.
贺七一 《中国索引》2004,2(4):49-52
黄页分类工作是电话号码簿编辑的主要工作之一。黄页公司一直致力于探索运用计算机技术对黄页数据分类进行自动标引。1998年开始进行人机对话的计算机自动切分工作,现切分结果的正确率达到了60%以上,标引速度达到了每小时1200条。  相似文献   

20.
基于字频向量的中文文本自动分类系统   总被引:15,自引:3,他引:12  
王梦云  曹素青 《情报学报》2000,19(6):644-649
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字一类别两个向量空间的映射函数,并用该函数对测试文本进行分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号