首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
通过分析研究网络学术文献的主要来源、常用文件格式及Heritrix的工作原理,制定基于Heritrix的网络学术文献获取方案,从种子站点选择或抓取任务配置、文件类型和大小过滤以及学术文献判定等方面对整体方案进行具体设计和分析,并搭建实验平台,编写相关程序进行实验以验证该方案的可行性,最后指出后续研究方向。  相似文献   

2.
针对新闻组的海量性及相关编码特点设计新闻帖抓取流程,采用多线程方式加快新闻帖的抓取及解析速度,同时设计一种便于海量数据断点续传的数据存储结构,通过实验采集验证该方法能有效达到信息检测的数据采集要求,抓取及解析新闻帖的速度比普通单线程抓取解析方式有显著提高。  相似文献   

3.
&;nbps;&;nbps;文本分类是目前国内外理论研究的热点领域,在信息检索、数据挖掘、垃圾邮件过滤、数字图书馆等领域具有广泛的应用。随着新一代语义Web的出现和人们对网络信息资源语义分类的需求,基于关键词加权的向量空间模型表征文本的分类方法逐渐呈现出一些问题,如忽略词间重要语义信息,不能解决同义词、多义词、词间上下位关系等;在对海量文献分类时,向量空间维度过高,出现内存不足,分类速度慢等。这些问题的出现为文本分类领域的研究带来新的挑战和研究视角,促进了文本分类新技术和新方法的不断涌现。
&;nbps;&;nbps;在这样的大背景下,针对文本分类方法在发展过程中出现的问题,围绕“本体及其在文本分类中的应用”和“海量网络学术文献自动分类”两个方面展开深入的研究,笔者有幸申请到国家社会科学基金一般项目“海量网络学术文献自动分类研究(项目编号:10BTQ047)”和教育部人文社会科学一般项目“基于本体集成的文本分类关键技术研究(项目编号:09YJA870019)”。  相似文献   

4.
文献分类是图书馆学情报学领域的一个传统研究问题。实用化的中图法自动分类系统最重要的一个要求就是能够将文献精确地自动分类到三级或四级类目之下,这意味着需要将特定文献较为精确地自动分类到上千个类目之下。为了构建面向实际应用的科技文献中图法自动分类引擎,本文基于层次分类思想,设计和实现了一个基于多层分类器集群的科技文献自动分类引擎系统,并重点解决了科技文献自动分类引擎建设中的四个关键问题:①如何获取并构建大规模高质量分类训练数据以提升自动分类效果;②如何设计和实现多层分类器集群以有效解决上千个类目自动分类的准确性;③如何面向现实要求来优化处理流程以提升分类速度;④如何设计和开放接口以支撑引擎的开放调用。最终构建了科技文献自动分类引擎,各项指标达到了实用化要求,初步实现了基于中图法的自动分类系统的实际应用。图4。表7。参考文献16。  相似文献   

5.
从海量的学术文献中自动发现有价值的高质量文献和研究点的时序演变路径是现代学术趋势分析领域的重要研究内容.本文探讨了一种将引文分析技术、语义本体技术和可视化展示技术进行有效结合的学术文献关键路径自动识别方法和可视化呈现方法,通过结合时间维度,它可以更好帮助学者用户发现有价值的高质量文献群及其相关联系.该方法主要建立在基于振荡算法的学术文献权值算法,和利用基于引文关键词加权共现技术的领域本体设计的引文链接权值算法之上,同时提供了完整的可视化展示界面.最后,文章对相关测试实验做了详细的说明.  相似文献   

6.
丁洁  王曰芬 《图书情报工作》2014,58(15):135-141
在综合国内学术信息检索服务的现状和现有理论方法研究的基础上,以检索词推荐为研究对象,构建基于文献特征项共现网络的学术信息检索词推荐模型。模型包括基础文献存储模块、文献特征项抽取模块、文献特征项共现网络预处理模块、基于特征项的文献检索模块及检索词服务前端5个部分。利用实验验证基于特征项的共现网络用于检索词推荐的可行性,结果表明推荐模型结果与各检索项的检索词更具有相关性,推荐质量较好。  相似文献   

7.
分类法主题法一体化自动标引系统的基本原理和方法   总被引:7,自引:0,他引:7  
本文阐述基于文献题名的自动标引系统的原理和方法,该系统是分类法主题法一体化的。文中说明了依据文献题名对文献进行分类和主题标引的可行性、从题名中自动轴词、以体系分类法为基础的自动分类用分类词表、自动分类规则及以分面分类法为基础的文献自动分类、自由体系自动分类、半自动抽词、检索系统的分类法主题法一体化检索功能保证检索系统质量的关键因素等问题。  相似文献   

8.
使用基于《中图法》知识库的中文信息自动标引和自动分类系统,对中文图书进行自动标引与自动分类的实验,以测试该系统对图书的适用性。实验通过对中文图书进行计算机自动标引与自动分类、人工打分测评、测试结果统计分析,得出中文图书的各标引源主题表达能力依次为:书名、内容提要、两级目次、参考文献、一级目次,在此基础上对标引源进行加权设计,权值设为5:3:2:2。实验证明该系统用于中文图书的自动标引与自动分类是可行的。表6。参考文献9。  相似文献   

9.
针对中文学术文献,提出一种新的自动标引方法,该方法基于文献之间的引用关系,利用被引文献的标引词,对遗传算法进行改进,实现自动标引,避免利用文献正文、标题等内部文本特征进行自动标引的局限性。通过在大规模真实测试集(中文学术文献)上进行实验,验证该方法的有效性。  相似文献   

10.
中文文本关键词自动抽取方法研究   总被引:6,自引:1,他引:5  
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求.  相似文献   

11.
科技文献跨语言推荐模型研究   总被引:1,自引:0,他引:1  
信息超载和语言障碍影响我国科研人员对外文科技文献的有效获取,如何提高获取效率成为亟待解决的问题。个性化推荐能很好地处理信息超载现象,但当前国内外相关研究都基于单一语种进行,多语种环境下的推荐研究非常缺乏。本文提出网络环境和海量数据背景下的科技文献跨语言推荐模型,并论证用户兴趣特征抽取、语言转换和混合推荐等步骤。利用Web日志挖掘技术,分析基于多种信息行为的整合分析方法抽取用户兴趣特征,以分类表作为参考体系建立用户兴趣表示模型,在用户—特征词转化为用户—类目矩阵的基础上开展推荐研究。  相似文献   

12.
版权保护和网络共享两者在目的、宗旨方面是一致的,适度的版权保护为信息网络共享提供了一个井然有序的市场和制度空间,使信息在最大范围内实现共享。科技论文网络共享的版权保护基础,是在网络授权的前提下,在价值取向相一致的背景下,追求和实现科技论文网络共享各个主体间的利益平衡。科技论文网络共享的版权保护原则,具体表现为尊重作者优先权原则、尊重使用者合法利用权原则和维护利益平衡原则。  相似文献   

13.
网上免费学术信息的开发与利用   总被引:6,自引:0,他引:6  
本文在对网上免费学术信息资源的定义与分类进行界定基础上,重点讨论获取网上免费学术信息资源的策略与工具。论文把这些检索工具分为两类:一类是通用搜索引擎:包括其提供的特殊功能和通过检索式构造来获得所需信息;一类是专门用来搜索免费学术信息的工具。  相似文献   

14.
孟伟花  向菲 《图书情报工作》2016,60(11):107-112
[目的/意义]Altmetrics通过API跟踪和分析学术文献的网络活动,根据影响力分值评价学术成果的影响力。然而,其评价学术影响力不考察读者态度极性,仅提供简单的公众关注度信息,不能直接体现学术成果的质量。为此研究altmetrics评价学术质量的可行性方案。[方法/过程]将情感分析与altmetrics相结合,并以新闻媒体、社交网站、文献数据库、学术论坛的提及、评论、引用、讨论指标为例,探讨altmetrics量化指标与情感分析相结合的理论框架。[结果/结论]构建基于情感分析的altmetrics加权综合运算模型,该模型虽有情感分析技术实现难度较大、计算过程复杂且缺乏实证研究的不足,但作为评价学术质量的一种尝试,值得探讨。  相似文献   

15.
民国时期学界在探索图书分类过程中,普遍在杜威十进制分类法的基础上结合中文古籍的特点,或增补加入新的类目,或采用其体系进行全新的改变。在各大图书馆具体操作时所使用的分类法五花八门,大致可分为中西文文献分开处置和统一处置两种不同的方法。民国时期图书分类探索均以杜威法为蓝本,是学界得以广泛交流的基础。民国时期图书分类探索看似成果甚多,但实际上新旧书籍如何处置的问题没有得到圆满的解决。造成这种局面的原因从表面上看是因为学界中人各自为政的状况一直没有改变,导致制定出一部全国统一的分类法的目标也一直没有实现,但深层次的原因则是学界对图书分类的基础理论忽略的必然结果。  相似文献   

16.
王育花 《编辑学报》2017,29(1):60-63
通过勤云远程稿件处理系统(8.0版)的作者来稿信息、未发表相似文献以及中国知网科技期刊学术不端文献检测系统(AMLC)的检测结果,介绍鉴别来稿学术不端的方法,并分析了如何避免误判.  相似文献   

17.
鲁翠涛 《编辑学报》2014,26(5):433-434
基于国际文献资料,阐述图形摘要的定义、产生、规范和优缺点,以期为我国网络版学术期刊成功运用图形摘要提供参考。  相似文献   

18.
期刊编辑部办公系统的设计与开发   总被引:4,自引:0,他引:4  
以信息化管理理念和软件工程思想为指导,对科技期刊编辑部传统业务管理进行信息化改造,构建科技期刊编辑部信息化管理系统.所研制的撐姆煌ㄓ闷诳嗉堪旃低硵由编务、财务、编辑、主任、公有、信息管理6大功能模块组成,具体功能包括稿件信息与流程管理及其查阅、电子稿件管理、出版目次安排、各类公文和统计报表的自动生成与E-mail发送,以及Web网站的自动更新,并提供作者在线稿件状态查询.该系统可实现期刊编辑部稿件的信息化目标管理.  相似文献   

19.
在线科学交流中学术论文影响力动态评价研究   总被引:1,自引:1,他引:0  
[目的/意义]构建在线科学交流中的学术论文影响力评价指标和模型,丰富学术论文影响力评价的内容和方法。[方法/过程]首先,分析目前学术评价研究中指标的特点,参考Altmetrics指标体系,选取国内几大权威在线媒体平台为研究平台,获取相关指标数据。其次,通过与被引频次和下载量的相关性筛选指标,运用主成分分析法构建评价模型。最后,以实证分析验证模型的有效性。[结果/结论]通过对学术论文在网络环境下的影响力研究及评价,改进传统学术论文评价模型的单一性和片面性,优化学术论文影响力评价的指标体系,为相关研究提供新思路和方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号