首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
主题网络爬虫是针对某一特定领域进行信息采集的网络爬虫,本文提出将主题网络爬虫应用于数字档案馆的信息采集,以档案采集系统的设计目标为出发点,阐述了基于主题网络爬虫的档案信息采集系统的设计方案和该系统实现的相关技术。  相似文献   

2.
[目的/意义]针对目前从开源网络信息中采集网络恐怖信息难、采集效率低的问题,提出一种回归分析法,以综合语义相关与网页重要性两个因素,从而提高网络恐怖信息的采集效率。[方法/过程]通过分析、比较主题爬虫的特性,结合网络恐怖信息的特点,找出PageRank算法和TF-IDF算法中适用于恐怖信息采集的优点,并结合回归分析法,将恐怖信息的采集策略进行相关度预测,用预测结果反馈调节信息的采集过程。[结果/结论]网络恐怖信息采集要兼顾采集的数量和质量,在传统主题爬虫算法的基础上进行改进,提出针对于开源网络恐怖信息采集的爬虫优化算法,可以提高信息采集效率。  相似文献   

3.
主要介绍了我们设计的Web主题信息采集系统的一项核心工作——Web信息主题的识别,主题识别算法从构造专业性较强的主题词典着手,充分分析和考虑Web网页文本的特点,从而大大提高了主题信息采集的效率和精度,该算法同样适用于其他领域的主题信息识别。  相似文献   

4.
谷俊  翁佳  许鑫 《图书情报工作》2014,58(20):91-99
面向互联网的主题采集是情报获取的重要手段,面对爆发式增长的互联网信息资源,设计并实现一套由采集准备、URL分析及提取、模板学习、正文抽取等几阶段组成的主题采集工具,其中URL分析与提取采用基于链接类型的URL筛选方法,实现正文网页URL的筛选;模板学习和正文抽取部分采用基于DOM树的节点比对方法,完成模板的构建与正文抽取。实验结果表明,本文所提出的主题采集工具采集准确率较高,能够适应目前情报信息采集的需求。  相似文献   

5.
企业竞争情报智能采集的策略研究   总被引:1,自引:0,他引:1  
目前,网络竞争情报(Competitive Intelligence,CI)源已成为企业竞争情报采集系统的主要来源.企业竞争情报采集系统面临的挑战主要表现在信息的重复采集,信息采集缺乏连续性,信息采集结果的随机性.本文针对这些问题研究了企业竞争情报智能采集策略,包括信息的智能化提取、智能化的数据挖掘以及信息采集结果的可视化;进而探讨了构建智能情报采集机制的策略,包括在企业内部确立竞争情报的组织体系、建立企业信息采集网络和集成各种竞争情报采集技术与方法.  相似文献   

6.
在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进 行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能 够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。  相似文献   

7.
[目的/意义] 对中文微博信息采集的关键问题进行分析,以期为中文微博信息的采集与长期保存研究和实践提供参考。[方法/过程] 选取采集范围、采集权利、采集方法3个微博信息采集过程中的关键问题,与网络信息采集进行对比分析,并提出相应的对策。[结果/结论] 分析发现,对于微博信息,由于其具有自身特点,无法套用网络信息采集实践的经验,需要确定具有针对性的采集策略与方法;针对选取的3个关键问题,分别建议采取完整性采集、CC协议结合剔除策略、通过API采集的对策。  相似文献   

8.
Web是知识管理系统(KMS)信息采集的重要来源之一,但其数据的庞杂无序和半结构化特性给信息采集工作造成了一定难度.文章对Web信息采集机制,特别是HTML结构特征分析法进行了探讨,并结合采集机制研究,以建立企业名录信息库为例,说明采集系统如何最大限度地提高KMS基础信息采集的能力.  相似文献   

9.
将语义网技术同传统的信息检索技术相结合,给出基于本体的Web信息采集框架结构,提出利用主题本体及对应词典判断主题相关度的方法,并得出实验结果和评价。  相似文献   

10.
选题策划是图书生产流程中十分重要的步骤,而信息采集是图书生产流程的第一步,它是选题发现、策划、验证、论证的基础,具有必要性和重要性的特点,不能忽略。信息采集包括:社会信息、学科信息、出版信息、作者信息、读者信息的采集。对这五部分信息采集,本文论述了采集的重点和采集的手段。信息采集的过程是策划编辑主动参与的过程,因此,它的顺序和方式灵活多变才能提高工作效率。  相似文献   

11.
基于语义爬虫的商品信息主题采集研究*   总被引:2,自引:0,他引:2  
结合网页主题链接分析和网页主题内容语义分析,提出一个以主题爬虫实现采集商品信息的方法。在爬行过程中通过对本体的统计学习,使主题本体参照物不断得到优化。实验结果表明,该方法较其他传统爬行算法更有效,并能防止主题漂移的发生,带来较高的主题收获率。  相似文献   

12.
师范类自然科学学报的选题策略   总被引:2,自引:0,他引:2  
张建合 《编辑学报》2008,20(4):336-337
以高被引论文为研究视角,提出师范类自然科学学报选题策划的4条建议:1)依据世界研究热点策划选题;2)依据区位优势资源策划选题;3)依据校内重点项目策划选题;4)依据校内人才团队策划选题.  相似文献   

13.
乔建忠 《图书情报工作》2011,55(13):108-146
主题爬行技术的应用领域不断扩大,但对主题的界定并无统一的标准。从需求的角度将现有主题爬行技术分为三种基本类型:面向内容的、面向类型的和面向网站的,分别论述它们的关键技术和典型案例。最后提出一种将各需求统一在一个框架内的组合爬行技术简称DDCFC,简要描述其定义和逻辑架构。  相似文献   

14.
[目的/意义]研究前沿的准确判断是国家宏观层面的战略需求,文献计量学作为一种定量研究方法广泛应用于科学主题探测和研究前沿识别中。[方法/过程]梳理研究前沿主题探测的发展历程和方法模型,引入全域微观模型的概念,详细介绍SciVal模块采用的主题创建方法,包括直接引用文献聚类、关键词主题命名和研究前沿遴选的主题显著性算法,并对SciVal创建的9.6万个主题和遴选出的前1%的研究前沿主题的特征进行实证分析。[结果/结论]全域微观模型可以同时一次识别整个科学领域的所有主题,但不同学科在研究前沿上表现存在差异,不能把主题显著性简单等同为重要性;主题论文数量与主题排名之间存在中度相关性;自动抽取的关键词术语从学科领域层和独特性上命名和描述主题;石墨烯相关前沿主题的演变趋势分析可以用于发现关键节点和新兴主题。  相似文献   

15.
Web信息主题采集技术研究   总被引:9,自引:0,他引:9  
李春旺 《图书情报工作》2005,49(4):77-80,70
简单介绍主题信息采集系统;从5个方面对其核心技术进行深入研究,包括种子页面生成、主题表示、相关度计算策略、爬行策略以及结束搜索策略等;详细讨论种子页面生成的人工方式、自动方式及混合方式,基于关键词的主题表示与基于Ontology的主题表示,多种相关度计算启发式策略比较,基本爬行策略与隧道技术以及结束爬行的多种情形等;在分析相关技术的算法、特点与应用情况的同时,针对主题信息采集特点提出相应的改进意见。  相似文献   

16.
Relational partners often experience intractable disagreements. When confronting such arguments, they sometimes declare the topic taboo and thereby remove it from further discussion. However, research does not inform as to whether or how such topics can be reintroduced for discussion. We argued that topics are most likely to be reintroduced when the conditions that led to their banishment are no longer relevant. We also anticipated that reintroducing the topic through a planned interaction rather than an unplanned conversation or event would be more common when the topic concerned some aspect of the relationship. However, a planned interaction would be less likely when the topic focused on extra‐relational activities, prior relationships, or attitudinal differences between partners. We also posited that reinstating the topic would create more positive reactions when the reason for reintroduction flowed from changed conditions and was planned than when not. A survey of individuals involved in dating relationships indicates that most could report topics that were once taboo and then reinstated. Our hypotheses were generally supported. Future directions for research are discussed.  相似文献   

17.
本研究以逸仙时空BBS为舆情信息源,对需要关注的帖子进行情感倾向性分析的探索性研究,设计了主题帖自动标引和情感倾向性分析策略,并对主题帖自动标引结果、倾向性人工判断与自动分析的结果进行对比。  相似文献   

18.
"阅读治疗"概念之辨析   总被引:5,自引:0,他引:5  
万宇 《图书馆杂志》2006,25(9):14-17
随着阅读治疗的研究、引进工作在我国的启动,阅读治疗的研究和实践正在日益引起我国图书馆界、医学界、心理学界的普遍关注。本文旨在梳理、明辨、分析阅读治疗的概念,并就其未来发展进行宏观的概括。  相似文献   

19.
信息资源公共获取的社会价值与国际研究动向   总被引:22,自引:2,他引:22  
信息资源公共获取是指信息被便捷地、免费或通过合理付费方式被公众无障碍获取。目前国际研究偏重于:信息资源公共获取的社会与法律问题,信息资源公共获取差异研究,信息资源开放存取研究。参考文献15。  相似文献   

20.
基于主题爬虫的本体非分类关系学习框架   总被引:1,自引:0,他引:1  
乔建忠 《图书情报工作》2010,54(18):120-129
提出一种借助主题爬虫自动从返回的相关网页进行本体非分类关系学习的框架与方法。针对利用互联网进行本体学习的特点,所用到的主要方法是词频、共现统计和分割聚类算法KMeans,并没有采用复杂的语法结构分析和半指导聚类算法如EM、BIRCH和SOM,因此自动化程度和效率较高。学习结果将用于指导主题爬虫进行网页相关性的判断。这种非分类关系的学习质量将由主题爬虫在实际应用中的表现来客观评价。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号