首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息内容,并对信息主体进行了结构化存储。  相似文献   

2.
通过分析研究网络学术文献的主要来源、常用文件格式及Heritrix的工作原理,制定基于Heritrix的网络学术文献获取方案,从种子站点选择或抓取任务配置、文件类型和大小过滤以及学术文献判定等方面对整体方案进行具体设计和分析,并搭建实验平台,编写相关程序进行实验以验证该方案的可行性,最后指出后续研究方向。  相似文献   

3.
基于本体的网络爬虫技术研究   总被引:1,自引:0,他引:1  
杨学明  刘柏嵩 《情报学报》2007,26(5):723-727
互联网已经成为最大的非结构化数据库,极大方便了信息访问.然而,网络上的信息大多都是无组织的,由于网络的分布式特性,很难对它进行信息和知识管理.因此,如何建立一个智能的信息发现机制很有必要.本文在分析了爬虫工作原理和传统算法后,提出了一种基于本体的网络爬虫的信息发现框架.该框架包含了预处理模块和本体管理模块,定义了网页相关度计算策略,最后通过实验对该框架进行了评估.  相似文献   

4.
文阳  陈文宇  袁野  朱建 《图书情报工作》2014,58(20):125-130
认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。  相似文献   

5.
网络文本信息过滤的意义及其模型初探   总被引:1,自引:0,他引:1  
网络文本信息过滤可根据用户的需求,通过过滤机制主动选择所需的信息,有效解决网络信息迷航的问题。文章就网络文本信息过滤的用户建模和用户匹配技术进行了初步探讨,并在阐述信息过滤一般应用模型的基础上提出网络文本信息过滤模型,分析网络文本信息过滤模型的应用特征及其组件,并着重讨论了布尔逻辑模型、概率模型和向题总结并提出了一些改进意见。方法,最后就模型中两大技术应用存在的问题总结并提出了一些改进意见。  相似文献   

6.
[目的/意义]针对目前从开源网络信息中采集网络恐怖信息难、采集效率低的问题,提出一种回归分析法,以综合语义相关与网页重要性两个因素,从而提高网络恐怖信息的采集效率。[方法/过程]通过分析、比较主题爬虫的特性,结合网络恐怖信息的特点,找出PageRank算法和TF-IDF算法中适用于恐怖信息采集的优点,并结合回归分析法,将恐怖信息的采集策略进行相关度预测,用预测结果反馈调节信息的采集过程。[结果/结论]网络恐怖信息采集要兼顾采集的数量和质量,在传统主题爬虫算法的基础上进行改进,提出针对于开源网络恐怖信息采集的爬虫优化算法,可以提高信息采集效率。  相似文献   

7.
认为利用关键词对结构化数据进行查询,实现信息检索和数据库查询的融合的技术已成为热点研究问题。基于模式图的检索算法是目前数据库关键词检索研究的技术之一。现有的模式图算法仍然存在着检索效率低下、查询准确率不高等问题。在对现有算法进行改进的基础上,设计并实现一个基于改进算法的系统,实验表明,使用改进算法的系统具有更高的检索性能和检索效率。  相似文献   

8.
主题网络爬虫是针对某一特定领域进行信息采集的网络爬虫,本文提出将主题网络爬虫应用于数字档案馆的信息采集,以档案采集系统的设计目标为出发点,阐述了基于主题网络爬虫的档案信息采集系统的设计方案和该系统实现的相关技术。  相似文献   

9.
基于Nutch的Web网站定向采集系统   总被引:3,自引:0,他引:3  
在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。  相似文献   

10.
设计实现学术关联关系的可视化分析工具,利用文献关键词和引文信息进行学术研究主体之间关联关系计算,采用改进的复杂网络Fruchterman-Reingold算法设计二维网络图进行关联结果的可视化表示,应用Pathfinder算法进行网络关键信息过滤,基于微软.NET Framework绘图技术开发框架进行可视化图形的渲染。最后,以图书情报与数字图书馆学科中信息可视化、知识图谱相关的学术论文数据为例进行实证应用。  相似文献   

11.
信息过滤技术的基本范畴所谓信息过滤即信息的选择性传播。信息过滤关注受众的长期需求,是为非结构化及半结构化的数据设计的,其目标是帮助用户处理大量的信息,对动态的信息流进行筛选,排除用户不希望得到的信息,基于用户概型(profile)从输入的信息流中过滤掉的数据。  相似文献   

12.
高校图书馆网络信息过滤现状的调查与分析   总被引:1,自引:0,他引:1  
为了了解当前我国高校图书馆网络过滤的现状和问题,对全国几十所高校图书馆进行了问卷调查。在此基础上,利用SPSS软件对调查数据进行统计分析,并提出了改进建议。  相似文献   

13.
中文超声文本结构化与知识网络构建方法研究   总被引:1,自引:0,他引:1  
[目的/意义]超声检查是判断患者病情的重要依据,目前主要检查数据是以文本形式存在。本文提出一种基于超声检查数据的文本结构化和知识网络构建方法,为进一步挖掘临床知识奠定数据基础。[方法/过程]对自然语言处理技术在超声文本环境下的应用进行改进,包括分词处理、内容定位、结构化识别三个主要步骤,实现对超声文本的切分与标记,并且在此基础上建立其结构化知识网络。[结果/结论]真实数据测试结果显示,本文提出的面向超声检查文本的结构化方法具有较好的性能表现。该方法可以实现对批量超声文本结构化网络的自动构建,能够反映超声文本中结构化内容的层次关系与属性结构等潜在知识。  相似文献   

14.
从主题爬虫角度看数字资源建设   总被引:2,自引:0,他引:2  
宋宇 《中国索引》2010,8(1):47-51
数字资源建设是图书馆的一个重要研究领域,通过主题爬虫自动收集网络数字资源是数字资源建设的一种重要途径;主题爬虫是主题搜索引擎的重要组成部分,主题搜索算法是主题爬虫的核心;按照评价链接价值方式的不同,对现有的主题搜索算法进行分类,系统分析、比较了每类算法的特点和优缺点。  相似文献   

15.
通过Python网络爬虫获取IMDB网站美剧《权力的游戏》影评并进行数据清洗,利用自然语言处理(NLP)对数据进行文本规范化、TF-IDF特征提取。采用有监督机器学习技术对模型进行训练、测试、评估,并用经过训练的模型分析规范化处理的影评文本,得到该剧影评的正负情感,并对其进行可视化处理与分析。运用隐含语义索引技术对标记过情感极性的影评文本进行主题建模,分别提取评论主题。展开爬虫分析影评对涉军舆情监控的启示。  相似文献   

16.
[目的/意义]针对目前基于网络的话题识别与分析方法的局限性,提出针对网络问答社区的话题识别与分析方法,为此类网站的话题识别与分析提供参考。[方法/过程]以改进的中文分词技术为基础,构建网络问答社区的话题识别指标,通过线性加权方式计算权重,结合关键词提取方法确定话题关键词,对话题关注焦点进行提取,对分布情况进行测度。依据所提出的改进方法,以知乎网站为数据来源,从话题关键词、关键词分布以及热点子话题3个角度对"老年人"话题焦点进行识别与分析。[结果/结论]研究表明,该方法具有科学性和可行性,不仅拓展了社会问题的分析数据源,也为"积极开展应对人口老龄化行动"提供了决策依据。  相似文献   

17.
[目的 /意义]推荐算法技术快速发展所产生的“过滤气泡”现象给用户信息行为带来深刻的影响。从用户角度出发,对其面对过滤气泡时的行为类型以及行为产生的机制进行探索性研究,帮助用户建立对过滤气泡现象的理性认知,为信息服务平台明确推荐算法的建设方向、改进服务水平提供一定的参考。[方法 /过程]采用扎根理论,选取对互联网信息服务平台有一定使用经验的30位用户进行半结构化访谈,并进行编码分析,构建用户面对过滤气泡时的行为与形成机制模型。[结果 /结论 ]用户面对过滤气泡时的行为类型主要包括忽略行为、缓解行为、加强行为、突破行为以及脱离行为。感知控制、态度和信息需求直接影响用户面对过滤气泡时的行为;推荐算法通过态度以及感知控制的中介作用对行为产生影响;此外,个人特质对行为产生的全过程起到调节作用。对特定情境下用户信息行为的研究以及进一步探究过滤气泡现象提供了一种研究视角和研究基础。  相似文献   

18.
本文借助VBA相关软件对数字图书馆领域相关论文的关键词进行抽取,利用社会网络分析软件UCINET对学术论文中的关键词进行处理并形成关键词整体网络,进而从整体网络凝聚性、中介性以及小团体分析等角度对数字图书馆领域的研究进行了分析,从而使得目前的研究现状更加清晰化。  相似文献   

19.
新建图书馆中计算机网络的布线问题   总被引:5,自引:0,他引:5  
论述了图书馆计算机网络进行结构化综合布线的必要性和重要性,结合新建图书馆对结构化布线各子系统进行了分析,同时指出了图书馆采用结构化布线应注意的事项  相似文献   

20.
共词分析是图情领域的基本分析方法之一,探索构建时序共词网络并实现其动态可视化,对于改进、丰富经典共词分析方法具有一定的意义。本文提出时序共词网络构建及其动态可视化方法,首先抽取关键词时间标签,利用关键词的时间标签及其共现关系构建时序共词网络邻接表单数据;然后,基于可视化方法构建时间分层的共词网络图谱,并结合交互式可视化技术实现时序共词网络的动态可视化,从而有效揭示共词网络的动态演变过程。通过对我国图书馆学、情报学领域的数据挖掘相关研究进行实证,验证了本文提出方法的可行性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号