首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。  相似文献   

2.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

3.
介绍了网络爬虫的工作原理和关键技术,列举了部分开源网络爬虫,并对Heritrix、Nutch、Larbin等几种开源网络爬虫功能特点的和使用范围进行了比较。  相似文献   

4.
专题搜索引擎也称垂直搜索引擎,主要用来满足特定领域的用户需求。Heritrix是开源的网络爬虫,Heritrix的WebUI启动方式并不易用于广大用户。本文改变了往常对Heritrix用法,摒弃了Heritrix的WebUI启动方式,对Heritrix源码进行修改,将Lucene整合到Heritrix中,构建成一个完整的搜索引擎,并通过监听器监听搜索引擎状态,使搜索引擎能够进行自动爬取和数据更新。同时,本文添加了网页过滤模块以及对查询结果排序算法进行了改进,提高了搜索引擎的易用性和查询的准确率。  相似文献   

5.
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。  相似文献   

6.
垂直搜索是针对某一个行业的专业搜索引擎;Lucene是Java编写的全文索引引擎工具包,可以跨平台使用;Heritri。是一个功能强大的开源Web网络爬虫。本文主要探讨Lucene和Heritrix在构建垂直搜索引擎中的应用。  相似文献   

7.
爬虫系统,被广泛应用于计算机各个领域,对于爬虫系统的研究和改进从来没有停止过。目前对于爬虫系统研究最关注的自然是爬虫系统的效率问题,如何才能够提升爬虫系统的效率,是我们目前为止研究的一个大方向。我们的研究从解剖爬虫系统开始。爬虫系统包括运行机理,构架以及算法组成,要想提升爬虫系统的效率,我们就必须优化它的构架,改进相关算法,针对爬虫系统进行一个全面的优化,从而达到提升爬虫系统效率的目的。在Linux网络环境之下,我们为了提高爬虫系统对页面的抓取效率和爬虫程序的完整性能,我们进行了反复的实验,结果表明,我们的解决方案的确有可行之处。  相似文献   

8.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。  相似文献   

9.
面对数据大爆炸,人们很难获取有用的信息。网络爬虫技术成为了搜索引擎中最为重要的部分,能够有效的在海量数据中找到有价值的信息。首先介绍网络爬虫的抓取对象和抓取策略,然后介绍最常见的网页分析算法——Pagerank算法,最后通过实例实现网络爬虫。实例结果表明,网络爬虫能够准确的从海量数据中抓取有用信息。  相似文献   

10.
基于Python的网络爬虫可以方便地抓取网页信息,以豆瓣网站为例,实现了基于Python网络爬虫抓取豆瓣影视信息的过程。  相似文献   

11.
12.
殷聪  黄炜 《现代情报》2012,32(7):173-177
随着我国互联网的飞速发展,特别是以SNS、微博为代表的Web2.0应用的兴起,已经形成了一个虚拟信息社会,并逐步演化为一个全新的开放信息传播空间。信息传播更为便捷,为网络舆情的产生提供了现实环境基础。同时,我国正处于机制转轨、社会转型的过程中,各类群体性事件的不断发生,且呈现出线上线下的联动的特点,对社会、经济的稳定与发展都产生了不良影响。本文在论述由网络群体性事件及其研究现状的基础上,对基于主题爬虫的网络群体性事件的源信息获取的框架进行了深入探讨,为舆情治理提供重要依据。  相似文献   

13.
本文详细介绍了面向计算机教育资源的垂直搜索引擎的体系结构,重点叙述了构成垂直搜索引擎的主题爬虫的爬行策略、主题相关度算法和主题词库的设计策略。实验结果表明:软件系统中Heri-trix的最大响应时间是0.563秒,查询精度和主题相关度判别算法的精度均达到了60%以上,可以面向Web加以应用。  相似文献   

14.
摘要:开放式创新范式的盛行究竟如何影响企业创新能力的发展,尤其是如何作用于渐进性创新能力已经成为学术界和产业界关注的热点。本文基于创新网络的嵌入性视角,以智能手机产业为研究对象,通过对该产业2000~2014年间主要企业间的专利引用数据进行专利网络分析和层次回归分析,探讨企业创新开放度对其渐进性创新能力的影响。研究表明:(1)企业渐进性创新能力主要受其在创新网络嵌入水平的直接影响,创新开放度通过调节二者关系间接影响渐进性创新能力;(2)在产业技术发展的萌芽期,创新开放度正向调节企业创新网络嵌入对渐进性创新能力的影响;(3)在产业技术发展的涌现期,创新开放度的调节作用消失;(4)在产业技术发展的稳定期,仅创新开放广度正向调节企业创新网络嵌入对渐进性创新能力的影响。  相似文献   

15.
在现有相关研究的基础上,设计一种基于数据库分类的deep web爬行器。该爬行器首先从抓取的网页中识别出deep web数据库的入口表单,然后采用查询探测方法对数据库进行自动分类,并根据分类结果来选取一组合适的关键词作为查询词,自动填写入口表单中的文本框并向数据库提出查询请求。实验结果表明,基于数据库分类的deep web爬行器的爬行效果要优于基于指定查询词的deep web爬行器的爬行效果。  相似文献   

16.
[目的/意义]分析科技创新路径识别研究中用到的主要研究方法与开源工具,提出利用引文内容挖掘实现科技创新路径识别方法及开源工具。[方法/过程]首先,基于引文分析、结构洞分析、凝聚子群分析、文本内容挖掘、引文内容挖掘等不同角度分析了科技创新路径识别的主要方法;其次,从数据源、文本格式、挖掘内容、处理能力等方面阐述了用于实现引文内容挖掘的科技创新路径识别的3个开源工具:Mallet、Knime、NLTK;最后,分析了实现科技创新路径可视化的5个开源工具:Pajek、Ucinet、Gephi、D3.js、VOSViewer。[结果/结论]通过研究发现,利用开源工具深入挖掘引文内容中蕴含的丰富语义信息,识别不同引用动机,进而进行可视化展示可以有效的实现科技创新路径表达。  相似文献   

17.
通过开放源代码,软件厂商可以借助外部创新力量提升产品质量,但开源同时也会导致部分用户的流失。本文通过构建两阶段的经济学模型,比较两种创新模式的均衡结果,得到了软件厂商的创新模式选择和相应的R&D投入策略。研究发现:(1)若软件厂商对开源社区内开发者贡献的代码资源的吸收能力更强,那么当社区开发者贡献水平较高或者软件厂商R&D成本较低时,其最优选择为开源模式,否则为闭源模式;相反,若开源社区的吸收能力更强,则只有当软件厂商R&D成本较低时才应选择开源模式,否则应选择闭源模式;(2)开源后虽然可以获得外部创新力量,但软件厂商为了维持产品的质量优势,必须增加其R&D投入。本文对软件厂商的决策和相关政策的制定具有指导意义。  相似文献   

18.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号