首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 738 毫秒
1.
针对主题搜索引擎反馈信息主题相关度低的问题,提出了将遗传算法与基于内容的空间向量模型相结合的搜索策略。利用空间向量模型确定网页与主题的相关度,并将遗传算法应用于相关度判别,提高主题信息搜索的准确率和查全率。在Heritrix框架基础上,利用Eclipse3.3实现了相应功能。实验结果表明,搜索策略改进后的系统抓取主题页面所占比例与原系统相比提高了约30%。  相似文献   

2.
介绍了网络爬虫技术的运行原理,分析了作为搜索引擎核心技术的通用网络爬虫的搜索策略,进而实现了采用两种搜索策略的网络爬虫,并在互联网中进行了信息爬取,最后比较总结了两种搜索策略的技术特点及优化研究方向。  相似文献   

3.
基于遗传算法的主题信息搜索系统研究   总被引:1,自引:0,他引:1  
罗长寿  康丽  刘国靖 《现代情报》2009,29(3):176-178
针对网络信息资源“迷向”与“过载”的现象,本文通过对遗传算法的分析应用,构建了由基于遗传算法的主题爬虫、信息处理和查询服务三部分组成的主题信息搜索系统。实验结果表明,应用该系统可以获取与主题相关度高的网页信息。  相似文献   

4.
袁红 《现代情报》2009,40(2):44-51
[目的/意义] 搜索策略是搜索行为的规划,是搜索过程的核心,一直是搜索行为研究的重要课题。探索用户搜索策略的运用及其转换的规律,对于IR系统的功能优化及提升用户信息搜索效率具有重要意义。[方法/过程] 研究确定了来自4个搜索主题的8个搜索任务,招募了30名参与者,开展了搜索实验,并对搜索行为视频加以编码,在统计不同搜索策略使用频次的基础上,构建了常见的用户搜索策略转换模式。[结果/结论] 访问和评估策略是信息搜索的常见策略,而修改查询语句、学习等搜索策略运用较少。向前访问→评估单个项目、评估搜索结果→向前访问为用户信息搜索最常见的策略转换模式,而向前访问→探索等策略转换发生概率极低。此外,用户在搜索的不同阶段的策略运用及策略转换呈现较大差异,这为IR系统设计提供了详尽有用的指导。  相似文献   

5.
文章针对当前网络搜索中主体爬虫搜索策略进行了探讨,而针对搜索策略主要通过两个部分进行分析论述,一部分是建立在Web链接结构之上的策略,而另一种则是建立在网页内容基础之上的策略。最后则是介绍了用以计算相似度的模型,分别为经典模型VSM以及文章所用到的计算方法。  相似文献   

6.
基于遗传算法的Web信息采集策略研究   总被引:1,自引:0,他引:1  
本文为了提高Web采集系统(网络蜘蛛)的自适应性和预测链接价值的准确性,提出了一种基于遗传算法的网络蜘蛛搜索策略,实验结果表明,较之传统的网络蜘蛛,使用此种算法的网络蜘蛛具有较高的Web搜索效率.  相似文献   

7.
李志义 《现代情报》2011,31(10):31-35
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。  相似文献   

8.
随着网络的发展,如何提高网页信息搜索的查准率成为研究的热点。通过对基于标记的网页信息搜索技术、基于元搜索的网页信息搜索技术、以及基于爬虫的网页信息搜索技术在查准率方面的研究进行了分析,并对其未来发展趋势进行了讨论。  相似文献   

9.
禹献云  周青 《科研管理》2018,39(8):11-18
外部搜索策略对企业技术创新绩效的有着重要影响,而知识吸收能力在此过程中起着调节作用,本文基于理论分析,提出研究假设,并通过问卷调查收集数据,采用结构方程模型进行实证研究。结果表明:外部搜索策略的搜索广度对企业技术创新绩效存在显著正向影响,知识吸收能力正向调节搜索广度对企业技术创新绩效的影响;外部搜索策略的搜索深度与技术创新绩效呈倒U型关系,知识吸收能力调节了搜索深度对技术创新绩效的影响。  相似文献   

10.
在日常工作和生活中,互联网已遍及各个角落,基于当今快速发展的网络环境,人们对数据的搜索应用十分普遍,普通的网络爬虫已无法满足人们对有用信息获取的要求。本文基于主题爬虫的结构特征,分析近年来国内外爬虫抓取策略的方法、技术,重点介绍一些极具有代表性的主题相关度算法,包括Page Rank、HITS等,并分析比较各种典型算法的优点和不足。  相似文献   

11.
我国企业外部知识源搜索策略的影响因素   总被引:2,自引:0,他引:2       下载免费PDF全文
 快速创新的需要使得对外部知识源的搜索成为企业首要考虑的问题之一。在将搜索划分为搜索宽度和搜索深度两个维度以及界定了十六种外部知识源的基础上,本文建构了影响企业搜索策略的概念模型,并用我国112家企业为样本进行了实证检验。回归分析结果表明,组织资源、外部知识丰富度和搜索经验与企业搜索宽度正相关,而技术特性和市场预期与搜索宽度负相关;技术特性、市场预期和搜索经验与搜索深度正相关,而组织资源与搜索深度负相关,但是外部知识丰富度对搜索深度没有显著影响。  相似文献   

12.
网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一。按照评价链接价值所采用方法的不同,对专业搜索引擎网络蜘蛛的搜索策略进行了分类,分析、比较了各类搜索策略的优缺点。对未来的研究方向进行了展望,给出了若干值得研究的问题。  相似文献   

13.
本文从搜索引擎的相关概念和构成出发,介绍了网络爬虫的相关概念,并阐述了网络爬虫的搜索策略,同时给出了现在比较流行的Google的搜索具体实现,文章最后对未来进行了展望。  相似文献   

14.
本文从搜索引擎的相关概念和构成出发,介绍了网络爬虫的相关概念,并阐述了网络爬虫的搜索策略,同时给出了现在比较流行的Googlc 的搜索具体实现,文章最后对未来进行了展望.  相似文献   

15.
通过建立博弈模型证明了在不对称信息下主题搜索引擎将出现部分高质量信息服务无法获取的搜索无效率现象.以农产品主题搜索引擎为实验对象,从可定制框架的设计、索引信息筛选、查询提示三个层面讨论了解决这种无效率的信息服务策略.  相似文献   

16.
网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一,如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求是目前所面临的重要问题。重点阐述了搜索引擎的Web Spider(网络蜘蛛)的搜索策略和搜索优化措施,提出了一种简单的基于广度优先算法的网络蜘蛛设计方案,并分析了设计过程中的优化措施。  相似文献   

17.
网络爬虫是一种自动下载网络资源的程序,是搜索引擎的基础构件之一,它的性能直接决定了在庞大的互联网上进行网页信息采集的质量.文章对网络爬虫相关技术以及聚焦网络爬虫的特点进行了分析和探讨.  相似文献   

18.
智能算法已经成为解决大规模组合优化问题的有效方法,但每一种算法又有各自的适用域和局限性,因而算法融合的思想便开始被研究应用,大量研究也表明算法的混合策略有更高的优化效率。首先阐述目前常用的几种智能算法思想,分析各自优缺点,继而针对单一算法的不足,探讨了几种算法混合优化策略思想,最后对进一步的研究做出展望。  相似文献   

19.
遗传算法有早熟和局部搜索能力弱的缺点,而模拟退火算法没有较好的全局搜索效率。引入了一个新的选择机制来改进模拟遗传退火算法,使速度得到了提高并且可以避免早熟等缺陷。  相似文献   

20.
遗传算法有早熟和局部搜索能力弱的缺点,而模拟退火算法没有较好的全局搜索效率。引入了一个新的选择机制来改进模拟遗传退火算法,使速度得到了提高并且可以避免早熟等缺陷。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号