首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对多媒体链接在网页中分布的特点,对PageRank、shark-Search两种典型的主题搜索策略进行相关参数的改进,并从网页内容和网页链接的角度计算了多媒体链接与主题的相似度.实验结果表明,改进的Shark-Search多媒体主题搜索策略比改进后的PageRank搜索策略更能有效地提高多媒体主题搜索的效率,同时也更适合网络多媒体资源的主题搜索.  相似文献   

2.
针对多媒体链接在网页中分布的特点,对PageRank、Shark-Search两种典型的主题搜索算法进行相关参数的改进,采用改进后的两种算法从网页内容和网页网页的角度计算多媒体网页与主题的相似度。实验结果表明,改进的Shark-Search多媒体主题搜索算法比改进后的PageRank搜索算法更能有效地提高多媒体主题搜索的效率,同时也更适合网络多媒体资源的主题搜索。  相似文献   

3.
王建雄 《图书情报工作》2012,56(21):114-118
在传统PageRank算法的基础上进行一些优化与改进,提出一种新的主题敏感的PageRank算法,通过计算超链接与领域向量的相似度来区分超链接对网页的贡献度,从而有效抑制主题漂移;同时为PageRank算法加入时间因子来防止PageRank偏重旧网页的问题,加入站内外区分因子来防止针对PageRank算法作弊的行为.改进算法弥补了原算法的不足,提高了主题搜索的效率.  相似文献   

4.
Web 信息检索(Information Retrieval)技术研究是应用文本检索研究的成果,它结合Web图论的思想,研究Web上的信息检索,是行之有效的Web知识发现的途径。传统HITS方法所获得的信息精确度相当低,而PageRank作为一通用的搜索方法,不能够应用于特定主题的信息获取。在充分分析了PageRank、HITS等现有算法和Web文档的相似度计算方法的基础上,提出了Web上查询特定主题相关信息发现的RG-HITS算法。它结合了Web超链接、网页知识表示的信息相关度以及HITS方法来搜索Web上特定主题的相关知识。  相似文献   

5.
BlogRank算法及其在图书馆博客中的应用   总被引:1,自引:0,他引:1  
BlogRank算法是基于博客计量学和PageRank算法提出的,它对PageRank算法中的链接作了实质性链接与非实质性链接的区分.本文简要介绍了BlogRank算法产生的背景和BlogRank算法在图书馆博客中的计算实例,从链接分析的角度论述了PageRank算法在图书馆博客的评价以及在图书馆博客搜索中的应用.  相似文献   

6.
基于语义爬虫的商品信息主题采集研究*   总被引:2,自引:0,他引:2  
结合网页主题链接分析和网页主题内容语义分析,提出一个以主题爬虫实现采集商品信息的方法。在爬行过程中通过对本体的统计学习,使主题本体参照物不断得到优化。实验结果表明,该方法较其他传统爬行算法更有效,并能防止主题漂移的发生,带来较高的主题收获率。  相似文献   

7.
在总结主题爬行器的"真、假隧道"策略的基础上,提出一种解决"假隧道"问题的KBES算法。通过实验分析KBES算法能在一定程度上提高锚与链接文本在启发策略中预测新链接相关性的效率。  相似文献   

8.
为满足主题爬行器在线分类的轻量化设计要求,提出一种基于多项表示网络文档类型的统计特征实现网页按类型进行主题相关性判断的策略;借助WEKA提供的API,为该主题相关性判断策略设计相应的训练算法和分类算法。通过分类准确率、效率和特征选择实验,证明该主题相关性判断策略的有效性以及5项对类型识别起关键作用的统计特征。  相似文献   

9.
本文在分析用户网络浏览行为的基础上,从用户的专业知识经验出发设计了用以控制、引导网络蜘蛛行为的专家知识库,利用模糊规则推算法,在进行网页下载的同时对网页中的URL主题相关度进行预测的同时对相应的资源进行模糊规则分类.文章并以基础教育资源搜集为例对该算法进行了实现,通过对先后两个版本的系统性能的分析和比较,结果表明,使用模糊规则推理算法,进行URL相关度预测可以有效提高主题资源搜集的速度,采用二次分类的办法可以进一步提高资源分类的准确度,从而提高主题资源搜索系统的整体性能.  相似文献   

10.
文阳  陈文宇  袁野  朱建 《图书情报工作》2014,58(20):125-130
认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。  相似文献   

11.
查国伟  杨春兰 《传媒》2006,(1):42-44
现时代网络搜索已经成为人们获得信息的一种便捷的途径,而伴随着互联网搜索业务的繁荣,以手机为载体的无线搜索业务也在悄然兴起,和Google等基于电脑和互联网平台的传统搜索引擎相比,无线搜索的优势在于用户可以直接获得简明扼要的查询结果,而不是大量的网页链接.  相似文献   

12.
链接是超文本技术的基础。在一系列遵从HTML规范的网页信息结构中,通过网页之间的链接,用户可以在世界各地的站点中自由移动和交互搜索、浏览信息。超文本中的链接标志是由用户的浏览器解释的。每个网页都有确定的URL(统一资源定位符,Uniform Resource Locators)作为网络地址,使得网络浏览器可以链接到特定网络地址的计算机上。  相似文献   

13.
大学生用户移动搜索策略研究   总被引:1,自引:1,他引:0  
在移动互联网迅速发展的背景下,移动搜索日趋普遍,搜索策略成为用户行为研究的一个重要方面。现有用户搜索策略研究包含查询式和搜索会话的统计分析,以及结合用户的信息需求、搜索情境来分析原因。本研究通过非受控实验的方式,对大学生用户在移动环境下的查询式构造、搜索会话中的查询式及搜索会话的其他特征进行分析。研究发现:在移动环境下大学生用户习惯使用多种语言组配进行搜索;搜索信息的主题类型存在聚焦现象;移动搜索更加便捷,大学生用户通过更短的查询式、搜索会话便可满足其信息需求;大学生用户会通过多种策略,在手机上执行较为复杂的搜索任务;其搜索活动会引发其他后续活动。研究大学生用户在移动环境下的搜索策略,可了解其搜索行为特征,有助于搜索引擎服务商提供更符合其搜索习惯的服务,更好地满足其信息需求,提高搜索效率。图11。表5。参考文献27。  相似文献   

14.
信息搜索用户的学习交互是包含用户-搜索系统交互、用户-搜索引擎结果页面交互、用户-搜索内容交互、用户-其他用户交互等维度的综合概念体系。协同搜索情境则进一步增加了用户学习交互的复杂性。文章设计一项信息搜索实验,以探究不同社交关系类型和协作效能水平对协同搜索用户学习交互的影响,为理解信息搜索用户的协作学习机制奠定基础;使用双因素方差分析法、Mann-Whitney U非参数检验与质性分析法,综合分析实验当中产生的数据。研究发现:社交关系类型不能对协同搜索用户的学习交互产生影响;协作效能对协同搜索用户的网页链接深度、知识讨论次数和知识共享次数具有主效应;社交关系类型与协作效能对用户的网页平均浏览时间具有交互作用:高协作效能水平下,朋友组的网页平均浏览时间多于陌生人组,低协作效能水平下,陌生人组的网页平均浏览时间多于朋友组。相关研究结论能够激励信息搜索用户对协作学习的重视,并为支持良好学习体验的协作信息检索系统的设计提供借鉴。  相似文献   

15.
本文通过对网文“日本2015年灭亡中国”来源的深入考查,阐述了如何在网页搜索中灵活运用非主题检索途径,探讨了文献的非主题特征在网页检索中的意义。  相似文献   

16.
为了探讨探索式搜索行为的特点,设计用户实验,依据搜索能力和学历对受试者分组,设定1个提问-应答式搜索任务和2个不同复杂度的探索式搜索任务。利用屏幕录像和浏览器日志,主要从搜索动作、网页浏览、检索式等角度,挖掘不同搜索能力的受试者在不同复杂程度搜索任务中的搜索行为特点。结果表明,在探索式搜索过程中,受试者围绕中心主题搜索,同时探索其相关方面;随着搜索任务复杂度的增加,受试者搜索行为更加深入和开放;受试者搜索能力越强,其搜索效率越高、探索范围更广、程度更深。  相似文献   

17.
搜索引擎中Robot搜索算法的优化   总被引:15,自引:0,他引:15  
目前的搜索引擎越来越暴露出不足之处 ,当用户使用搜索引擎时输入特定关键词之后 ,返回的查询结果往往有数千甚至几百万之多 ,而且其中包含大量的重复信息与垃圾信息 ,用户从中筛选出自己感兴趣的网页仍然需要耗费很长的时间。另外一种情况就是 ,Web上明明存在某些重要网页 ,却没有被搜索引擎的robot发现。本文针对这种现象 ,重点讨论搜索引擎中的搜索策略 ,改善搜索算法 ,使Robot在搜索阶段就能够充分处理与Robot频繁交互的URL列表。根据网页的内容、HTML结构以及其中包含的超链信息计算网页的PageRank ,使URL列表能够根据重要性调整排列顺序。初步的试验结果表明 ,本文的优化算法可以较大程度地改进搜索引擎的整体性能  相似文献   

18.
业界资讯     
人民搜索启用新域名本刊讯6月20日,人民搜索网络股份公司在京举办主题为未来,即刻开始的人民搜索新域名暨网页搜索新平台上线发布仪式,人民搜索正式启用新域名jike.  相似文献   

19.
[目的/意义]针对目前从开源网络信息中采集网络恐怖信息难、采集效率低的问题,提出一种回归分析法,以综合语义相关与网页重要性两个因素,从而提高网络恐怖信息的采集效率。[方法/过程]通过分析、比较主题爬虫的特性,结合网络恐怖信息的特点,找出PageRank算法和TF-IDF算法中适用于恐怖信息采集的优点,并结合回归分析法,将恐怖信息的采集策略进行相关度预测,用预测结果反馈调节信息的采集过程。[结果/结论]网络恐怖信息采集要兼顾采集的数量和质量,在传统主题爬虫算法的基础上进行改进,提出针对于开源网络恐怖信息采集的爬虫优化算法,可以提高信息采集效率。  相似文献   

20.
提出一种以动态知识库为指导的主题爬虫的设计方法,目的是克服传统的基于本体的主题爬虫的领域局限性和缺乏指导用户功能的不足;通过知识库的不断完善更好地指导爬虫找到相关网页.其中涉及的主要问题:构建动态知识库、计算网页相关度和判断相关链接.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号