首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
主题爬行是专业搜索引擎的基础,爬行策略与爬行算法是主题爬行技术的核心,通过分析主题爬行的基本原理,对爬行策略与爬行算法进行分类比较,展示爬行策略与爬行算法的研究进展及当前研究热点,为主题爬行技术的进一步研究提供参考。  相似文献   

2.
乔建忠 《图书情报工作》2011,55(13):108-146
主题爬行技术的应用领域不断扩大,但对主题的界定并无统一的标准。从需求的角度将现有主题爬行技术分为三种基本类型:面向内容的、面向类型的和面向网站的,分别论述它们的关键技术和典型案例。最后提出一种将各需求统一在一个框架内的组合爬行技术简称DDCFC,简要描述其定义和逻辑架构。  相似文献   

3.
通过梳理搜索算法中出现的各种特征因子,提出一种更全面的特征因子分类方法,按其自身特点将特征因子划分为6类,分别是文字内容特征、Web拓扑特征、主题分布特征、文档类型特征、统计特征和时效性特征,并描述各特征项对主题相关性的作用、综合运用各类特征的通用化链接优先级计算公式以及特征选取原则。  相似文献   

4.
面向动态网页爬行的Crawler架构   总被引:5,自引:0,他引:5  
本文分析了Crawler动态网页爬行功能,提出了面向动态网页爬行的Crawler架构,并对相应模块进行了探讨。  相似文献   

5.
在分析传统网络爬行器爬行算法的基础上,通过将隧道算法和网页页面分块技术相结合,指导专题爬行器进行爬行。通过4所高校门户网站的教育资源搜索实验表明,新的算法可以有效提高搜索效率。  相似文献   

6.
李理 《新闻天地》2008,(3):26-29
她是一个“爬行女孩”,一群“驴友”发现了她,她的生活状态及命运开始了变化。于是,爬行女孩,驴友,教授,共同编织了一个感人故事。2008年1月30日,驴友和教授护送“爬行女孩”回家过年。  相似文献   

7.
乔建忠 《图书情报工作》2013,57(14):114-120
针对主题爬行技术中的单一分类算法在面对多主题Web抓取和分类需求时泛化能力不强的局限,设计一种利用多种强分类算法形成的分类器组合,主题爬行器根据当前主题任务在线评估并为分类器排名,从中选择最优分类器分类的策略,并开展在多个主题抓取任务下的分类实验,比较每种分类算法的准确率和组合后的平均分类准确率以及对分类效率等评价指标的综合分析,结果证明该策略对领域局域性有所克服,普适性较强。  相似文献   

8.
在总结主题爬行器的"真、假隧道"策略的基础上,提出一种解决"假隧道"问题的KBES算法。通过实验分析KBES算法能在一定程度上提高锚与链接文本在启发策略中预测新链接相关性的效率。  相似文献   

9.
经过多年的信息化建设.铁路系统各业务部门已经建立了众多的管理信息系统(MIS).如PMIS、TMIS、DMIS,CMIS等等.其中比较有代表性的是铁路客票发售和预订系统(PMIS)和铁路管理信息系统(TMIS)。  相似文献   

10.
邓小平与成渝铁路建设   总被引:1,自引:0,他引:1  
朱兰 《四川档案》2004,(4):17-18
四川自古就有“天府之国”的美誉,然而,与之相伴的是“蜀道难,难于上青天”,成为巴蜀先民的千年喟叹。水利便利、土地肥沃、物产丰饶的四川盆地被高山和高原环绕阻隔,仅有险峻的长江水路和秦岭巴山间的羊肠小道与外界沟通。路,既是四川人民的千年之痛,也是四川人民的千年梦想。  相似文献   

11.
为满足主题爬行器在线分类的轻量化设计要求,提出一种基于多项表示网络文档类型的统计特征实现网页按类型进行主题相关性判断的策略;借助WEKA提供的API,为该主题相关性判断策略设计相应的训练算法和分类算法。通过分类准确率、效率和特征选择实验,证明该主题相关性判断策略的有效性以及5项对类型识别起关键作用的统计特征。  相似文献   

12.
适逢孙中山先生奉安中山陵75周年,一张民国时期印制精美、十分珍贵的《孙中山计画铁路图》被南京的孙中山纪念馆征集进馆。这张地图宽33cm,高25.5cm,比例尺为二千四百万分之一。图中附有4张小图,分别为:改良上海计画图、北方大港计画图、东方大港计画图、整治广州河汊计画图。经过岁月侵蚀,纸张已经发黄,色彩变得暗淡,但图纸上纵横密布、连接成网的铁路线,依然清晰可辨。  相似文献   

13.
詹天佑在完成京张铁路后继任张绥铁路总工程师一年多主持勘定了张家口到天镇之间的路线。他时刻关心张绥铁路的工程进展,对张绥铁路的修建起到了重要作用。  相似文献   

14.
李军 《浙江档案》2003,(1):37-37
中日甲午战争后,外国各种势力迅速侵入中国内地,为开通风气,振奋工商,情通上下,有识之士遂提出兴建铁路,以利兵商。1896年1月17日,清廷准张之洞筹办江浙铁路之奏请,并下谕曰“金陵、上海兴办铁路各折,均照所请行。”此乃浙江修路之刍议,后始有江浙铁路风潮等一系列与浙路有关的历史事件。现摘录张之洞“筹办江浙铁路折”以示当年动议之缘由。窃惟外洋铁路要义,利兵利商,两端并重。卢汉干路南北贯通,兵商兼利,此中国铁路之大纲,现已奉旨定计兴造,招商承办,此外尚有上海分走江浙,直达金陵一路,关系重而利益多,自亦以亟筹…  相似文献   

15.
1概要 2005年6月-7月,澳大利亚国家图书馆开展了第一次大规模的本国网络域名收割项目。该项目的目的是依据深度广度原则,在有限的爬行期限内尽可能多地收集和保存以.au为结尾的域名,并更好地理解数字化存储的相关问题。IA(Internet Archive)是唯一有过以保存为目的进行如此大规模网络收割经验的代表机构,将代表图书馆负责这一工作。收割爬行连续运行六  相似文献   

16.
基于超链分析的Web资源自动发现技术   总被引:2,自引:0,他引:2  
传统的Web资源自动发现是基于Web页面内容实现的。本文试图从超链分析的角度探讨Web资源的自动发现技术。超链分析技术起源于社会网络分析和科学引文分析理论,它只分析页面之间的关系,而不关心页面本身的属性。通过试验证明,单纯使用超链,根据用户提供的网页实例,我们能够自动发现与学科资源相关的网站。该技术可以有效的减少网络爬行器的无谓爬行,提高采集效率,减轻网络负担,在学科资源建设中起了重要的作用。  相似文献   

17.
笔者结合华盛顿大学信息学院的"信息素质计划"在2009年12月发表的<数字时代的大学生如何搜索信息>报告,分析探讨了目前高校图书馆读者获取信息的三种主要途径及读者对图书馆的需求.在此基础上,提出了高校图书馆为满足读者的需求应该做的努力和改变,愿图书馆成为读者最重要的驿站.  相似文献   

18.
19.
在多数人的印象里,站台票还是那么一张不起眼的小硬纸片,却不知经过这十几年的变化,站台票已成为吸引不少人去搜寻、去研究、去欣赏的收藏品了。  相似文献   

20.
《信息系统工程》2004,(3):16-16
铁路“提速”已经数次闯入我们的眼帘,在带来越来越短的乘车时间的同时,新型客车的使用也增加了我们的舒适感,同时.铁路旅客的返流也给铁路本身带来更大的回报。在铁路提速过程中,信息化担当了调度、监控等关键业务中“安全卫士”的角色。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号