首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
面向主题Crawler的设计与实现   总被引:1,自引:0,他引:1  
针对目前通用搜索引擎所搜索到的结果过多,与主题相关性不强的情况,提出了面向主题的搜索引擎,文章以主题相关度为核心研究和设计了主题crawler,为进行主题搜索引擎的研究奠定了良好的基础。  相似文献   

2.
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确、搜索信息量更大的爬虫显得十分迫切.本文实现了一种基于多个分类器的分布式主题爬虫方法.实验结果表明,该爬虫的速度和精度均较为良好,特别适合于对大数据量的特定主题信息的抓取.  相似文献   

3.
文章概述主题搜索引擎原理,介绍了高性能的全文检索引擎—Lucene开源系统,在分析Lucene语言分析器结构的基础上,得出基于Lucene的数码产品搜索引擎的主题词典的具体构建方法,并针对词典的更新做了初步探讨,总结了基于用户查询日志的主题词典构建方法。  相似文献   

4.
怎样从Web信息资源中找到自己所需的内容,已被人们广泛关注。根据当前的需求提出了实现建筑业主题搜索引擎设计方法,重点论述主题搜索引擎的信息采集技术,并给出了一种比较理想的建筑业主题搜索引擎设计方案。  相似文献   

5.
互联网的迅速发展,搜索引擎也引起了更多人的关注,但主题搜索引擎发展还不够成熟,在国内,它的研究正处于发展阶段,发展缓慢、数量少,用户还不满意.本文提出了一种基于主题预分类的PageRank算法,与传统PageRank算法比较,经验证,该方法在一定的主题下可以提高系统的查准率.  相似文献   

6.
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱.然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求.基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生.主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用.首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等.其次,提出使用向量空间模型进行主题相关度计算.为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术.最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫.  相似文献   

7.
随着Internet的迅速发展,专业化搜索引擎因其可以准确且快速检索特定用户需要的专题信息而越来越受到广大用户的欢迎。然而,专业化搜索引擎的维护和更新却要费去太多时间。为了克服该问题,我们在搜索引擎中引进机器学习机制,针对基础教育设计并实现了一个基于机器学习的专业化搜索引擎BERSE,其关键技术是只追踪基础教育信息的主题蜘蛛和文本分类器,从而加快信息的检索与更新,并且具有很高的查全率和查准率。  相似文献   

8.
基于主题搜索的主题网络爬虫,只抓取与用户主题相关的页面。在深入分析主题页面分布特征和主题相关性判别算法的基础上,提出了一个面向主题搜索的网络爬虫模型,它很好地克服了通用搜索引擎准确率偏低、信息内容相对陈旧、信息分布范围不均衡等不足。实验结果表明,尽管基于主题爬虫的搜索增加了内存使用率,但也成倍提升了搜索的准确性,提高了抓取效率以及抓取结果的利用率。  相似文献   

9.
多媒体主题搜索指在Web中搜索与主题相关的,并且包含多媒体的网页。目前各大搜索引擎(Google、百度)相继推出了多媒体搜索引擎,主要是利用网页中的相关文本提取描述多媒体信息的关键词进行多媒体信息检索,这种搜索引擎能够直接、快速地从Web中寻找多媒体资源。但所搜索得到的网页往往有大量的重复,根据中国互联网网络信息中心2008年发布的统计报告显示,  相似文献   

10.
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。  相似文献   

11.
12.
INTRODUCTION With the rapid increase of geographic information on the Internet, WWW (World Wide Web) contains a great deal of information that can bgeo-referenced. The National Academy of Sciences oAmerica estimates that 80 percent of the informationon the Web is composed of spatial information thaincludes coordinate information, such as longitudelatitude and their various kinds of projections, mailingaddresses that can be geo-coded, relative distance anddirection information. W…  相似文献   

13.
World Wide Web(WWW)is a vast repository of information,including a great deal of geographic information.But the location and retrieval of geographic information will require a significant amount of time and effort. In addition,different users usually have different views and interests in the same information. To resolve such problems,this paper first proposed a model of geographic information gathering based on multi-Agent(MA)architecture. Then based on this model,we construct a prototype system with GML(Geography Markup Language). This system consists of three tiers-Client,Web Server and Data Resource. Finally,we expatiate on the process of Web Server.  相似文献   

14.
The present study investigated how dealing with conflicting versus consistent medical information on the Web impacts on topic-specific and medicine-related epistemic beliefs as well as aspects of health decision making. One hundred mostly female university students were randomly assigned to three groups. Two intervention groups searched the Web for information on cholesterol to advise a fictitious friend about treatment. Pre-selected websites for these groups provided either conflicting or consistent information. The third group, the control group, did not conduct Web search. Results showed that the intervention groups differed in topic-specific epistemic beliefs. After the Web search, their medicine-related epistemic beliefs were more advanced while remaining unchanged in controls. The intervention groups also differed in some aspects of decision making.  相似文献   

15.
根据企业门户中信息更新的特点,结合企业门户信息检索的要求,在蜘蛛程序搜索策略中提出基于重要Web页面的增量获取思想,并利用多线程技术,设计应用于企业门户信息搜集的网络蜘蛛,使网络蜘蛛的搜索效率得到了提高。  相似文献   

16.
Web数据挖掘在搜索引擎中的应用   总被引:1,自引:0,他引:1  
分析了搜索引擎的结构组成,从Web的结构挖掘、内容挖掘、使用挖掘3方面对Web挖掘在搜索引擎中的应用进行阐述。  相似文献   

17.
基于Web的语料库建设   总被引:1,自引:0,他引:1  
对网上中文信息语料库搜集技术的实现原理和关键技术进行了讨论和分析,介绍了基于Web网络的通讯及网上自动获取信息的原理,讨论了中文信息处理中的分词技术及其发展,提出了一个网上《人民日报》语料库搜集技术的实现方案.  相似文献   

18.
作为垂直搜索的关键技术之一,网页结构化信息抽取近年来得到越来越多的关注.网页结构化信息抽取通过打碎网页,从中提取"精细化"、"条目化"的信息,存储在数据库中,通过对数据库的查询达到垂直搜索"精准"的目的.已有的方法大多是基于规则的模型和基于隐马尔可夫的模型,这些方法要么依赖特定网页结构,适用性差;要么依赖大量的训练样本,训练效率低.结合垂直搜索特定领域特征词数量有限的特点和统计方法,提出基于特征词统计的结构化信息抽取技术,解决了只能抽取特定HTML标记节点和单个信息块的问题,关键信息块的抽取平均准确率为97%.  相似文献   

19.
Google Book Search API在Web OPAC书目查询服务中的应用   总被引:1,自引:0,他引:1  
通过使用Google Book Search API中的图书搜索链接和嵌入式浏览器API,在Web OPAC书目查询服务中嵌入Google图书搜索引擎进行图书搜索,可以增强Web OPAC书目查询服务功能,从而为快速检索信息提供便利。  相似文献   

20.
用户查询表达式中包含的有效信息对于检索结果影响很大,利用企业信息系统搜集和挖掘与用户检索兴趣相关的信息,有助于解决检索信息不足的问题.为此,提出一种面向领域主题概念的搜索引擎构架,据此建立面向主题的复合算子调节用户兴趣趋向的线性规划预测模型,该模型可预测用户的最大兴趣,生成用户兴趣查询表达式,提高检索的查准率和查全率.另外,还提出一种用户兴趣演变探测因子重建用户兴趣特征向量的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号