首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸。通过垂直搜索引擎能够从互联网上自动搜集信息,并为用户提供信息服务。建设一个中文垂直搜索引擎大致需要以下技术:信息采集技术、网页信息抽取技术、中文分词技术、索引技术。  相似文献   

2.
垂直搜索引擎系统的研究与实现   总被引:2,自引:1,他引:1  
给出了垂直搜索引擎的体系结构,然后分别设计了垂直搜索引擎的三大核心模块:主题词库、网络机器人和中文分词。在主题词库模块中设计了一个分层的主题词库系统,该词库将颗粒大的主题词置于词库高层,而将颗粒小的主题词置于词库低层,既考虑了主题搜索的广度,也考虑了主题搜索的精度。而在网络机器人设计过程中则综合运用了多线程及基于VSM的主题相关度判断算法进行主题网页爬行,在中文分词设计中则采用最大正向匹配算法完成中文分词。实验表明,多线程是提高网络机器人爬行速度的关键。此外,搜索引擎的准确率达到了63%。  相似文献   

3.
为提高通用搜索引擎对医学学科及主题的覆盖率,在开源搜索框架Nutch平台上,通过构建医学词典,结合中文分词插件,构建了一个面向医学信息的垂直搜索引擎,并详细介绍了改进后的系统功能和体系结构。相对于通用搜索引擎,该改进提高了医学信息判别的准确度和效率,减少了搜索结果冗余,同时提高了系统对于互联网复杂环境的处理能力。  相似文献   

4.
当今信息时代,互联网信息逐渐增多,中国网民人数随之增多,人们获取信息的方式中搜索引擎成为主要数据搜索的工具。面对浩瀚的信息资源,网民使用通用搜索引擎搜索时,返回的结果量十分庞大,使得想要找到自己需要的信息有时十分困难,针对某一领域的垂直搜索引擎能够解决这个问题。本文结合垂直搜索引擎的结构等特征,研究中文分词方法,比较分析目前较为流行的一些分词方法。  相似文献   

5.
分析了搜索引擎原理及分类,阐述了垂直搜索引擎原理及功能模块设计,以提高垂直搜索引擎对特定领域信息检索的深度和完整度。  相似文献   

6.
自然语言检索中的中文分词技术研究进展及应用   总被引:1,自引:0,他引:1  
何莘  王琬芜 《情报科学》2008,26(5):787-791
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。  相似文献   

7.
一种基于词典的中文分词法的设计与实现   总被引:1,自引:0,他引:1  
中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动摘要、自动校对等领域。就中文分词的基本方法作了简单阐述,并介绍了一种基于词典采用最大匹配法实现中文分词的方法。  相似文献   

8.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。  相似文献   

9.
林文清 《情报杂志》2007,26(9):120-121
垂直搜索引擎在获取信息方面有着综合搜索引擎无法比拟的优势,在B2B领域中垂直搜索引擎开始成为搜索引擎发展的一个新趋势。研究了B2B垂直搜索引擎在信息获取技术中与其他搜索引擎的区别,探索了垂直搜索引擎在信息获取技术中应用的价值,并对B2B垂直搜索引擎在信息技术中的应用进行了展望。  相似文献   

10.
全文检索搜索引擎中文信息处理技术研究   总被引:2,自引:0,他引:2  
唐培丽  胡明  解飞  刘钢 《情报科学》2006,24(6):895-899,909
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。  相似文献   

11.
Students use general web search engines as their primary source of research while trying to find answers to school-related questions. Although search engines are highly relevant for the general population, they may return results that are out of educational context. Another rising trend; social community question answering websites are the second choice for students who try to get answers from other peers online. We attempt discovering possible improvements in educational search by leveraging both of these information sources. For this purpose, we first implement a classifier for educational questions. This classifier is built by an ensemble method that employs several regular learning algorithms and retrieval based approaches that utilize external resources. We also build a query expander to facilitate classification. We further improve the classification using search engine results and obtain 83.5% accuracy. Although our work is entirely based on the Turkish language, the features could easily be mapped to other languages as well. In order to find out whether search engine ranking can be improved in the education domain using the classification model, we collect and label a set of query results retrieved from a general web search engine. We propose five ad-hoc methods to improve search ranking based on the idea that the query-document category relation is an indicator of relevance. We evaluate these methods for overall performance, varying query length and based on factoid and non-factoid queries. We show that some of the methods significantly improve the rankings in the education domain.  相似文献   

12.
刘天娇  周瑛 《情报科学》2012,(8):1192-1195
以研究2001-2010年网络搜索引擎的研究发展动态,为该领域后续研究指明方向为目的。以2001-2010年10年为时间限制,通过对CNKI来源期刊有关"网络搜索引擎"的文章搜索出的386篇文章进行分析,并运用内容分析法以及SPSS统计软件,对发文数量,发文期刊分布及发文内容进行分析。经过实例的分析,得出自2001-2010年10年间,对网络搜索引擎的细分化研究论文数量开始多于其综合性研究论文的数量,近10年间对网络搜索引擎方面的研究开始呈现向纵深方向发展的趋势的结论。  相似文献   

13.
随着网络的飞速发展,网页数量急剧膨胀,近几年来更是以指数级进行增长,搜索引擎面临的挑战越来越严峻,很难从海量的网页中准确快捷地找到符合用户需求的网页。网页分类是解决这个问题的有效手段之一,基于网页主题分类和基于网页体裁分类是网页分类的两大主流,二者有效地提高了搜索引擎的检索效率。网页体裁分类是指按照网页的表现形式及其用途对网页进行分类。介绍了网页体裁的定义,网页体裁分类研究常用的分类特征,并且介绍了几种常用特征筛选方法、分类模型以及分类器的评估方法,为研究者提供了对网页体裁分类的概要性了解。  相似文献   

14.
综合搜索引擎与垂直搜索引擎的比较研究   总被引:17,自引:0,他引:17  
刘畅 《情报科学》2007,25(1):97-102
搜索引擎是目前互联网信息服务的主要工具,它的竞争也日趋激烈,搜索引擎的信息服务也逐渐引起重视。本文从信息服务的角度出发,通过对综合搜索引擎与垂直搜索引擎在信息服务各个要素方面的比较,找出它们之间的竞争与合作的关系,为当前的搜索引擎发展做出初步的分析。  相似文献   

15.
王华栋  饶培伦 《情报科学》2007,25(1):108-112
中文分词的结果是影响搜索引擎中文检索结果质量的重要因素,能否准确有效的分词对提高搜索结果的相关性和用户满意度都至关重要。本文回顾和整理了中文分词评估所依靠的理论依据,同时建立了一套完整的基于搜索引擎中文分词评估方法。这套评估方法涵盖了评估样本的提取、评估人员选取、评估标准的制定、以及评估流程的设置等各个方面。实例分析的结果表明此方法是行之有效的。在此基础上,作者进一步对实验评估的结果进行了深入讨论,并提出了提高评估效果的几条建议,包括如何考虑评估人员背景、取舍评估项目等。  相似文献   

16.
本文详细介绍了面向计算机教育资源的垂直搜索引擎的体系结构,重点叙述了构成垂直搜索引擎的主题爬虫的爬行策略、主题相关度算法和主题词库的设计策略。实验结果表明:软件系统中Heri-trix的最大响应时间是0.563秒,查询精度和主题相关度判别算法的精度均达到了60%以上,可以面向Web加以应用。  相似文献   

17.
专题搜索引擎也称垂直搜索引擎,主要用来满足特定领域的用户需求。Heritrix是开源的网络爬虫,Heritrix的WebUI启动方式并不易用于广大用户。本文改变了往常对Heritrix用法,摒弃了Heritrix的WebUI启动方式,对Heritrix源码进行修改,将Lucene整合到Heritrix中,构建成一个完整的搜索引擎,并通过监听器监听搜索引擎状态,使搜索引擎能够进行自动爬取和数据更新。同时,本文添加了网页过滤模块以及对查询结果排序算法进行了改进,提高了搜索引擎的易用性和查询的准确率。  相似文献   

18.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号