首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去重的准确度直接影响着搜索引擎的质量。本文通过对结构化文本的描述,提出了一种基于MD5的改进的网页去重算法,并从算法内容、算法特征、算法设计进行了阐述,实验表明该方法对提高查全率和查准率具有很好的效果。  相似文献   

2.
针对Nutch网页排序算法和中文分词的不足以及单机运行的效率问题,在Nutch综合网页排序中添加用户点击率、网页发布时间以及主题内容相关度3个影响因子,同时添加JE中文分词器,最后利用基于HDFS的HBase技术使Nutch能够实时高效地索引和检索海量数据。通过对实验结果数据的分析发现,Nutch的爬取和索引效率提高了7.93%,用户检索效率与查询准确度分别提高了11.11%与19.51%。  相似文献   

3.
PageRank以某个网页被指向的链接数为基础得到网页的权值,网络搜索引擎以PageRank为基础对网页进行排序.一个完整的搜索引擎由搜索器、索引器、检索器和用户接口构成.用搜索引擎模型可以解决交通线路规划、图书管理等领域中对大量数据需要进行优先级排序的实际问题.  相似文献   

4.
介绍了网页等级算法的基本思想和数学背景,根据随机过程静态分布存在性的条件得出了经典PageRank的计算方法,并对网页等级算法的利弊作了分析。同时针对经典PageRank中算法上的缺陷,提出了一种改进方法。  相似文献   

5.
互联网的迅速发展,搜索引擎也引起了更多人的关注,但主题搜索引擎发展还不够成熟,在国内,它的研究正处于发展阶段,发展缓慢、数量少,用户还不满意.本文提出了一种基于主题预分类的PageRank算法,与传统PageRank算法比较,经验证,该方法在一定的主题下可以提高系统的查准率.  相似文献   

6.
PageRank算法是Google商业应用的关键技术之一。探讨PageRank算法的原理、优缺点,基于连接本身的属性特点,赋予链接不同的权重,提出基于链接本身属性的算法改进思想。数据验证表明,改进的算法可以使得重要的网页排名提前,改进搜索结果。  相似文献   

7.
搜索引擎是互联网资源搜索的入口,搜索的快捷性、准确性是搜索引擎的核心竞争力,如何提高竞争力是业内企业的工作重点。已有的搜索引擎算法中,最具代表性的就是PageRank算法,针对该算法的改进方法也有很多,但效果并不很理想。分析了已有PageRank改进方法的不足,立足于用户搜索行为信息挖掘,采用时序关联分析方法,将关联比例作为权值加入到PageRank计算公式中,改变平均分配权威值的计算方法,从而得到了改进的PageRank算法——TCPR算法,使得搜索排序结果更符合用户的信息需求。  相似文献   

8.
针对元搜索引擎给出了一个元搜索引擎处理结果中的两种核心算法,通过元搜索引擎向用户提供统一的访问服务,以提高检索的有效性、查准率和查全率。  相似文献   

9.
PageRank算法是目前被广泛应用的一种度量网页重要性的方法,它根据网页之间的链接结构来给每个网页打分,本文剖析了Google的关键技术——PageRank算法,并主要从线性方程组的角度求解PageRank问题.  相似文献   

10.
为了提高KNN检索策略的检索效率和检索结果的质量,提出一种改进的KNN检索策略。在引入图书馆领域本体和概念语义相似度度量技术的前提下,利用句法结构筛选不合理的案例以降低计算规模,从而提高案例的检索质量和效率,利用改进的微粒群算法优化概念语义相似度度量技术中的组合参数以提高KNN检索的结果质量。实验数据采用福州晓锋科技信息咨询有限公司提供的图书馆参考咨询测试数据。实验结果表明,相比于传统KNN和基于传统PSO的改进KNN方案有效地提高了案例匹配结果的查全率和查准率。  相似文献   

11.
介绍了搜索引擎和Web结构挖掘的相关知识,重点研究Web结构挖掘的PageRank算法以及它在搜索引擎中的应用。在基于Web页面相似度的基础上提出了改进的PageRank算法,通过实验证明,改进后的算法可以使搜索引擎的性能得到极大的提高。  相似文献   

12.
搜索引擎是随着Web信息的迅速增加,从1995年开始逐渐发展起来的技术.不断改进搜索引擎的性能,提高搜索结果的查准率和查全率是搜索引擎发展的目标.其中对于搜索结果的排序是一个重要的研究领域.在对一些排序算法的研究和对校园网特点分析的基础上,提出了一种基于校园网搜索引擎的改进算法,结果证明能更好的计算网页相关度,提高查询效率.  相似文献   

13.
网络信息数量的日益增加,对人们从中获取有效信息的能力提出了更高要求。为了更好地响应用户需求,提高信息处理效率并降低人力成本,基于PyQt进行全文搜索引擎平台开发。采用模块化思想设计网络信息采集功能,然后将获取的信息经数据处理后建立索引库,采用PageRank算法对查询响应结果进行排序,实现检索器功能,并通过用户的点击决策,利用神经网络对排序结果进行二次修正。最后,在界面输入查询字符串后,便可快速得到已排序的链接响应,从而能更好地反映用户对检索结果的感兴趣程度,并提供个性化服务。  相似文献   

14.
余润海 《考试周刊》2009,(24):181-181
本文首先介绍了Web结构挖掘技术在Web中的应用,其次陈述了Web结构挖掘技术中的经典链接分析算法PageRank,最后分析了PageRank在网页搜索中具体实现的方法。  相似文献   

15.
互联网上的信息每天都以指数量级的速度爆炸性增长,面对如此浩瀚的资源,从web中的大量信息中准确并且有效的提取用户所需要的信息成为了Internet的用户的迫切需要。web信息检索系统可以利用web页面的这种特殊的链接结构关系来改进检索的算法,以提高检索的精度。链接结构分析显著地提高了检索结果的相关性。在充分分析基于链接结构的算法的基础上,本文提出了一个更接近真实情形的模型——有向访问模型,它假定访问者将根据与查询相关的概率模型来指导下一步的访问,它能够真实地描述用户在浏览网页时的行为。  相似文献   

16.
景点图像识别是当前图像识别领域和智慧旅游领域的一项基本任务。景点图像识别属于大规模图像检索,哈希检索算法是检索中一种常用的方法。针对传统哈希算法以及深度哈希算法存在的问题,改进现有的特征提取策略,提出一种改进的深度学习哈希检索方法。使用特定的领域来划分景点图像,通过领域区分来提取具有更好表达能力的景点特征,利用深度学习训练哈希函数以进一步优化网络性能。实验结果表明,该方法能够有效识别景点图像,取得了查准率95.69%、查全率93.36%、F1测度值94.51%的良好效果。  相似文献   

17.
根据构件检索的研究现状,通过增加语义特征,改进了基于刻面分类的构件描述模型.结合领域本体,提出了基于语义的构件检索过程模型及相应的概念语义匹配算法.在基于语义的构件检索过程模型中对其中的构件推理引擎、构件分类引擎的实现进行了详细说明,并给出了贝叶斯分类方法在构件分类中的具体应用.实验表明,基于语义的构件检索方法提高了构件的查全率和查准率,证明了此方法的可行性和有效性.  相似文献   

18.
基于向量空间模型的多关键字检索技术   总被引:1,自引:0,他引:1  
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,本文提出了一种改进的向量模型;针对Web信息检索的特点,给出了一种多关键字查询向量的构建方法。最后通过文档向量与查询向量之间的相关度对检索结果进行优化,提高查准率。  相似文献   

19.
基于内容自动扩展的多示例查询图像检索技术   总被引:1,自引:0,他引:1  
为了缩短基于内容图像检索存在的"语义鸿沟",提出了一种自动扩展的多示例查询技术.该技术将传统检索使用的单一查询图像自动扩展为多个查询示例,从而包含了更多的与语义相关的图像特征.对这些查询示例进行检索,并融合检索结果,可以获得更多相关图像.扩展主要利用了一般检索算法的查准率-查全率曲线特点,对原始查询结果的图像特征距离应用K-均值聚类算法,确定多个查询示例图像.实验结果表明该方法可以显著提高原有检索算法的查全率和查准率.  相似文献   

20.
针对社交网络中用户间好友关系的特殊性,结合重启特征和稀疏网络平滑特征,提出了PageRank改进算法PRS;针对BA网络模型的缺陷以及实际社交网络的连接特性,将改进算法PRS作为择优连边考量因素之一,加入随机连边机制,构建了一种适合社交网络的BA无标度网络的改进模型。实验证明,改进模型具有更优的网络特性,适合构建与描述社交网络。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号