首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对PageRank算法查准率和检索效率低的问题,通过增加用户点击率、网页发布时间以及主题内容相关度3个影响因子改进PageRank算法,提高用户查准率;利用MapReduce技术实现改进的PageRank算法,提高网页排序和检索效率;最后通过实验结果数据对比,发现用户检索效率和用户查询准确率有较大提高。  相似文献   

2.
介绍了网页等级算法的基本思想和数学背景,根据随机过程静态分布存在性的条件得出了经典PageRank的计算方法,并对网页等级算法的利弊作了分析。同时针对经典PageRank中算法上的缺陷,提出了一种改进方法。  相似文献   

3.
PageRank算法是Google商业应用的关键技术之一。探讨PageRank算法的原理、优缺点,基于连接本身的属性特点,赋予链接不同的权重,提出基于链接本身属性的算法改进思想。数据验证表明,改进的算法可以使得重要的网页排名提前,改进搜索结果。  相似文献   

4.
余润海 《考试周刊》2009,(24):181-181
本文首先介绍了Web结构挖掘技术在Web中的应用,其次陈述了Web结构挖掘技术中的经典链接分析算法PageRank,最后分析了PageRank在网页搜索中具体实现的方法。  相似文献   

5.
PageRank以某个网页被指向的链接数为基础得到网页的权值,网络搜索引擎以PageRank为基础对网页进行排序.一个完整的搜索引擎由搜索器、索引器、检索器和用户接口构成.用搜索引擎模型可以解决交通线路规划、图书管理等领域中对大量数据需要进行优先级排序的实际问题.  相似文献   

6.
自PageRank提出以来,就引起了学界广泛关注。在概述PageRank算法的基础上,从Topic-RelatedPageR-ank﹑时间维加权PageRank和科研学术网络中加权PageRank这3个方面对加权PageRank算法进行了综述和评价。  相似文献   

7.
线性代数课程中的矩阵的特征值和特征向量在教材中只有简单的定义说明,其应用一带而过,学生理解起来比较枯燥乏味,也不明其所以然,本文贴合实际应用情况给出了其在谷歌的网页排名算法PageRank和层次分析法中的有趣应用,帮助学生深入理解矩阵的特征值和特征向量的定义。  相似文献   

8.
搜索引擎是互联网资源搜索的入口,搜索的快捷性、准确性是搜索引擎的核心竞争力,如何提高竞争力是业内企业的工作重点。已有的搜索引擎算法中,最具代表性的就是PageRank算法,针对该算法的改进方法也有很多,但效果并不很理想。分析了已有PageRank改进方法的不足,立足于用户搜索行为信息挖掘,采用时序关联分析方法,将关联比例作为权值加入到PageRank计算公式中,改变平均分配权威值的计算方法,从而得到了改进的PageRank算法——TCPR算法,使得搜索排序结果更符合用户的信息需求。  相似文献   

9.
介绍了搜索引擎和Web结构挖掘的相关知识,重点研究Web结构挖掘的PageRank算法以及它在搜索引擎中的应用。在基于Web页面相似度的基础上提出了改进的PageRank算法,通过实验证明,改进后的算法可以使搜索引擎的性能得到极大的提高。  相似文献   

10.
基于Web超链接分析对当前存在的主流算法PageRank与HITS作了研究.主要讨论了PageRank算法存在评价下滑与评价泄漏的缺陷;简略介绍了HITS算法在主题相关度方面存在的问题;对上述缺陷做出了修正并提出了改进方向.  相似文献   

11.
提出了一种基于Lucene评分机制的PageRank改进算法,实现两者之间算法的有效互补,并利用Lucene框架搭建一个校园网搜索引擎,用以验证新算法的特性.  相似文献   

12.
互联网的迅速发展,搜索引擎也引起了更多人的关注,但主题搜索引擎发展还不够成熟,在国内,它的研究正处于发展阶段,发展缓慢、数量少,用户还不满意.本文提出了一种基于主题预分类的PageRank算法,与传统PageRank算法比较,经验证,该方法在一定的主题下可以提高系统的查准率.  相似文献   

13.
基于命名实体的网页推荐算法,从查询日志入手,分析用户的查询行为,给用户提供智能推荐,从而给出较好的推荐网页.提出了基于混合马尔科夫模型用于目录网页的导航链接和基于LDA特征选择的网页推荐算法用于主题网页推荐,实验结果显示,基于混合马尔科夫模型的推荐算法,达到了比较满意的效果;基于LDA特征提取的网页推荐算法优于传统的推荐算法,很好地满足了用户的需求.  相似文献   

14.
针对教学网页这一特定领域,提出一个基于K近邻算法的教学网页自动分类模型。该模型采用向量空间模型对教学网页的特征进行量化,并采用基于K近邻的分类方法对新的网页进行自动归类。最后通过实验数据说明该算法在教学网页的分类中是有效。  相似文献   

15.
随着互联网中网页数量的激增,网页自动分类已经成为互联网技术中亟待解决的问题。提出一种领域向量模型的设计与构建方法,设计并实现一种针对新闻网页的基于领域向量模型的网页分类TSC(Topic Sensitive Classify)算法,从新的角度解决网页自动分类问题。首先,对大量的新闻网页URL进行分析,提取新闻网页的URL特征;然后,设计一个领域向量模型,对特定领域的新闻网页内容特征进行提取;最后,结合新闻网页URL特征和内容特征对新闻网页进行自动分类。实验结果表明,TSC算法分类效果比传统SVM和ID3等文本分类算法更优。  相似文献   

16.
提出了一个网络钓鱼防范系统,该系统由客户端过滤插件、后台分析中心和受保护网站3个逻辑组件构成.设计了一个基于图像的网页相似度检测算法,该算法首先将被检测网页转换为图像格式,然后采用迭代分割和收缩算法将原始图像划分为一组子图像集合,在计算子图像颜色直方图、灰度直方图以及大小参数的基础上,构建被检测网页的特征关系图(ARG),计算ARG之间的内部EMD距离,并通过计算2个网页ARG之间的外部EMD距离来标示网页之间的相似度,最终通过对不同网页之间相似度的分析检测出钓鱼网站.实验结果显示所提出的体系结构与算法具有良好的鲁棒性和可扩展性,可对钓鱼网页进行更加有效的检测.  相似文献   

17.
周杨 《教育技术导刊》2012,11(10):48-50
伴随互联网所包含网页数目的剧增,转载现象变得相当普遍。作为提高搜索引擎服务质量的关键问题之一,网页去重技术已经成为网页信息处理最为重要的环节。在对传统网页去重技术进行研究的基础上,针对网页正文的结构特征,提出了一种基于关键长句及正文长度预分类的网页去重算法的核心思想。实验证明,该算法具有较高的召回率及准确率,在重复网页的过滤中有着较好的应用前景与较高的研究价值。  相似文献   

18.
针对许多网页排序算法都是面向内容,未考虑用户使用倾向的问题。提出一种基于链接访问的加权网页排序算法(WPSLA),基于链接访问(LA)为搜索引擎设计网页排名算法,并考虑网页入站链接的访问次数。采用加权页面排序(PS)算法为权重更高的页面分配更大的排名值,使得每个外链接获得一个与其受欢迎程度成比例的值,并通过链接的访问次数来计算和确定用户的使用趋势,分析用户的浏览行为。实验结果表明提出的算法性能优越,可以有效增加页面的相关性。  相似文献   

19.
Web挖掘是指使用数据挖掘技术从Web文档和服务中发现和提取信息和知识的技术。本文概述了Web数据挖掘的基本情况以及Web结构挖掘和Web使用挖掘的基本概念。结合对Web结构挖掘中的PageRank算法和Web使用挖掘的主要步骤和算法的研究后,本文提出了一种融合这两种Web挖掘算法的一种新的、综合的Web挖掘算法。  相似文献   

20.
随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去重的准确度直接影响着搜索引擎的质量。本文通过对结构化文本的描述,提出了一种基于MD5的改进的网页去重算法,并从算法内容、算法特征、算法设计进行了阐述,实验表明该方法对提高查全率和查准率具有很好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号