首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 890 毫秒
1.
先从网页内容和网页链接的角度计算网页与主题的相似度,然后将二者归一化,最终确定网页与主题的相关度.从分析网页内容相似度的角度保证网页与主题的相关性,从网页链接分析的角度解决网页搜索的权威性和覆盖乔率.算法还对PageRank算法进行了改进,将访问网页的概率加入到算法计算过程中,实验结果表明,新的算法具有较高的搜索效率.  相似文献   

2.
杨泳丹 《科技通报》2019,35(7):178-181,185
针对PageRank算法存在的不足,本文对网络链接的结构进行分析,并以此为基础对PageRank的算法进行了改进,提出了主题链接相似度的PageRank算法。本文算法的核心是将当前网页与入链网页的主题相关度作为传递权值,替换PageRank算法中以平均值作为权值。本文的PageRank-I算法将网页之间的链接作为链接的向量,以这种链接的关系来对向量的余弦相似度进行主题相关性的描述,而不用对额外的文本信息进行处理,减少了系统负担。实验结果证实本文的PageRank-I算法在没有增加系统的额外负担的同时,也没有增加时间上的复杂度,解决了PageRank算法中主题漂移的问题。  相似文献   

3.
在对PageRank算法和主题链接分析的基础上,提出了一种面向主题的链接评价算法TL-PageRank,该算法以"主题随机冲浪"模型为基础,同时利用网页主题分布特性和网页之间相互引用特性,对未爬行链接的权威值进行综合评价.实验表明,TL-PageRank算法在收获率方面比经典的链接评价算法获得了明显的提高.  相似文献   

4.
网络广告作为新兴的广告产业正在进行快速发展的发展,内容定向广告是近几年研究的主要方向,首先分析了网页广告的特征,针对内容定向的投放算法进行了研究,通过基于VSM的TF-IDF方法发现了网页广告文本之间的不足,引入正则表达式进行网页广告和文本的匹配,通过采用树形结构进行索引和过滤提高网页和文本的匹配率,最后通过改进的BM25算法提高了网页广告文本中的检索率。通过一定数量的网页内容和广告文本实验,表明本文的算法具有很好的有效性,提高了网页内容和广告文本的匹配率。  相似文献   

5.
针对传统的基于Web图的垂直搜索策略Authorities and Hubs,提出了一种融合了网页内容评价和Web图的启发式垂直搜索策略,此外,引入向量空间模型进行针对网页内容的主题相关度判断,进一步提高主题网页下载的准确率.实验表明,文中算法有效地提高了主题网页的聚合程度,且随着网页下载数量的增加,垂直搜索引擎的准确率逐渐递增,并在下载网页达到一定数量后,准确率趋于稳定,算法具有较好的鲁棒性,可以应用到相关垂直搜索引擎系统中.  相似文献   

6.
通过将研究分解成三个子任务,对网络数据从运用PageRank与TrustRank剔除作弊网页开始;借助结合网页间主题相关度、时间差以及在线评论比例的权重的TC-PageRank算法,提炼与产品主题高度相关并包含大量在线评论数据的网页集;最后考虑了网页与产品主题的相似度以及网页的链接增幅对网页权威性的影响,运用改进的HITS算法,确定在线评论分析数据来源的权威网页集;而基于MapReduce的矩阵分块运算,降低了算法时空的复杂度。并通过仿真实验验证了该方法的可行性与准确性。  相似文献   

7.
面向信息检索的汉语同义词自动识别和挖掘   总被引:3,自引:0,他引:3  
为了提高同义词自动挖掘的效率,本文提出了从词典释义中自动识别和挖掘同义词的方法,使用超链接分析算法和模式匹配算法,从不同的角度提取同义词:第一部分是把词汇之间注释与被注释的关系看成是一种链接关系。对给定的词汇进行分析,把与给定词汇具有链接关系的所有相关词汇构造一个词汇图,图中的每一个节点代表相关词,每条弧代表了词汇之间注释与被注释的关系。利用超链接分析方法并结合PageRank算法,计算词汇的PageRank值,把PageRank值看成是体现词汇之间语义相似性的衡量指标,最后为每一个词汇生成候选同义词集,并通过一定的筛选原则和方法,推荐出最佳的同义词。第二部分是利用词汇定义模式,对词汇的释义方式进行分析,归纳总结出在词典释义中同义词出现的模式,进而利用模式匹配方法识别和挖掘同义词。此外,利用模式匹配方法对Web网页和期刊论文中的同义词也进行了挖掘测试。测试结果表明,利用模式匹配和超链接分析方法来自动识别和挖掘同义词具有可行性和实用性。  相似文献   

8.
研究主要针对PageRank只考虑链接关系,而不考虑相关性的缺点进行了一些改进,把Web数据挖掘技术的内容挖掘应用到PageRank算法中,基于超链接文本和内容与主题的相关性,提出了PageRank算法的优化算法,并通过实验仿真,实验结果表明改进后的方法对提高更高相关性的网页的排名是有效的,符合人们的期望。  相似文献   

9.
许颖  廖乐健 《情报杂志》2006,25(4):92-94
SEO SPAM和飞速发展的网页规模要求更优的网页排名技术,在研究链接分析技术PageRank及互信息模型后,提出了检索相关度算法(IR-REL),构建相关词链表计算网页的布尔权重。该排名同时将权威度和相关度作为影响因子,可提高检索相关度,降低关键词作弊影响。文章给出了具体的排名策略、实验数据和系统模型。  相似文献   

10.
在分析传统期刊影响力评价指标缺陷的基础上,引入一种新的期刊影响力评价指标———基于PageRank算法的期刊影响力权值。首先详细阐述其思想、计算过程和影响因素等,然后以国外图书情报类期刊为例,计算图书情报领域期刊的影响力权值,分析这些期刊的学术影响力,并将其与期刊影响因子、期刊自引率、总被引次数等指标进行对比分析。  相似文献   

11.
基于概念的权重PageRank改进算法   总被引:2,自引:0,他引:2  
杨彬  康慕宁 《情报杂志》2006,25(11):70-72
对比了基于链接分析的搜索引擎排序算法PageRank和HITS。针对原有PageRank算法采用的平分页面自身PageRank值的策略,提出了一种按权值分配的改进算法。权值由页面间的概念关联比重和用户的搜索概念确定。  相似文献   

12.
分析了基于链接结构的PageRank算法,考虑算法在网页排序方面的客观优点的同时,指出了其在判定网页主题相关性方面的不足,提出了基于主题预测相关度加权的改进策略,为提高定向信息采集的准确率和召回率提供了理论依据.  相似文献   

13.
袁毅  徐曼 《情报杂志》2006,25(2):58-60
互联网上存在大量低质量甚至错误的信息,直接影响了互联网信息的使用和传播,通过实例对PageRank评价网页质量的可靠性及可行性进行了研究,并对使用PageRank评价网页质量时值得注意的问题进行了探讨。  相似文献   

14.
基于语义理解的智能搜索引擎的研究   总被引:7,自引:0,他引:7  
曹二堂  刘玉林 《情报杂志》2005,24(6):58-59,63
通过对查询短语的结构分析,认为查询短语通常由关键字和特征词构成。特征词是对网页内容的概括,它预示着网页中包含一组特定的特征词条。基于此思想建立了面向Web网页内容的特征库,研究了以Web网页内容特征库为基础实现对查询短语进行语义理解的方法,提出了相关度级别的算法,对库中已收入的特征词进行了查询测试.查准率为86.7%。实验表明,该方法基本实现了对查询短语的理解,对提高搜索引擎的查准率有显著的效果。  相似文献   

15.
搜索引擎将网络信息进行有效的组织,从而使庞杂的网络信息变得有序化,通过搜索引擎能够快速准确地获取所需信息。搜索引擎通过采用网页评级的方式,按照级别由大到小地将检索结果展现给用户。显然,级别高的网页必定会被优先浏览。因此,对于网络建设者来说,提高网页级别是十分重要的。文章从PageRank算法着手,对影响网站排名的因素如:网站内部的链接模式、外部链接和外向链接进行计算分析,最终得出有效的链接模式。  相似文献   

16.
[目的/意义]旨在将科技文献的价值进行量化,提高PageRank算法应用在科技文献排名中的准确性。[方法/过程]在加入时间因子的PageRank算法的改进算法WPageRank的基础上,加入引用相关度进行改进,并计算文献的固有价值,与文献的PageRank值进行加权求和,得到文献的最终价值。[结果/结论]本文提出的方法使新发表的高质量文献也可以获得较高排名,并且使领域内的高质量文献更容易被检索到,同时保证了检索的时效性和主题集中性。  相似文献   

17.
王吉  梁莉 《科技创业月刊》2005,18(12):175-177
盲用浏览器是帮助视力障碍者浏览特定网页而设计的。盲人借助语音导航功能,通过普通键盘就能浏览大部分网站的网页内容。介绍了对特定网页进行语法分析。并借助VoiceXML技术调用文本朗读函数进行语音导航和网页浏览的实现步骤。  相似文献   

18.
基于PageRank的期刊评价研究   总被引:3,自引:0,他引:3  
文章构建了适用于期刊引用网络的PageRank算法,利用2006年中国科技论文与引文数据库(CSTPCD)分别计算了包含期刊自引和排除自引的1723种统计源期刊的PageRank值,并与影响因子进行了对比研究,根据期刊的流行性和权威性特点把期刊分成了4个区域;重点探讨了化学类期刊的PageRank值与影响因子的关系;并深入讨论了PageRank算法用于期刊评价的优缺点以及适用范围。  相似文献   

19.
Web结构挖掘的PageRank算法改进   总被引:3,自引:1,他引:2  
吴春旭  郭磊 《情报杂志》2005,24(10):55-56,58
分析了Web结构挖掘的PageRank和HITS算法,并介绍了一种对PageRank算法的改进。  相似文献   

20.
自PageRank提出以来,就引起了学界广泛关注。在概述PageRank算法的基础上,从Topic-Related PageR-ank﹑时间维加权PageRank和科研学术网络中加权PageRank这3个方面对加权PageRank算法进行了综述和评价。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号