首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
Web结构挖掘的PageRank算法改进   总被引:3,自引:1,他引:2  
吴春旭  郭磊 《情报杂志》2005,24(10):55-56,58
分析了Web结构挖掘的PageRank和HITS算法,并介绍了一种对PageRank算法的改进。  相似文献   

2.
杨泳丹 《科技通报》2019,35(7):178-181,185
针对PageRank算法存在的不足,本文对网络链接的结构进行分析,并以此为基础对PageRank的算法进行了改进,提出了主题链接相似度的PageRank算法。本文算法的核心是将当前网页与入链网页的主题相关度作为传递权值,替换PageRank算法中以平均值作为权值。本文的PageRank-I算法将网页之间的链接作为链接的向量,以这种链接的关系来对向量的余弦相似度进行主题相关性的描述,而不用对额外的文本信息进行处理,减少了系统负担。实验结果证实本文的PageRank-I算法在没有增加系统的额外负担的同时,也没有增加时间上的复杂度,解决了PageRank算法中主题漂移的问题。  相似文献   

3.
搜索引擎是互联网资源搜索的入口,搜索的快捷性、准确性是搜索引擎的核心竞争力,如何提高竞争力是业内企业的工作重点。已有的搜索引擎算法中,最具代表性的就是PageRank算法,针对该算法的改进方法也有很多,但效果并不很理想。分析了已有PageRank改进方法的不足,立足于用户搜索行为信息挖掘,采用时序关联分析方法,将关联比例作为权值加入到PageRank计算公式中,改变平均分配权威值的计算方法,从而得到了改进的PageRank算法——TCPR算法,使得搜索排序结果更符合用户的信息需求。  相似文献   

4.
分析了基于链接结构的PageRank算法,考虑算法在网页排序方面的客观优点的同时,指出了其在判定网页主题相关性方面的不足,提出了基于主题预测相关度加权的改进策略,为提高定向信息采集的准确率和召回率提供了理论依据.  相似文献   

5.
基于概念的权重PageRank改进算法   总被引:2,自引:0,他引:2  
杨彬  康慕宁 《情报杂志》2006,25(11):70-72
对比了基于链接分析的搜索引擎排序算法PageRank和HITS。针对原有PageRank算法采用的平分页面自身PageRank值的策略,提出了一种按权值分配的改进算法。权值由页面间的概念关联比重和用户的搜索概念确定。  相似文献   

6.
先从网页内容和网页链接的角度计算网页与主题的相似度,然后将二者归一化,最终确定网页与主题的相关度.从分析网页内容相似度的角度保证网页与主题的相关性,从网页链接分析的角度解决网页搜索的权威性和覆盖乔率.算法还对PageRank算法进行了改进,将访问网页的概率加入到算法计算过程中,实验结果表明,新的算法具有较高的搜索效率.  相似文献   

7.
[目的/意义]旨在将科技文献的价值进行量化,提高PageRank算法应用在科技文献排名中的准确性。[方法/过程]在加入时间因子的PageRank算法的改进算法WPageRank的基础上,加入引用相关度进行改进,并计算文献的固有价值,与文献的PageRank值进行加权求和,得到文献的最终价值。[结果/结论]本文提出的方法使新发表的高质量文献也可以获得较高排名,并且使领域内的高质量文献更容易被检索到,同时保证了检索的时效性和主题集中性。  相似文献   

8.
从信息过滤系统模型功能及其实现出发,探讨了Google中PageRank技术环境下的用户偏好的分析描述与表达.在传统的过滤算法的基础上进行了改进后的过滤算法的模型构建和原形研究,结合实践进行了实验结果分析.  相似文献   

9.
严承希  王军  李晓杰 《情报科学》2018,36(1):118-123
【目的/意义】结合随机游走算法PageRank、词共现和多样性测度指标提出一种改进的热点主题探测方法 C_BI-PageRank,该方法有效提高了热点主题探测的效率和模型质量。【方法/过程】首先对PageRank 算法进行理论 回顾,引入词共现和布里渊系数构建C_BI-PageRank 算法模型,然后采用4 种不同因素组合的PageRank 算法对 Web of Science 系统2006-2016 的应用心理学领域的期刊文献进行实证分析,最后基于波达计数的专家方法进行算 法比较与评价,同时也探索其与词频统计之间的相关性问题。【结果/结论】实证表明C_BI-PageRank不仅在运行效 率上收敛快、运行时间少且质量评估优势明显。该方法引入不同文本主题因素,一定程度解决传统词频分析和机 器学习的不足,为热点主题探测方法提供了新思路。  相似文献   

10.
通过将研究分解成三个子任务,对网络数据从运用PageRank与TrustRank剔除作弊网页开始;借助结合网页间主题相关度、时间差以及在线评论比例的权重的TC-PageRank算法,提炼与产品主题高度相关并包含大量在线评论数据的网页集;最后考虑了网页与产品主题的相似度以及网页的链接增幅对网页权威性的影响,运用改进的HITS算法,确定在线评论分析数据来源的权威网页集;而基于MapReduce的矩阵分块运算,降低了算法时空的复杂度。并通过仿真实验验证了该方法的可行性与准确性。  相似文献   

11.
面向信息检索的汉语同义词自动识别和挖掘   总被引:3,自引:0,他引:3  
为了提高同义词自动挖掘的效率,本文提出了从词典释义中自动识别和挖掘同义词的方法,使用超链接分析算法和模式匹配算法,从不同的角度提取同义词:第一部分是把词汇之间注释与被注释的关系看成是一种链接关系。对给定的词汇进行分析,把与给定词汇具有链接关系的所有相关词汇构造一个词汇图,图中的每一个节点代表相关词,每条弧代表了词汇之间注释与被注释的关系。利用超链接分析方法并结合PageRank算法,计算词汇的PageRank值,把PageRank值看成是体现词汇之间语义相似性的衡量指标,最后为每一个词汇生成候选同义词集,并通过一定的筛选原则和方法,推荐出最佳的同义词。第二部分是利用词汇定义模式,对词汇的释义方式进行分析,归纳总结出在词典释义中同义词出现的模式,进而利用模式匹配方法识别和挖掘同义词。此外,利用模式匹配方法对Web网页和期刊论文中的同义词也进行了挖掘测试。测试结果表明,利用模式匹配和超链接分析方法来自动识别和挖掘同义词具有可行性和实用性。  相似文献   

12.
自PageRank提出以来,就引起了学界广泛关注。在概述PageRank算法的基础上,从Topic-Related PageR-ank﹑时间维加权PageRank和科研学术网络中加权PageRank这3个方面对加权PageRank算法进行了综述和评价。  相似文献   

13.
周源  刘怀兰  杜朋朋  廖岭 《情报科学》2017,35(5):111-118
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环 境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:①基于文本网 络和改进PageRank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;②增加特征值IDF值 的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的 不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分 类效果,验证了该方法能够有效提高文本特征词提取的准确度。  相似文献   

14.
结合网页内容分析的PageRank算法初探   总被引:1,自引:0,他引:1  
李树青 《情报杂志》2005,24(12):34-35,38
作为一种相当成功的基于超链分析的算法,PageRank算法可以有效地衡量网页重要度权值,然而进一步的研究也表明,这种纯粹依赖于超链分析的算法由于没有考虑到网页内容对网页重要度权值的影响,所以在一定程度上会造成偏差。因此,合理的将两者进行结合,充分利用网页内容特征对PageRank算法进行改进,可以极大的提高这种算法的有效性。  相似文献   

15.
设计了一种模糊关联规则挖掘算法——F-Apriori算法.在设计了支持度和置信度计算方法的基础上,该算法采用改进的Apriorl算法挖掘数值属性的关联规则.实验结果表明,算法在规则生成方面显示了良好的性能.  相似文献   

16.
通过引文网络的结构特征,有效地识别科学文献的价值并建立某种序关系,为科学评价提供了有价值的参考,也丰富了科学评价的方法。针对传统PageRank算法在引文网络中得到的结果倾向于发表时间久的文献,而不利于发表时间较短但具有学术影响潜力的文献,为了消除这种“不公平”性,将引文间隔时间引入算法中。图书馆与情报学领域的实证研究说明改进算法有效地优化了评价的结果,相对于传统PageRank算法更有利于发现具有潜力的新发表的文献。  相似文献   

17.
针对传统关联规则挖掘在处理高维大型数据时运行效率不高的问题,提出一种基于多策略二进制粒子群优化算法的关联规则挖掘方法。该方法使用二进制粒子群优化算法搜索关联规则,无需人为指定支持度、置信度等阈值,同时引入反向学习策略、细粒度惯性权重及V型函数,降低算法陷入局部最优的概率,提高算法的收敛精度。实验结果表明,改进后的算法收敛速度较快,且平衡了可靠性、相关性及可理解性等多个指标,能挖掘出更为有效的关联规则。  相似文献   

18.
关联规则挖掘是数据挖掘领域中的一个非常重要的研究内容,其主要目标就是发现数据库中一组对象之间某种关联。频繁项集挖掘是关联规则挖掘的关键步骤,它在很大程度上决定了关联规则挖掘的效率。介绍了Apriori算法及其算法改进。该改进算法对剪枝步进行了优化,提高了连接效率,并且不断减小数据库的规模,去掉无效事务,减少了每次扫描数据库所花费的时间,提高了算法效率。经过试验论证,性能比原有算法提高,具有一定的实用性。  相似文献   

19.
谢胡林 《科技通报》2019,35(8):172-176
在大数据背景下进行数据挖掘越来越受到重视,针对Apriori挖掘算法中存在消耗时间长,算法效率低的特点,采用添加数据库、改进频繁1-项集,改进频繁2-项集和引入动态存储空间等措施,提高Apriori算法的性能,仿真实验中,本文算法在时间消耗、CPU耗能和挖掘效果上都取得了良好的效果。  相似文献   

20.
李玉霞  李红宇 《科技通报》2012,28(2):149-151
Web日志中包含了大量的用户浏览信息,如何有效地从中挖掘出用户浏览模式就尤为重要了。本文在分析现有用户浏览模式挖掘算法存在问题的基础上,根据Web日志的特点,对关联规则挖掘算法进行改进,提出了基于滑动窗口的浏览模式挖掘算法TBPM。并在此算法基础上设计了增量更新算法,对实际数据的实验结果验证了本算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号