首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 546 毫秒
1.
先从网页内容和网页链接的角度计算网页与主题的相似度,然后将二者归一化,最终确定网页与主题的相关度.从分析网页内容相似度的角度保证网页与主题的相关性,从网页链接分析的角度解决网页搜索的权威性和覆盖乔率.算法还对PageRank算法进行了改进,将访问网页的概率加入到算法计算过程中,实验结果表明,新的算法具有较高的搜索效率.  相似文献   

2.
在对PageRank算法和主题链接分析的基础上,提出了一种面向主题的链接评价算法TL-PageRank,该算法以"主题随机冲浪"模型为基础,同时利用网页主题分布特性和网页之间相互引用特性,对未爬行链接的权威值进行综合评价.实验表明,TL-PageRank算法在收获率方面比经典的链接评价算法获得了明显的提高.  相似文献   

3.
通过将研究分解成三个子任务,对网络数据从运用PageRank与TrustRank剔除作弊网页开始;借助结合网页间主题相关度、时间差以及在线评论比例的权重的TC-PageRank算法,提炼与产品主题高度相关并包含大量在线评论数据的网页集;最后考虑了网页与产品主题的相似度以及网页的链接增幅对网页权威性的影响,运用改进的HITS算法,确定在线评论分析数据来源的权威网页集;而基于MapReduce的矩阵分块运算,降低了算法时空的复杂度。并通过仿真实验验证了该方法的可行性与准确性。  相似文献   

4.
研究主要针对PageRank只考虑链接关系,而不考虑相关性的缺点进行了一些改进,把Web数据挖掘技术的内容挖掘应用到PageRank算法中,基于超链接文本和内容与主题的相关性,提出了PageRank算法的优化算法,并通过实验仿真,实验结果表明改进后的方法对提高更高相关性的网页的排名是有效的,符合人们的期望。  相似文献   

5.
结合网页内容分析的PageRank算法初探   总被引:1,自引:0,他引:1  
李树青 《情报杂志》2005,24(12):34-35,38
作为一种相当成功的基于超链分析的算法,PageRank算法可以有效地衡量网页重要度权值,然而进一步的研究也表明,这种纯粹依赖于超链分析的算法由于没有考虑到网页内容对网页重要度权值的影响,所以在一定程度上会造成偏差。因此,合理的将两者进行结合,充分利用网页内容特征对PageRank算法进行改进,可以极大的提高这种算法的有效性。  相似文献   

6.
许颖  廖乐健 《情报杂志》2006,25(4):92-94
SEO SPAM和飞速发展的网页规模要求更优的网页排名技术,在研究链接分析技术PageRank及互信息模型后,提出了检索相关度算法(IR-REL),构建相关词链表计算网页的布尔权重。该排名同时将权威度和相关度作为影响因子,可提高检索相关度,降低关键词作弊影响。文章给出了具体的排名策略、实验数据和系统模型。  相似文献   

7.
分析了基于链接结构的PageRank算法,考虑算法在网页排序方面的客观优点的同时,指出了其在判定网页主题相关性方面的不足,提出了基于主题预测相关度加权的改进策略,为提高定向信息采集的准确率和召回率提供了理论依据.  相似文献   

8.
基于概念的权重PageRank改进算法   总被引:2,自引:0,他引:2  
杨彬  康慕宁 《情报杂志》2006,25(11):70-72
对比了基于链接分析的搜索引擎排序算法PageRank和HITS。针对原有PageRank算法采用的平分页面自身PageRank值的策略,提出了一种按权值分配的改进算法。权值由页面间的概念关联比重和用户的搜索概念确定。  相似文献   

9.
李法运  农罗锋 《情报科学》2013,(2):34-37,44
针对传统的K-Means算法的不足,以及其在文本聚类中存在的局限性,提出了一种基于网页向量语义相似度的改进K-Means算法。新算法通过向量语义相似度的计算自动确定初始聚类中心,在聚类过程中,达到语义相似度阈值的网页才使用K-Means算法进行聚类。通过实验证明,新算法很好地克服了传统K-Means算法随机选取聚类中心以及无法处理语义信息的问题,提高了聚类的质量。  相似文献   

10.
搜索引擎将网络信息进行有效的组织,从而使庞杂的网络信息变得有序化,通过搜索引擎能够快速准确地获取所需信息。搜索引擎通过采用网页评级的方式,按照级别由大到小地将检索结果展现给用户。显然,级别高的网页必定会被优先浏览。因此,对于网络建设者来说,提高网页级别是十分重要的。文章从PageRank算法着手,对影响网站排名的因素如:网站内部的链接模式、外部链接和外向链接进行计算分析,最终得出有效的链接模式。  相似文献   

11.
[目的/意义]专利关键词提取是专利挖掘任务中非常重要的前置子任务,基于图模型的关键词提取是目前最有效的算法。传统图模型只考虑了单词的局部上下文信息,为了捕获单词的全局信息,提出一种基于图神经网络的专利关键词提取算法,结合词向量与图模型实现专利关键词的提取。[方法/过程]首先,用专利数据集构建异构网络,以专利分类号为标签,训练图神经网络模型,使得同一主题下的单词具有相似的向量表示,获取包含主题信息的词向量;然后,根据专利摘要在滑动窗口内的单词共现关系和词向量相似度,构建融合了单词主题信息的文本图,利用词向量中的主题信息捕获单词的全局联系;最后,在文本图上使用PageRank算法,获取关键节点,构成专利的关键词。[结果/结论]与基线方法相比,该算法在提取专利关键词时,能够检测到新颖性与准确性更高的关键词。  相似文献   

12.
分析了词向量在自然语言处理中的作用。使用已经训练好的词向量进行了简单类比推理、词语间离和句子相似度分析。给出一种结合词向量和传统语义解析两者优点的句子相似度计算WCos公式,通过传统语义分析将程度词单独提取处理,使用权值修改对照表进行权值设置,然后对余弦相似度公式进行修正。该方法在句子相似度分析方面明显优于单纯依赖于词向量的句子相似度分析方法。  相似文献   

13.
针对传统的基于Web图的垂直搜索策略Authorities and Hubs,提出了一种融合了网页内容评价和Web图的启发式垂直搜索策略,此外,引入向量空间模型进行针对网页内容的主题相关度判断,进一步提高主题网页下载的准确率.实验表明,文中算法有效地提高了主题网页的聚合程度,且随着网页下载数量的增加,垂直搜索引擎的准确率逐渐递增,并在下载网页达到一定数量后,准确率趋于稳定,算法具有较好的鲁棒性,可以应用到相关垂直搜索引擎系统中.  相似文献   

14.
在已有的基于Dom—Tree的网页信息提取算法基础上,通过对Html标签进行分类,逐个分析各Html标签所包含的结构信息,设计了一种自底向上的网页分块方法,并在此基础上,实现了文本相似度比较的网页主题内容信息块识别算法,提高了主题内容信息块的识别精确度。  相似文献   

15.
搜索引擎是互联网资源搜索的入口,搜索的快捷性、准确性是搜索引擎的核心竞争力,如何提高竞争力是业内企业的工作重点。已有的搜索引擎算法中,最具代表性的就是PageRank算法,针对该算法的改进方法也有很多,但效果并不很理想。分析了已有PageRank改进方法的不足,立足于用户搜索行为信息挖掘,采用时序关联分析方法,将关联比例作为权值加入到PageRank计算公式中,改变平均分配权威值的计算方法,从而得到了改进的PageRank算法——TCPR算法,使得搜索排序结果更符合用户的信息需求。  相似文献   

16.
程芳  沈红岩  赵艳 《现代情报》2016,36(3):76-79
传统协同过滤推荐算法依据共同评分项目计算用户相似度, 进而产生推荐项目。然而, 随着用户和商品数量的不断增加, 用户共同评分的项目会越来越少, 甚至没有, 因此传统协同过滤推荐算法对用户之间相似度的衡量将会越来越不准确, 从而影响推荐系统的性能。针对这一问题, 本文对用户相似度的计算方法进行了改进, 提出直接相似度和间接相似度的概念, 同时引入关键人物权重, 进一步提高推荐系统的准确性。  相似文献   

17.
基于机器学习的Web链接的抽取   总被引:1,自引:0,他引:1  
互联网网页是通过超链接连接起来的,为人们的日常生活和商务用途提供了非常丰富的信息资源。链接结构分析在万维网的很多研究领域发挥着越来越重要的作用。然而存在着许多与主题无关的链接,造成了主题漂移。本文分析了链接本身的特点,介绍了一种有监督机器学习方法自动地抽取网页中的相关链接。试验结果表明该算法具有实用的价值。  相似文献   

18.
面向信息检索的汉语同义词自动识别和挖掘   总被引:3,自引:0,他引:3  
为了提高同义词自动挖掘的效率,本文提出了从词典释义中自动识别和挖掘同义词的方法,使用超链接分析算法和模式匹配算法,从不同的角度提取同义词:第一部分是把词汇之间注释与被注释的关系看成是一种链接关系。对给定的词汇进行分析,把与给定词汇具有链接关系的所有相关词汇构造一个词汇图,图中的每一个节点代表相关词,每条弧代表了词汇之间注释与被注释的关系。利用超链接分析方法并结合PageRank算法,计算词汇的PageRank值,把PageRank值看成是体现词汇之间语义相似性的衡量指标,最后为每一个词汇生成候选同义词集,并通过一定的筛选原则和方法,推荐出最佳的同义词。第二部分是利用词汇定义模式,对词汇的释义方式进行分析,归纳总结出在词典释义中同义词出现的模式,进而利用模式匹配方法识别和挖掘同义词。此外,利用模式匹配方法对Web网页和期刊论文中的同义词也进行了挖掘测试。测试结果表明,利用模式匹配和超链接分析方法来自动识别和挖掘同义词具有可行性和实用性。  相似文献   

19.
分析了Google的PageRank(PR值)算法原理,详细论述了网站链接的3个主要方面:出站链接、入站链接、站内链接的变化对网站PR值的影响,并提出了通过增加入链、减少出链和避免不必要的内部链接来优化网站链接,以提高PR值,从而为改善网站在搜索引擎中的排名提出了优化策略。  相似文献   

20.
文本的向量空间模型是把文本量化为空间里的向量,文本相似度的计算即对向量相似性的计算。本文通过分析传统的基于向量空间模型(VSM)文本相似度计算算法存在的不足,提出一种改进的文本相似度计算算法。改进算法充分考虑到了文本间向量空间模型相似度比较忽略了文本长度的缺点,引入文本长度参数,并在基于互信息的特征词抽取时考虑词频的因素对文本相似度的影响,有效减少了相似度低的文本干扰。实验结果验证了改进算法的有效性和准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号