共查询到19条相似文献,搜索用时 74 毫秒
1.
主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。 相似文献
2.
3.
乔建忠 《现代图书情报技术》2011,(3):45-50
在总结主题爬行器的"真、假隧道"策略的基础上,提出一种解决"假隧道"问题的KBES算法。通过实验分析KBES算法能在一定程度上提高锚与链接文本在启发策略中预测新链接相关性的效率。 相似文献
4.
5.
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。 相似文献
6.
基于P2P的分布式主题爬虫系统的设计与实现 总被引:1,自引:0,他引:1
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程.系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求.实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息. 相似文献
7.
基于主题模型的科技报告文档聚类方法研究 总被引:1,自引:0,他引:1
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。 相似文献
8.
9.
10.
11.
基于内容和协作的信息过滤方法研究 总被引:7,自引:0,他引:7
随着互联网上信息的迅速增长,信息过滤技术得到越来越广泛的应用。本文论述了内容过滤和协作过滤两种信息过滤技术,针对它们存在的问题,提出一种结合两种过滤技术的方法。实验结果表明,该方法能较好地解决问题,提高过滤结果的准确性,是一种更好的信息过滤方法 相似文献
12.
13.
由信息过滤引发的基于知识的过滤机制构想 总被引:4,自引:0,他引:4
在分析信息过滤理论背景的基础上,指出目前信息过滤系统存在的主要瓶颈问题是:相关度过滤算法过于依赖文本统计分析方法;信息质量过滤算法严重缺乏;如何创建精确的用户模板以表达用户的信息需求。在此基础上,探讨借助信息过滤技术建立基于知识的过滤机制的必要性与前景,同时提出建立基于知识的过滤机制的关键技术与模式的设想。 相似文献
14.
信息过滤技术在数字图书馆的应用 总被引:10,自引:1,他引:10
信息过滤技术将在数字图书馆个性化服务中起重要作用。可以构建一个基于信息过滤技术的数字图书馆模型。它主要包括信息检索模块和信息过滤模块。图1。参考文献4。 相似文献
15.
16.
信息过滤问题的研究 总被引:23,自引:0,他引:23
梅海燕 《现代图书情报技术》2002,18(2):44-47
随着WWW 的迅猛发展和广泛使用,“信息过载”的问题日趋严重, 信息过滤日益重要。本文论述了信息过滤的意义、信息过滤的理论背景、信息过滤系统的研究, 最后探讨了目前信息过滤存在的问题。 相似文献
17.
18.
19.
An Empirical Analysis of Design Choices in Neighborhood-Based Collaborative Filtering Algorithms 总被引:4,自引:0,他引:4
Collaborative filtering systems predict a user's interest in new items based on the recommendations of other people with similar interests. Instead of performing content indexing or content analysis, collaborative filtering systems rely entirely on interest ratings from members of a participating community. Since predictions are based on human ratings, collaborative filtering systems have the potential to provide filtering based on complex attributes, such as quality, taste, or aesthetics. Many implementations of collaborative filtering apply some variation of the neighborhood-based prediction algorithm. Many variations of similarity metrics, weighting approaches, combination measures, and rating normalization have appeared in each implementation. For these parameters and others, there is no consensus as to which choice of technique is most appropriate for what situations, nor how significant an effect on accuracy each parameter has. Consequently, every person implementing a collaborative filtering system must make hard design choices with little guidance. This article provides a set of recommendations to guide design of neighborhood-based prediction systems, based on the results of an empirical study. We apply an analysis framework that divides the neighborhood-based prediction approach into three components and then examines variants of the key parameters in each component. The three components identified are similarity computation, neighbor selection, and rating combination. 相似文献