首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 74 毫秒
1.
主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。  相似文献   

2.
文阳  陈文宇  袁野  朱建 《图书情报工作》2014,58(20):125-130
认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。  相似文献   

3.
在总结主题爬行器的"真、假隧道"策略的基础上,提出一种解决"假隧道"问题的KBES算法。通过实验分析KBES算法能在一定程度上提高锚与链接文本在启发策略中预测新链接相关性的效率。  相似文献   

4.
基于主题聚类的主题数字图书馆是针对某一个特定的主题,获取与该主题相关的数字资源集合(本文以文本资源为研究对象),然后再依据主题聚类算法,对该主题的信息资源集合进行聚类,生成可供用户浏览的多层次结构导航,结合全文检索实现基于主题聚类的主题数字图书馆系统.主题数字图书馆系统主要包括主题采集模块、主题聚类模块和数据集成模块,构建过程中主要涉及主题提取、主题聚类以及聚类结果描述等三类关键技术.表2.图1.参考文献20.  相似文献   

5.
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。  相似文献   

6.
基于P2P的分布式主题爬虫系统的设计与实现   总被引:1,自引:0,他引:1  
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程.系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求.实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息.  相似文献   

7.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

8.
本文在分析用户网络浏览行为的基础上,从用户的专业知识经验出发设计了用以控制、引导网络蜘蛛行为的专家知识库,利用模糊规则推算法,在进行网页下载的同时对网页中的URL主题相关度进行预测的同时对相应的资源进行模糊规则分类.文章并以基础教育资源搜集为例对该算法进行了实现,通过对先后两个版本的系统性能的分析和比较,结果表明,使用模糊规则推理算法,进行URL相关度预测可以有效提高主题资源搜集的速度,采用二次分类的办法可以进一步提高资源分类的准确度,从而提高主题资源搜索系统的整体性能.  相似文献   

9.
基于词汇链的应急预案主题抽取方法研究   总被引:1,自引:0,他引:1  
本文针对应急预案自动主题抽取的需求,采用词汇语义相关度计算的方法,构建了一个基于词汇链算法且符合人的主观感受的主题抽取模型.模型根据应急预案文本的特点,运用了自然语言处理技术,改进了原始的词汇链生成算法,提出了一种多因素词语权重算法.通过与人工抽取主题词的实验结果相比较,该主题提取模型在查全率和查准率上都取得了较好的效果.  相似文献   

10.
多相关主题的主题文本资源相关度算法研究   总被引:1,自引:0,他引:1  
主题图作为一种新型的信息资源整合工具,在数字资源整合领域有着广泛的应用前景.主题图中资源与主题间的相关度在一定程度上反映了资源与用户查询需求间的相关程度.基于此,本文提出了一种主题文本资源间相关度算法,主要从资源本身及用户动态使用行为两方面深入分析.相关算例试验结果表明,该算法相对稳定,整体上对文本资源排序的效果较好.  相似文献   

11.
基于内容和协作的信息过滤方法研究   总被引:7,自引:0,他引:7  
白丽君 《情报学报》2005,24(3):304-308
随着互联网上信息的迅速增长,信息过滤技术得到越来越广泛的应用。本文论述了内容过滤和协作过滤两种信息过滤技术,针对它们存在的问题,提出一种结合两种过滤技术的方法。实验结果表明,该方法能较好地解决问题,提高过滤结果的准确性,是一种更好的信息过滤方法  相似文献   

12.
数字图书馆中主动信息过滤系统的构建研究   总被引:6,自引:0,他引:6       下载免费PDF全文
设计了一个结合使用协作过滤和基于内容过滤的主动信息过滤的实验系统。其结构框架的主要部分有:智能代理、检索服务器、用户需求文档数据库、过滤服务器、结果处理器和推送服务器。它采用机器学习的机制来预测用户新的兴趣。  相似文献   

13.
由信息过滤引发的基于知识的过滤机制构想   总被引:4,自引:0,他引:4  
宋媛媛  孙坦 《图书情报工作》2005,49(3):39-41,86
在分析信息过滤理论背景的基础上,指出目前信息过滤系统存在的主要瓶颈问题是:相关度过滤算法过于依赖文本统计分析方法;信息质量过滤算法严重缺乏;如何创建精确的用户模板以表达用户的信息需求。在此基础上,探讨借助信息过滤技术建立基于知识的过滤机制的必要性与前景,同时提出建立基于知识的过滤机制的关键技术与模式的设想。  相似文献   

14.
信息过滤技术在数字图书馆的应用   总被引:10,自引:1,他引:10  
信息过滤技术将在数字图书馆个性化服务中起重要作用。可以构建一个基于信息过滤技术的数字图书馆模型。它主要包括信息检索模块和信息过滤模块。图1。参考文献4。  相似文献   

15.
一种基于智能过滤的Web个性化推荐模型   总被引:1,自引:0,他引:1  
Web个性化研究的关键技术是推荐系统,其作用是根据用户模型推荐个性化内容,当前推荐技术的研究主要包括四种模式:基于规则过滤、基于内容过滤、基于协作过滤和混合过滤模式。前三种工作模式采用的是传统技术和方法,根据当前推荐系统研究的重点和热点,提出一种Web个性化应用的智能过滤推荐模式。智能过滤推荐模式组合采用以上三种工作模式的优点、避免前三种单一模式的缺点。该方法的突出特点是根据离线学习模型提取的用户偏好特征,实现在线智能推荐。  相似文献   

16.
信息过滤问题的研究   总被引:23,自引:0,他引:23  
随着WWW 的迅猛发展和广泛使用,“信息过载”的问题日趋严重, 信息过滤日益重要。本文论述了信息过滤的意义、信息过滤的理论背景、信息过滤系统的研究, 最后探讨了目前信息过滤存在的问题。  相似文献   

17.
18.
为了帮助用户有效地发现、过滤和利用信息 ,信息过滤技术应运而生。协作过滤作为其中一种技术也得到迅速发展 ,但传统的协作过滤算法存在矩阵稀疏性等问题 ,影响预测效果。本文给出一种基于信息项的新算法 ,它从矩阵的列来考虑 ,能有效地解决矩阵稀疏性等问题 ,并提高预测准确性。  相似文献   

19.
Collaborative filtering systems predict a user's interest in new items based on the recommendations of other people with similar interests. Instead of performing content indexing or content analysis, collaborative filtering systems rely entirely on interest ratings from members of a participating community. Since predictions are based on human ratings, collaborative filtering systems have the potential to provide filtering based on complex attributes, such as quality, taste, or aesthetics. Many implementations of collaborative filtering apply some variation of the neighborhood-based prediction algorithm. Many variations of similarity metrics, weighting approaches, combination measures, and rating normalization have appeared in each implementation. For these parameters and others, there is no consensus as to which choice of technique is most appropriate for what situations, nor how significant an effect on accuracy each parameter has. Consequently, every person implementing a collaborative filtering system must make hard design choices with little guidance. This article provides a set of recommendations to guide design of neighborhood-based prediction systems, based on the results of an empirical study. We apply an analysis framework that divides the neighborhood-based prediction approach into three components and then examines variants of the key parameters in each component. The three components identified are similarity computation, neighbor selection, and rating combination.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号