首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 546 毫秒
1.
Web 信息检索(Information Retrieval)技术研究是应用文本检索研究的成果,它结合Web图论的思想,研究Web上的信息检索,是行之有效的Web知识发现的途径。传统HITS方法所获得的信息精确度相当低,而PageRank作为一通用的搜索方法,不能够应用于特定主题的信息获取。在充分分析了PageRank、HITS等现有算法和Web文档的相似度计算方法的基础上,提出了Web上查询特定主题相关信息发现的RG-HITS算法。它结合了Web超链接、网页知识表示的信息相关度以及HITS方法来搜索Web上特定主题的相关知识。  相似文献   

2.
本文以PageRank算法和HITS算法为例,对基于超链接分析技术的搜索引擎排序算法进行分析,并总结了超链接分析技术应用于搜索引擎结果排序的局限性。  相似文献   

3.
以PageRank算法和HITS算法为例,分析超链接分析技术的搜索引擎排序算法,总结超链接分析技术应用于搜索引擎结果排序的局限性。  相似文献   

4.
张俊丽  张帆 《图书与情报》2007,(4):48-51,62
目前,大多数搜索引擎都是用相关度或page—rank或HITS(Hyperlink—Induced Topic Search)算法对匹配的结果进行排序,然后以列表的方式呈现给用户。事实表明:其索引质量不高,对所收集的信息缺乏有效的分类处理,用户面对成千上万的搜索结果无法——查看。而真正符合需要的搜索结果常常因为排在后面而被漏检,返回的结果只有极少部分得到了用户的有效利用。文章提出运用基于K近邻的模糊C均值算法(以下简称KNN—FCM)对搜索引擎的初始结果进行自动聚类,系统再针对用户作出的适时反馈进行相应的输出调整,从而方便用户查找信息。  相似文献   

5.
一种基于网页分割的Web信息检索方法   总被引:2,自引:0,他引:2  
提出一种基于网页内容分割的Web信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用了的内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用了区域信息来对相关的检索结果进行排序。  相似文献   

6.
《中国传媒科技》2005,(3):58-58
以色列安全机构需要一种新的“数据挖掘”算法来从无边的数据中查找到恐怖主义分子的蛛丝马迹,他们要从无边的海量数据中寻找出与潜伏的恐怖主义分子的联系。例如,从与每一次自杀式爆炸相关的电话、电视画面、报纸报道、电子邮件、网页中搜索出与之相关的线索。然而,面对各种各样形式的海量数据,如何才能找到与恐怖主义相关的有用数据?  相似文献   

7.
为了提高网页自动分类的准确率,基于信息融合的模型理论,提出了一种通用的网页自动分类模型和融合算法。该模型根据完成功能的不同分为四个层次:信息抽取层、数据预处理层、特征层和决策层,其中特征层是针对网页上不同种类的媒体信息采用不同的分类方法进行分类,并将分类结果分别输入决策层和与该特征层算法相关的其他的特征层。决策层是处理特征层的分类结果,并推导出最终的网页分类融合结果,并将该模型和算法进行了实现。实验表明,文章提出的融合模型和算法可以有效地改进网页自动分类准确率。  相似文献   

8.
基于聚类的网络舆情热点发现及分析*   总被引:9,自引:0,他引:9  
根据对网络舆情分析的需求,构建出基于聚类的网络舆情热点发现及分析系统。通过对样本网页文本的特征提取,构建向量空间模型,使用OPTICS算法获取网页热点簇,根据热点簇特征向量对网页进行二次聚类,从而获取关于舆情的时间演变模式,为相关领域研究提供决策支持。通过二次聚类,提高舆情网页相关度的质量,使网络舆情分析更为准确可靠。  相似文献   

9.
"链接工厂"欺骗(Link farm spam)和重复链接严重地损坏了像HITS这样基于链接排序的算法性能.为了检测与抑制Web"链接工厂"欺骗和重复链接,本文充分利用页面之间的复制信息,尤其是利用完全超链接信息识别可疑链接目标.提出一种由页面文档和完全链接构成的二部图结构,通过对二部图进行构建与分析,搜寻共享锚文本和链接目标的Web页面,在此过程中标识链接工厂和重复链接,并通过带惩罚因子的权重邻接矩阵减小可疑链接的影响.实时实验和用户仿真测试结果显示,本文算法能显著改善传统HITS类方法的信息搜索质量.  相似文献   

10.
基于HITS算法的期刊评价研究   总被引:1,自引:1,他引:0  
构建了适用于期刊引用网络的HITS(hypertext in-duced topic search)算法,利用2006年的中国科技论文与引文数据库(CSTPCD)分别计算所有及化学类统计源期刊的权威(authority)值与中心(hub)值,并与影响因子进行了对比研究,讨论了HITS算法用于期刊评价的优缺点以及适用范围。  相似文献   

11.
体育类核心期刊的刊名和版权块中英文标志的调查与分析   总被引:1,自引:0,他引:1  
冉强辉  张业安 《编辑学报》2011,23(5):409-411
采用内容分析法,结合科技英语的特点及体育科技期刊英文编辑加工的相关规范,对我国9种体育类核心期刊的封面英文刊名、版权块中的英文标志现状进行调查,揭示存在的主要问题,提出相关建议。  相似文献   

12.
汉语分词对中文搜索引擎检索性能的影响   总被引:3,自引:0,他引:3  
金澎  刘毅  王树梅 《情报学报》2006,25(1):21-24
针对中文网页的特点,研究了汉语分词对中文搜索引擎检索性能的影响。首先介绍中文分词在搜索引擎中的作用,然后介绍常用的分词算法。作者利用网页特征,提出一个简单的“带启发性规则的双向匹配分词策略”。最后,在10G的语料库中,就各种分词算法对查全率和查准率的影响进行了实验比较,结果表明分词性能和检索性能没有正比关系。  相似文献   

13.
数字图书馆面临着进一步提高信息检索质量的问题,基于都柏林核心集的知识集成和检索能够发挥重要作用。结合Web网页的特点和本体知识,给出一种都柏林核心集网页文本的数据模型。词义扩展的相似匹配是当前知识检索采用的较为实用的方法,基于该模型采用词素匹配的技术并结合词义扩展的信息检索的一些技术,能使信息有效地存储集成和提高信息利用质量,能使开发的知识检索系统有更好的应用性。图1。参考文献7。  相似文献   

14.
在现有相关研究的基础上,对基于通用搜索引擎的深层网络表面化方法的基本原理进行分析,对表单域取值范围的确定、查询处理、查询结果的超链接设置等与深层网络表面化相关的若干关键问题进行探讨。  相似文献   

15.
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。  相似文献   

16.
针对国内2000-2010年之间有关网页去重技术的研究成果进行计量分析,重点从网页结构、网页特征、网页内容、同源网页、元搜索等方面总结和分析去重技术的基本研究现状,并兼论基于布尔逻辑模型与傅立叶系数的网页去重以及网页去重技术在一些特殊领域的应用研究。  相似文献   

17.
"211工程"建设的高校图书馆主页设计的调查及分析   总被引:9,自引:0,他引:9  
回雁雁 《图书馆论坛》2005,25(2):98-101
对我国“211工程”建设的高校图书馆主页的设计和组织进行了调查,由此分析出我国高校图书馆主页设计和组织上的共性以及存在问题,并在此基础上提出了解决问题的对策。  相似文献   

18.
提出了一种基于数据挖掘技术的Web智能服务算法,它通过对Web数据模型的转换,发现并建立有关用户意向关联知识库,然后再利用知识库中的关联规则来预测用户行为,从而提高了用户浏览器访问速度。该研究内容属目前智能信息检索领域的重要研究课题,具有一定的理论和实践意义。  相似文献   

19.
中美高校图书馆信息服务模式对比研究   总被引:1,自引:0,他引:1  
论文通过查阅相关文献和浏览图书馆主页.对中美图书馆的十二种主要信息服务模式进行总结与对比分析,在此基础上对我国高校图书馆的信息服务模式提出了一些建议.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号