共查询到19条相似文献,搜索用时 265 毫秒
1.
大多网页都是基于服务器端模板生成的,所以在同一个站点经常看到很多外观相同内容相似的网页.HTML是一种半结构化的标记语言,每个HTML网页都对应一个DOM树结构.网页的相似性表现结构上就是结构相似性.研究网页结构相似性的方法有很多,本文从DOM树中的链路结构的角度来研究不同网页间的相似性,并提出了基于链路压缩树的结构相似度度量模型.本文中的计算方法都用Python语言实现.通过实验,本文使用多种方法对不同网页间的相似度进行了计算和分析,实验数据表明,基于链路压缩树的结构相似度度量模型具有较好的适用性,其速度是传统方法不可比拟的. 相似文献
2.
树编辑距离在Web信息抽取中的应用与实现* 总被引:1,自引:0,他引:1
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。 相似文献
3.
本文重点探讨基于编辑距离的网页相似度算法在Web 抽取系统中的应用与实现.通过结合基于URL 及编辑距离的网页结构相似度的计算方法,抽取系统在抽取过程中能够检测网页结构的变化,从而主动做出判断,选择适应规则进行抽取或通过主动学习自动扩展规则库.结构相似度计算赋予系统感知网页结构变化的能力,系统通过主动自我更新与调整,能更好地适应面向实际应用的异构资源的获取.算法的可行性和效率在原型系统中得以验证. 相似文献
4.
XML文档相似度计算方法研究 总被引:1,自引:0,他引:1
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评. 相似文献
5.
本文基于概念树计算论文与专家之间的相似度,然后采用基于启发式的最大相似度匹配方法将论文分配给相应的评审专家.基于概念树的相似度计算,可以充分满足主题覆盖度约束;基于启发式的最大相似度匹配算法不仅可以满足利益冲突约束,又可以满足专家工作量约束.最后实验验证了所提算法的有效性. 相似文献
6.
为提高引文网络社区划分的准确性,以文档之间的语义关系以及引文之间的引用关系为基础,结合词汇在文档中的位置关系等信息,构建基于词汇语义加权的引文网络。通过GloVe模型对词汇向量化以充分利用词汇语义信息,结合WMD模型度量文献之间的相似度,把文档相似度的计算转变为在约束条件下求线性规划最优解的问题,结合文本的内容及结构特征对网络中的边进行赋权,以Louvain社区发现算法对加权后的引文网络进行社区划分,并对划分后的社区进行分析与检验,实验证明GloVe-WMD模型可提高引文网络社区划分的准确度。 相似文献
7.
针对传统的信息抽取方法在提取卷期目录链接时精度不高的问题,本文提出一种基于网页分块和链接特征的卷期目录链接提取方法.首先,以网页标签树的布局标签为最小粒度,提出一种原子网页分块算法,将网页分割为若干个相互独立、互不包含的内容块;其次,根据内容块的子树结构,提出一种原子内容块聚类算法,通过合并相似内容块对网页进行语义块划分;最后,提出一种卷期目录链接块的识别算法,通过融合链接文本相似度和基于Bayes的语义分析方法识别出卷期目录链接区域,从而实现链接的提取.实验结果表明,本文提出的方法能够有效提取卷期目录链接. 相似文献
8.
近几年,各大社会媒体都在致力于提供良好的信息推荐服务,应对网络资源的增长和用户的个性化需求,然而数据稀疏性问题成为了影响推荐性能的主要障碍因素之一.本文在随机游走 (RWR) 算法的基础上进行了改进,提出了一种项目-标签导向的随机游走推荐模型 (TRWR),针对特定用户分别在项目空间和标签空间中根据对象之间的相似性计算转移概率,进行有限步长的随机游走,在两个空间中都生成若干个待推荐项目,然后重新计算预测评分,最后对该用户进行个性化信息推荐.在计算对象之间相似性的过程中,本文采用了融合评分差异性和共同评分用户数的相似度计算方法.我们的实验基于MovieLens公开数据集,并与Top-N、DV和RWR这三种项目导向方法进行了对比,结果表明本文提出的模型提高了Precision值和Recall值,并使得MAE值有所下降. 相似文献
9.
10.
为探究面向学科新兴主题探测领域多源科技文献融合过程中的时滞性问题,本文设计了多源科技文献时滞计算方案。首先,从获取的4种科技文献数据集中提取学科主题,计算学科主题间的相似度,构建相似矩阵;其次,基于匈牙利最优匹配算法寻求相似度损耗最小条件下的最优组合;最后,构建线性方程模型并拟合计算时滞程度。本文以2009-2016年农业学科领域337790篇摘要文本为实验数据,抽取基金项目文本学科主题为250个、专利文献为260个、期刊论文为260个、会议论文为240个,利用上述多源科技文献时滞计算方案实验。结果表明:期刊论文滞后于基金项目文本和会议论文1年,专利文献滞后于期刊论文1年,结合以往对不同学科领域数据的研究结果,验证了多源科技文献时滞计算方案的可行性和有效性,同时也为多源科技文献融合策略的制定提供新思路。 相似文献
11.
基于领域本体实现Web文本挖掘研究 总被引:1,自引:0,他引:1
12.
一种基于网页分割的Web信息检索方法 总被引:2,自引:0,他引:2
提出一种基于网页内容分割的Web信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用了的内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用了区域信息来对相关的检索结果进行排序。 相似文献
13.
14.
利用中国学术期刊数据库、中国学位论文数据库、Web of Science等数据库,对网络信息生态链优化策略
相关研究成果进行检索、归纳和分析,从网络信息生态链的结构优化、主体要素优化、效率优化3 个方面对网络信息生
态链的优化策略进行评述,认为信息环境对生态链的作用只有通过作用于信息主体才能体现出来,进而对信息生态链
的结构和流转效率产生影响,信息生态链流转效率是信息生态链要素和信息生态链结构共同作用的结果。 相似文献
15.
多层次web文本分类 总被引:8,自引:0,他引:8
传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系。根据LSA理论提出了一种多层次web文本分类方法。建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根据相应的类模型存LS空间上分类。这种分类方法解决了LSA模型中高维矩阵难以进行奇异值分解的问题。同时体现了web文本中词条的语义关系,注重了词条在网页中的表现形式。实验表明,多层次web文本分类方法比基于平面分类体系的分类方法在查全率和准确率方面要好。 相似文献
16.
网络信息资源评价中的AHP方法 总被引:4,自引:0,他引:4
文章论述了网络信息资源的评价原则,重点分析、研究了国内外一系列网络信息资源的评价标准,运用AHP法,建构网络信息资源评价的层次结构模型及指标体系。 相似文献
17.
18.
网络信息资源档案化及其服务的探讨 总被引:1,自引:0,他引:1
互联网的发展使得信息成为当今世界的显著特征,信息爆炸与信息湮灭的成为网络信息资源管理中亟待解决的问题.针对不断产生与消失的网络信息资源,本文分析了当前国内外网络信息资源保存的理论和实践中的进展与不足,提出针对网络信息资源档案化及其服务的探讨,针对性地给出了一些我国网络信息资源档案化与建立网络档案学的建议与对策,以期能提... 相似文献
19.
本文就当前我国网络信息内容质量问题,根据信息结构对网络信息内容进行了分类,并分析了网络信息内容的现状与原因,提出了几点看法与建议,希望能够促进我国网络信息内容的发展。 相似文献