首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 878 毫秒
1.
XML(可扩展标记语言)正在成为Web数据交换的标准格式.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇.现有的大部分XML文档聚类是基于文档结构特征的.本文提出了一个新的结构与内容相结合的XML文档聚类方法.首先从文档中抽取构件向量,并把文档转换为向量化的表示.然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类.在DBLP XML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法.  相似文献   

2.
XML文档相似度计算方法研究   总被引:1,自引:0,他引:1  
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评.  相似文献   

3.
XML文档自动聚类研究   总被引:6,自引:4,他引:6  
潘有能 《情报学报》2006,25(2):215-220
本文在文本聚类的基础上对XML文档自动聚类进行了研究,对划分聚类法和层次聚类法进行了改进,使之适合于XML文档聚类;给出了元素比较法、边集比较法和编辑距离法等三种计算文档间相似度的方法,并利用实际数据进行了测试和分析。  相似文献   

4.
近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准.XML文档聚类是数据挖掘研究中热点一个,为网络信息资源的搜集、组织及检索利用提供良好的技术支持.本文首先介绍了目前主要的XML文档聚类算法,然后在利用WordNet对XML文档中的标记进行语义消歧的基础上,提出了一种新的基于语义标记树的XML文档相似度计算方法,并通过最近邻算法进行聚类,最后在用于XML检索研究的数据集上进行实验,证实其确实是一种比较有效的XML文档聚类方法.  相似文献   

5.
基于RDBMS的XML数据存储方法有多种,本文认为它们大体上可分为两类。第一类方法是根据XML文档数据的物理结构设计关系模式,第二类方法是根据XML文档数据的逻辑结构设计关系模式,即根据XML的结构定义(DTD或XML Schema)来设计关系表,第一类方法还可分为基于边的存储和基于结点的存储。本文将结合XML文档实例对上述方法进行分析和探讨。  相似文献   

6.
XML 语言在数字化图书馆系统中的应用   总被引:2,自引:0,他引:2  
介绍了如何在数字化图书馆系统中运用XML语言的方法。并且说明了XML语言的特性及它与HTML语言的区别。利用韩国虚拟图书馆和信息系统(VINIS)中的一个子系统——基于XML语言的元数据搜索的实验系统来演示XML用法。元数据检索系统包括两个模块:搜索模块和浏览模块。搜索模块允许对储存在Access文件中的元数据进行搜索并且可以用XML语言的形式显示搜索结果,浏览模块允许浏览以XMUXSL文件形式存在的元数据。文章最后讨论了如何在数字化图书馆中更有效的运用XML语言。  相似文献   

7.
用JAVA+XML实现网站全文检索   总被引:2,自引:0,他引:2  
介绍了用JAVA和XML实现网站站内全文检索的实现过程,即用java编写索引工具,对WEB文档进行索引,索引结果写入XML文档;用Servlet和JDOM实现读取和查询XML文档,并在客户返回查询结果。  相似文献   

8.
VRA Core的XML格式在照片类数据库建档中的应用   总被引:1,自引:0,他引:1  
介绍了VRA视觉资料核心类目的内容与特点,并以VRA Core作为元数据的标准,结合XML对视觉资料——“照片”进行了实例描述。  相似文献   

9.
作为Internet网络的标准之一,XML文档通常用于文本数据的描述、存储和交换。本文讨论了用XML文档存储图片的技术方案,包括XML文档结构、图片存储、在线提交、下载和显示,描述了各个功能步骤的技术要点,并给出了基于ASP.NET的程序代码。本文探讨的基于纯XML文档和ASP.NET的图片管理技术具有无数据库驱动、易于实现等特点。  相似文献   

10.
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内容与结构语义相融合的XML语义相似性度量方法.同时,针对IEEE数据集无法提供每篇文档的类别信息,本文从相关文档的分布情况引入了相关簇率和相关文档分布率的概念来进行聚类质量评价.数据集IEEE CS上的实验表明,与同类相似性度量方法和传统方法相比,本文所提方法具有可行性和更好的聚类效果.  相似文献   

11.
XML文档的数据库转换技术研究*   总被引:3,自引:0,他引:3  
概述目前XML的几种存储方法,简单分析科技论文的文档类型,最后采用SQL Server 2000对PDF格式的科技论文经元数据信息抽取后所生成的XML文档实现具体的XML的数据库转换。  相似文献   

12.
指出传统信息检索技术对XML文档的处理,没有考虑其结构信息,描述粒度不够细致,故不能充分挖掘XML文档的表达能力;认为采用元素索引、属性索引和结构索引来记录XML文档的结构信息,可在细粒度上记载XML文档的结构,从而深层次地挖掘XML文档的表达能力。  相似文献   

13.
XML是Internet上的主流技术之一,在信息的共享和交换过程中发挥着非常重要的作用。本文介绍了在DataTrans-1000系统中进行二次开发,实现输出XML文档的方法。  相似文献   

14.
随着我国信息化的推进,需要将不同阶段、不同技术平台的信息资源进行整合,消除“信息孤岛”,使之集成于一个统一的、开放的构架之中。本文首先阐明了XML文档成为新一代Internet应用中通用的数据格式,崔分析了Web Service技术之后,提出了一种以Web、XML、SOAP技术为核心的异构和分布式的图书信息系统框架,最后给出了一个基于XML文档数据交换的应用实例。  相似文献   

15.
《汉语主题词表》XML文档的实现对于提高词表的利用效率具有重要意义。在详细分析《汉语主题词表》各数据表之间逻辑关系基础上,利用JDOM技术实现《汉语主题词表》XML文档的自动生成。  相似文献   

16.
潘有能  丁楠 《情报学报》2007,26(3):350-355
本文首先介绍了XML文档和DTD标记树的生成方法,并对标记树中节点的概念进行了扩充,使之不但包括元素,同时也包括连接符,以适应DTD结构的要求。随后将标记树中的元素分为共有元素、文档元素和DTD元素,并提出层次权重和结构权重以衡量元素的层次和结构复杂程度,给出具体计算方法。在此基础上提出了一个衡量XML文档和DTD之间相似度的算法,将其应用于XML文档自动分类中,并给出该算法的时间复杂度计算公式。从实验结果可以看出,该分类方法准确率较高。  相似文献   

17.
基于XML的词典信息组织技术   总被引:3,自引:0,他引:3  
孙辉 《情报学报》2005,24(1):112-115
如何有效地组织词典信息,是词典数字化出版首要关注的问题。本文针对词典信息的特点,引入基于XML的文档组织技术,并探讨该XML数据库的存储方式和索引机制,设计一种存储XML文档的中粒度的关系数据库模式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号