首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种结构与内容相结合的XML文档聚类方法
引用本文:谌志群,王小华,王荣波.一种结构与内容相结合的XML文档聚类方法[J].情报学报,2009,28(5).
作者姓名:谌志群  王小华  王荣波
作者单位:杭州电子科技大学计算机应用技术研究所,杭州,310018
摘    要:XML(可扩展标记语言)正在成为Web数据交换的标准格式.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇.现有的大部分XML文档聚类是基于文档结构特征的.本文提出了一个新的结构与内容相结合的XML文档聚类方法.首先从文档中抽取构件向量,并把文档转换为向量化的表示.然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类.在DBLP XML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法.

关 键 词:文档聚类  结构  内容  层次聚类

A Clustering Method Based on Structure and Content for XML Documents
Chen Zhiqun,Wang Xiaohua,Wang Rongbo.A Clustering Method Based on Structure and Content for XML Documents[J].Journal of the China Society for Scientific andTechnical Information,2009,28(5).
Authors:Chen Zhiqun  Wang Xiaohua  Wang Rongbo
Institution:Institute of Computer Application Technology;Hangzhou Dianzi University;Hangzhou 310018
Abstract:The XML(eXtensible Markup Language) is becoming the standard format for web data exchange.With the widespread diffusion of semistructured data in XML format,processing and management of XML documents have already become a popular research issue.To be an important subject in XML data processing research,the clustering of XML documents refers to detect groups of XML documents that have similar features.Most existing methods on XML documents clustering are based on structural features.This paper proposes a new...
Keywords:XML
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号