共查询到10条相似文献,搜索用时 15 毫秒
1.
Web 是动态性极强的信息源,访问、分析信息必须研究异构数据的集成问题,并选择合适的技术进行数据
分析、集成和处理。怎样对Web 海量的数据信息进行深层次的应用已成为数据挖掘技术的研究热点。本文介绍了XML
(可扩展标记语言)在Web 数据挖掘中的应用,探讨了Web 数据挖掘中的数据异构问题。通过XML技术建立数据抽取模
型,解决互联网上绝大多数因异构、非结构化所导致的Web 数据挖掘问题。 相似文献
2.
基于Web的半结构化数据的知识发现 总被引:3,自引:0,他引:3
随着商务贸易电子化、企业和政府事务电子化、信息处理产业化等的发展,产生了大规模的Web数据源,由于这些Web数据源的动态性、多元性、无序性、模式化等特点,特别是数据库的半结构化,加大了数据处理或数据挖掘的难度,知识发现应运而生,为自动化和智能化地把海量的数据转化为有用的知识提供了手段。文章从半结构化数据的3种分布方式中,探索出半结构化数据的3种模型,进而提出了半结构化数据知识发现的算法及方法。 相似文献
3.
Web抽取技术在数字图书馆中的应用 总被引:2,自引:0,他引:2
从Web页面中挖掘有价值的信息是数字图书馆技术应用的一个重要方式。目前Web页面信息描述大多教是用XML表示的,Web数据抽取技术是Web信息挖掘的关键,文章提出了一种面向HTML或XML描述的web页面的web数据抽取模型并阐述了实现过程。 相似文献
4.
5.
文章针对21世纪数字图书馆中图书馆员应如何进行有效的信息服务,研究了XML技术与面向Web的数据挖掘技术.随着XML作为Web上交换数据的一种标准方式的出现,Web挖掘将会变得非常轻松,成为未来信息检索的主要工具.参考文献6. 相似文献
6.
7.
近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准.XML文档聚类是数据挖掘研究中热点一个,为网络信息资源的搜集、组织及检索利用提供良好的技术支持.本文首先介绍了目前主要的XML文档聚类算法,然后在利用WordNet对XML文档中的标记进行语义消歧的基础上,提出了一种新的基于语义标记树的XML文档相似度计算方法,并通过最近邻算法进行聚类,最后在用于XML检索研究的数据集上进行实验,证实其确实是一种比较有效的XML文档聚类方法. 相似文献
8.
XML数据的存储策略研究 总被引:4,自引:0,他引:4
郭瑞华 《现代图书情报技术》2005,21(6):65-69
如何有效存储大量的XML数据是数据管理必须面对的重要研究课题。本文基于XML数据的半结构化特性,分析了目前XML数据的四种主要存储技术,提出了具有现实意义的存储实施策略。 相似文献
9.
一、XBRL概述
XBRL(eXtensible Business Reporting Language)是可扩展商业报告语言的简称,是XML(可扩展标记语言)用于财务报告信息交换的一种应用,是目前应用于非结构化信息处理尤其是财务信息处理的最新标准和技术。XBRL实质上是一种数据描述语言,通过它可以使各种商业信息在不同软件、 相似文献
10.
信息系统中一种面向粗糙集的数据挖掘方法 总被引:17,自引:2,他引:15
数据挖掘技术是信息系统的一个重要研究内容 ,它可以从大量数据中自动发现对决策有帮助的知识。许多数据挖掘技术仅仅适用于精确集 ,不适用于粗糙集 ,而现实中粗糙集是普遍存在的现象 ,因此开发出一种面向粗糙集的数据挖掘技术在信息系统的研究领域具有重要意义。本文结合粗糙集理论提出了一个信息系统的粗糙集模型 ,在此基础上设计出一个属性约简方法及从粗糙集中发现规则的算法 :Apriori_2。 相似文献