首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
通过讨论数据提取、转换、加载(ETL)技术在银联信息系统项目中的应用,说明了ETL技术的特点、本质及其重要性。阐述了ETL的设计策略及实现方法,给出了实现完整的银联数据仓库系统的ETL方案。该方案对企业实现数据集中、规划和建设数据仓库系统,具有一定的借鉴意义。  相似文献   

2.
毕锟  刘军 《教育技术导刊》2010,9(5):173-175
ETL(Extraction,Transformation,Load)即数据抽取、转换和加载,是构建数据仓库和数据集市的重要组成部分。ETL过程关系到数据仓库的质量,是基于数据仓库所有商业智能应用的基石。阐述了ETL设计中的各个基本步骤,并讨论分析了ETL工具的实现关键技术,对ETL设计人员提供强有力的支持。  相似文献   

3.
支持数据抽取、转换、清晰、装载的工具集ETL对任何数据仓库工程都是一个必不可少的关键部件。结合应用重点探讨了ETL技术中的数据转换技术及数据质量问题。  相似文献   

4.
提出了一种基于数据质量进行控制的ETL技术,在传统的ETL操作流程中增加脏数据处理模块及抽样数据质量评估模块,并将数据质量控制思想融入到ETL的操作流程设计中,控制ETL过程的数据质量。实验表明,带有质量控制的ETL算法设计优化了ETL工作流程,提高了进入数据挖掘中数据的质量。  相似文献   

5.
具有良好质量的数据仓库是数据挖掘的先决条件,一个支持数据抽取,清洗,转换和装载的工具是实现数据仓库必不可少的因素。本文介绍了ETL的技术及相关概念,在数据仓库建设中的重要作用,提出一种流程化,组件化的ETL工具设计思路,对应各个功能在流程中设计和实现方法。  相似文献   

6.
杨胜利 《考试周刊》2012,(13):116-116
对于CRM系统而言,最重要的是全面丰富准确的客户数据,在数据中心建设过程中ETL技术和数据库技术是关键的两个方面。作者以自己参加的期货CRM项目为依托,阐述了期货CRM数据中心建设及ETL系统设计,对ETL技术的研究,ETL系统的设计和实现是本文研究的重点。  相似文献   

7.
作为BI/DW的核心和灵魂,ETL是按照统一的规则集成来提高数据价值,负责完成数据从数据源向目标数据仓库转化的过程,ETL是实施数据仓库的重要步骤。本文首先对肌技术作了系统的介绍,在此基础上主要研究了ETL技术在银行零售贷款风险管理与个人信用评估系统中的应用,最后简要介绍了系统的实现。  相似文献   

8.
数据的抽取、转换与加载(ETL)是数据整合的核心过程。在分析高校信息化建设现状基础上,以建立数字化校园、整合数据资源、实现数据共享为目标,提出以ETL为基础建立共享数据中心实现数据整合的方案。介绍了共享数据中心的结构,并研究了从业务系统到共享数据中心的ETL过程设计方法。  相似文献   

9.
具有良好质量的数据仓库是数据挖掘的先决条件,一个支持数据抽取,清洗,转换和装载的工具是实现数据仓库必不可少的因素。本文介绍了ETL的技术及相关概念,在数据仓库建设中的重要作用,提出一种流程化,组件化的ETL工具设计思路,时应各个功能在流程中设计和实现方法。  相似文献   

10.
在企事业单位内部,由于部门间相对独立,构建系统时缺乏统一的规划和标准。所以造成了现有的应用系统是分散、异构、封闭的系统,相互之间不能共享信息,形成了一个个“信息孤岛”.本文首先对数据集成涉及的相关技术进行了研究.分析了目前流行的数据集成方法.按照不同的实现技术,将数据集成方法分为三类,即数据转换方法、数据聚合方法以及析取、转换和装载(Exact、Transform and Load,ETL)方法.然后,借鉴数据转换方法以及ETL方法的数据集成实现思想,结合目前中小企业数据集成的需求,提出基于Java和XML技术实现异构数据交换集成的通用解决方案.  相似文献   

11.
在FDM算法的基础上,提出了一种改进的并行关联规则挖掘算法FDM_DT,此算法利用DHP算法中的Hash表技术改进了2阶侯选项集的生成过程,并采用Apriori Tid算法中的Tid表技术对事务数据库中的事务数进行有效消减。因此,此算法在处理大规模数据时有较高的综合效率。  相似文献   

12.
通过将场景元素详细分类,以及应用各种数据结构,实现大量数据的有序管理。场景节点通过坐标变换组织成为一个树结构。模型,材质和贴图等实际渲染数据通过链表,哈希表结构来管理,最后给出这些场景元素如何传递到绘制流水线中。  相似文献   

13.
基于嵌入式设备FPGA,对无损压缩算法Deflate算法进行加速。采用哈希表方法,把Deflate核心算法用在FPGA上,实现了软硬件协同设计。独创性地设计并实现了窗口大小为32K的Deflate算法。主要介绍该设计的哈希表模块部分。  相似文献   

14.
关联规则是数据挖掘中一个非常重要的任务,有许多针对于关联规则的挖掘算法,然而需要提高算法的有效性来处理现实世界中的数据集。基于聚类的关联规则挖掘算法法通过扫描数据库创建聚类表,将收集的事务记录放入聚类表中,通过局部聚类表的约束来产生频繁项集,不仅可以剪枝候选项集,降低数据扫描的时间,而且确保挖掘结果集的正确性。实验结果表明,基于聚类的关联规则挖掘算法比Apfiori算法有更高的执行效率。  相似文献   

15.
Collaborative Filtering (CF) technique has proved to be one of the most successful techniques in recommendation systems in recent years. However, traditional centralized CF system has suffered from its limited scalability as calculation complexity increases rapidly both in time and space when the record in the user database increases. Peer-to-peer (P2P) network has attracted much attention because of its advantage of scalability as an alternative architecture for CF systems. In this paper, authors propose a decentralized CF algorithm, called PipeCF, based on distributed hash table (DHT) method which is the most popular P2P routing algorithm because of its efficiency, scalability, and robustness. Authors also propose two novel approaches: significance refinement (SR) and unanimous amplification (UA), to improve the scalability and prediction accuracy of DHT-based CF algorithm. The experimental data show that our DHT-based CF system has better prediction accuracy, efficiency and scalability than traditiona  相似文献   

16.
在学校各系统运行管理过程中,产生了大量宝贵的数据资源,这些数据对学校重要决策制定及传统教育模式改革有着极其重要的作用。因此,如何将不同维度的数据采集到统一的数据中心便成为大数据研究的重点之一。在数据采集过程中,很多学校没有保存重要的历史数据以及已删除记录的状态标记,将对数据分析中诸如时间切片分析、历史状态分析等产生致命影响。以学校人事系统为例,提出一种基于Kettle的无损增量数据同步方法。该方法利用全量数据比对方式,找出新增、修改和删除的数据,并对其进行详细记录,从而实现了对历史数据的完整保留,弥补了如时间切片分析等数据分析策略中数据不足的缺陷。  相似文献   

17.
数据库在计算机发展的今天已经越来越广泛地被使用,而数据库中数据的多种形式变换更是经常的,其中行列数据的变换是较难的,通过对该问题进行深入分析,联想到关系表中数据的逻辑形式,利用Excel的数据透视表和VFP中的交叉表来实现行列数据交换较为合适,进而利用SQL查询语句分析了行列数据交换的实质。  相似文献   

18.
结构化P2P网络研究   总被引:1,自引:0,他引:1  
结构化P2P系统采用支持分布式哈希表(DHT)的路由算法,根据精确关键字进行对象的定位与发现。本文介绍了两种结构化P2P系统:CAN和Chord系统。重点分析了这两种结构化P2P系统的构建和路由算法以及对等节点加入和离开P2P系统的过程,并详细讨论了CAN和Chord的改进方案,最后指出了结构化P2P系统所面临的问题与不足。  相似文献   

19.
在 FPGA 上设计部署模糊自适应 PID 算法,并针对典型的自动控制对象——直线倒立摆完成稳摆控制,以验证该算法的硬件可实现性。在直线倒立摆模型基础上,运用模糊控制理论对 PID 参数进行自适应整定,再根据模糊 PID 处理过程,结合离散 PID 算法,采用半查表加半计算方式,在 Quartus II 及 Modelsim 平台上完成 Verilog HDL 的硬件编程设计与仿真。通过 Simulink 仿真比较可知,模糊自适应 PID 相对于经典 PID 控制的响应性能指标更优,最后基于 EP4CE6E22C8N 芯片,以较少的资源开销实现了控制器设计。基于 FPGA的模糊自适应 PID 控制器能够充分利用该器件特性,凸显模糊自适应 PID 算法优势,实现对倒立摆的实时控制。  相似文献   

20.
海量存储系统中高扩展性元数据分布算法的研究   总被引:2,自引:2,他引:0  
Distribution of metadata in a metadata server cluster is important in mass storage system. A good distribution algorithm has a significant influence on the system performance, availability and scalability. Subtree partition and hash are two traditional metadata distribution algorithms used in distributed file systems. They both have a defect in system scalability. This paper proposes a new directory hash (DH) algorithm. By treating directory as the key value of hash function, implementing concentrated storage of metadata, pipelining operations and prefetching technology, DH algorithm can enhance the system scalability on the premise without sacrificing system performance.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号