数据仓库概述


Apr 13, 2018

数据仓库从诞生到现在已有十多年的时间,它被广泛应用在证券、银行、保险等金融领域企业。随着数据仓库技术日新月异的发展,数据仓库规模和体系都发生了显著的变化,数据仓库已从最初的后端策略性支持系统,变为整个企业运营的一个关键组件,并对企业未来的核心关键业务起着举足轻重的作用。随着大数据的广泛应用,数据仓库开始往分布式、大规模和高性能的方向发展,在构建高效、统一的核心业务数据平台和面向分析处理,构建完整、一致、反映时间变化的数据仓库平台有着举足轻重的作用。


数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用:


从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。

数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。

了解完数据仓库后,一般还需知道数据仓库有哪些特点:

1.主题性

数据仓库是一般从用户实际需求出发,将不同平台的数据源按设定主题进行划分整合,与传统的面向事务的操作型数据库不同,具有较高的抽象性。面向主题的数据组织方式,就是在较高层次对分析对象数据的一个完整、统一并一致的描述,能完整及统一地刻画各个分析对象所涉及的有关企业的各项数据,以及数据之间的联系。



2.集成性

数据集成是数据仓库建设中最重要,也是最为复杂的一步。面向大数据的数据仓库能够汇聚丰富的数据源数据,包括结构化、非结构化的数据源,汇聚了多种部门和应用的复杂数据。这就需要大数据的数据仓库具有能够处理多类型数据的能力,以及对海量数据进行复杂处理的性能。

数据仓库在把各种数据存储之前,需要对数据进行清洗,数据仓库中存储的数据大部分来源于传统的数据库,但并不是将原有数据简单的直接导入,而是需要进行预处理。这是因为事务型数据中的数据一般都是有噪声的、不完整的和数据形式不统一的。这些“脏数据”的直接导入将对在数据仓库基础上进行的数据挖掘造成混乱。“脏数据”在进入数据仓库之前必须经过抽取、清洗、转换才能生成从面向事务转而面向主题的数据集合。海盒大数据平台在采集数据之后,即可对数据进行分布式的数据清洗,对数据进行处理,用户可根据自己的需求构建模型或者规则,通过组件的清洗功能,达到最终目的。

3.稳定性

数据仓库中的数据主要为决策者分析提供数据依据。决策依据的数据是不允许进行修改的。即数据保存到数据仓库后,用户仅能通过分析工具进行查询和分析,而不能修改。数据的更新升级主要都在数据集成环节完成,过期的数据将在数据仓库中直接筛除。

海盒平台中的数据仓库通过高可用配置,系统可自行进行监听和逻辑判断,提高数据仓库无故障时间。

此外,海盒大数据平台支持动态扩容,在不影响用户的使用前提下,完成容量的扩张和节点的增加,确保在数据极速增长时数据仓库的稳定性。

4.动态性

数据仓库数据会随时间变化而定期更新,不可更新是针对应用而言,即用户分析处理时不更新数据。每隔一段固定的时间间隔后,抽取运行数据库系统中产生的数据,转换后集成到数据仓库中。随着时间的变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求。当数据超过数据仓库的存储期限,或对分析无用时,从数据仓库中删除这些数据。关于数据仓库的结构和维护信息保存在数据仓库的元数据(Metadata)中,数据仓库维护工作由系统根据其中的定义自动进行或由系统管理员定期维护。

 

东方金信自主研发的海盒大数据平台,包含多种海盒大数据解决方案,其中包括数据仓库解决方案,该方案基于大数据平台构建企业级数据仓库,为上层数据应用提供支撑。海盒大数据平台提供了海盒数据库实时同步工具SDG/SMG、海盒分布式ETL系统SDF等组件,能够为数据仓库实现丰富的数据采集功能,进行实时或批量的数据采集。海盒大数据元数据管理系统 SMS,海盒数据资产管理系统 SAMS,海盒大数据安全管理系统 SSM,可以为数据仓库提供界面化的操作和安全管理,利用权限管理多租户管理等技术,为数据仓库提供更安全的保障。海盒大数据使用系统 SDO,海盒多维数据集开发系统 SCS,可对数据进行界面化操作,用户可以更方便的界面对数据进行任务流、任务调度等操作。海盒展示开发系统 SDV,为用户提供灵活查询与数据可视化展示的WEB界面。这些组件基本上涵盖了数据获取层、数据管控层、数据开发层和数据分析展现层的大部分组件,可以完成整套大数据业务处理流程。

海盒数据仓库系统是一个基于大数据平台的一个数据仓库分析工具,可以将结构化数据文件映射成为一张数据库表,并支持SQL语句的快速查询功能。在本质上,数据仓库系统将相应的查询语句自动转换为MapReduce程序,从而满足快速查询需求。

数据仓库系统的使用依赖于大数据平台的其他组件:依赖于HDFS文件系统进行数据存储;依赖于MapReduce引擎完成查询操作。该紫铜支持多温度数据管理,将数据分为:热数据,温数据,冷数据,分别存储在内存(Memory)+固态硬盘(SSD)+传统硬盘(HDD)多层混搭的数据存储策略;支持多租户管理,通过多租户技术以大数据平台的集中部署与集中管理为基础,实现CPU、内存等计算资源的分隔管理、统一分配,实现对数据存储资源的的分隔管理、统一分配,实现对数据权限的统一分配管理;支持用户使用类SQL语言进行查询;支持更大的数据量,并具有更快的运行速度;支持对传统数据库及其他数据分析工具的兼容等。

数据仓库的出现和发展是计算机应用到一定阶段的必然产物。经过多年的计算机应用和市场积累,许多商业企业已保存了大量原始数据和各种业务数据,这些数据真实地反映了商业企业主体和各种业务环境的经济动态。随着大数据的发展,数据仓库必将扮演更加重要的角色。