海盒数据交换集成产品解决方案


Jun 27, 2019

随着大数据不断发展,许多企业、政务部门银行证券等行业都会面临数据量指数级增长的情况,伴随数据量的增长随之而来的问题就是数据交换的问题这些企业目前的数据交换系统大部分面临着技术老旧、数据不能实时、时效性稳定性差可控能力低等问题。

为解决应用系统间数据和信息的互通、互用,建立一个通用的、分布式的数据集成平台,用以解决异构数据平台数据交流和沟通的问题,东方金信开发的自己的数据交换平台为跨地域、跨部门、跨平台不同应用系统不同数据库之间的互联互通提供包含提取、转换、传输和加载等操作的数据整合服务,实现扩展性良好的“松耦合”结构的应用和数据集成,通过分布式部署和集中式管理架构,可以有效解决各节点之间数据的及时、高效地上传下达,在安全、方便、快捷、顺畅的进行信息交换的同时,精准的保证数据的一致性和准确性,实现数据的一次采集、多系统共享,为各种应用和决策支持提供良好的数据环境,逐渐形成了数据交换成熟的解决方案为多家企业和政务系统解决了大数据背景下的数据交换。

海盒数据交换平台从功能模块需求上主要包含数据采集,数据处理,数据分发,作业管理,平台监控、配置管理等模块。实现目标主要为以下几点:


搭建统一数据交换平台整体框架

搭建混搭环境下的统一数据交换平台,包含数据采集,数据处理,数据分发,作业管理,平台监控、配置管理等功能模块,实现结构化、非结构化的数据交换能力。其中数据采集功能主要实现oraclemysql、大数据平台、数据文件区等多种数据库多种数据结构等数据采集功能,具备可插拔的模板型数据接入方式;数据处理主要实现数据文件的元数据核查,规则的数据转换、清洗等数据处理功能;数据分发主要实现对多种应用系统、大数据平台的数据分发功能;作业管理主要是指对各种任务级调度作业进行管理,管理内容包括事件管理、资源管理,调度引擎,作业配置等;监控平台功能主要包括作业监控、运维检查、异常处理、监控配置等多个方面;配置管理为了便于使用,统一交换平台交换配置管理主要包括采集参数,处理参数,分发参数,监控参数,调度参数等参数管理,以及权限管理、版本管理及目录服务管理等。

实现数据交换的统一管理

实现数据交换的统一管理:一是具备对数据进行统一管理的能力,能够实现对数据仓库、大数据平台以及各业务系统的数据,按照统一的传输交换策略进行高效传输和集中管理,需要高可靠的基于策略的跨域异构数据传输交换技术,实现高速、可信、易于扩展和管理的数据交换和传输。二是全平台统一的数据交换标准,支持标准的数据交换文件格式以及文件存放目录,在数据交换过程中,系统能够主动到该目录下找寻待处理或待分发的文件,保证数据交换过程中用户操作的简单方便。三是统一管理全平台的数据交换渠道,采用通用的接口设计,方便对接ETL工具,保证各业务系统与平台对接的方便快捷,从而减少各系统变更所产生的接口改造工作量。四是统一的数据交换管理界面及电子化流程。

支持系统间准实时数据交互数据交换

根据准实时数据交换需求,实现准实时数据获取、加载与对外交换,支持系统间准实时批量数据交换,提高数据分析与使用的时效性。

支持贴源数据层(ODS)与对外围应用系统的数据交换

优化贴源数据层(ODS)对外数据支持方案,拆分出数据交换与数据存储的区别,合理制定统一数据交换平台支持方案并进行落地实施。

支持数据仓库与外围应用系统的数据交换需求

支持监管集市、风险集市、财务集市、审计集市与数据接口对各类应用系统的统一数据支持,依托标准的数据文件格式及交换策略,实现对各类应用系统的日常数据交换需求。

支持大数据基础平台及其应用的数据交换需求

根据大数据平台运行需求,支持大数据平台的日常数据获取能力,包括但不限于对数据主动探索应用、风险与客户外部数据移动应用、用户关联关系分析、等各类应用的数据支持。

七、全内存数据交换技术

海盒数据交换平台全部采用Spark 做基于内存的入仓计算,比起传统的hive SQL MR任务不仅速度快而且操作,项目使用海盒大数据分布式ETL系统SKL的话写SQL的时间将大大缩短,此外SKL处理分布式内存数据的能力也超过普通内存数据库。

代码编程实现数据入库

海盒数据交换平台的意义不止在于零代码编程实现数据入仓,而是在于它让技术人员和业务人员都能够操作大数据,填平了大数据技术与大数据使用之间的鸿沟。 业务人员可以更快的获得数据洞察,IT 人员则可以专注在工程及数据架构问题,而不是编写代码。


东方金信为解决数据交换的问题,为用户提供了一套整体的解决方案--海盒数据交换集成产品解决方案,该方案主要分为三个应用场景:

1.实时同步SMG为海盒实时数据同步系统(可视化的WEB界面,支持异构数据库全量、增量、实时、批量同步)。

海盒实时数据同步系统(SMG)提供一个可视化的WEB界面,为用户提供可配置的数据交换服务。支持异构数据库的数据同步,支持全量、增量、实时的数据交换任务。

海盒实时数据同步系统SMG基于web界面开发,主要实现数据库与数据库之间的数据同步,用户可根据不同业务需求在SMG页面进行配置,实现数据的传输:


海盒实时数据同步系统SMG可实现不同数据源目标端的实时数据迁移,比如mysqlHbaseKafkaRedisActiveMQIgnite等数据存储仓库也可以把kafka的数据实时同步到HbaseRedisActiveMQIgnite。此外,也可在界面对SMG进行节点监控和系统配置等管理工作。

2.实时处理SRT为海盒实时数据处理系统。是一个面向实时大数据项目实施者的流式处理平台,致力于统一并简化大数据开发和管理,尤其针对典型流式实时/准实时数据处理应用场景,屏蔽了底层技术细节,提供了极低的开发门槛。项目实施者只需简单配置及编写SQL即可支持大部分业务场景,使得大数据业务系统开发和管理变得更加轻量、可控可靠。它拥有可视化的WEB界面, 内置Spark, Flink 流处理引擎,规则引擎,内存计算等,支持UDFJavaJar包程序运行提交和监控等。

海盒实时数据处理系统SRT通过技术手段实现基于SQL的流式处理方案,可以把kafka的数据通过实时处理,传到ES结构化数据库redisHbasehive等数据库中大大降低了流式处理的技术门槛;同时通过平台化和可视化等实现了职能的变化,减少了整个需求生命周期的参与角色数量,精炼了整个开发过程,进而缩短了开发周期,也减少了开发和维护成本。

3.批量同步SKL为海盒大数据分布式ETL系统(可视化的WEB界面,支持异构数据库全量增量、实时批量同步;内置 ESsparkspark on hive sparkstreamingnifi;页面实现ETL功能;零代码实现数据接入;自动生成spark SQL)。

海盒数据交换平台采用海盒大数据分布式ETL系统(SKL)和海盒大数据使用系统SDO以及Presto结合的技术可以把不同数据源MySQLOracle和不同数据格式csvTXT等)的数据批量导入到数据仓库中,通过简单SQL操作联合RDMS以及大数据组件实现跨库查询、结果入库,使用spark, ES, nifi 等引擎解决对数据湖获取、治理、感知和技术支持等诸多问题,为用户提供了统一的图形化WEB界面实现以上功能,通过直观、实时交互的可视化界面能够极大地降低用户进行数据融合开发的成本和复杂性,高效地管理数据在系统中的采集、传输和处理。系统以分布式的ETL功能模块为核心,能够充分利用其正在运行的底层主机系统的资源,实现对于CPU和磁盘的资源最大化,高效地完成数据的处理与传输任务。同时,能够因其分布式的架构具备了可伸缩、可扩展的系统特性,能够快速适配数据源和数据量的变化。


海盒大数据分布式ETL系统(SKL 将数据湖的很多功能自动化,包括数据接入、准备、分析发现、Profiling 和管理等等。SKL 提供了符合业务分析人员思路的 GUI 界面以及 IT 运营和数据科学等模块。


    通过 SKL GUI 界面,业务人员可以按照他们关心的方式来操作数据,包括: 创建数 据源、定义数据加载、数据预处理、转换,发布到目标系统。因为不需要部署任何代码,也不需要依赖 IT 部门,业务人员做到了对项目的完全掌控,从而极大的减少了类似项目所需的时间。对于有技术能力的数据科学家、数据管家及 IT 运营人员来说,SKL 提供包括元数据管理、合适的数据加载及类似 Goolgle 的检索能力,可以为业务分析人员赋予不同的权限、提供随时可用的模板,帮助他们使用、监控并提升数据湖的服务 SLASKL的意义不止于此,因为它让技术人员和业务人员都能够操作大数据,填平了大数据技术与大数据使用之间的鸿沟。 业务人员可以更快的获得数据洞察,IT 人员则可以专注在工程及数据架构问题,而不是编写代码。

 

产品应用场景


海盒数据交换集成产品解决方案分为简单实用版和复杂精细版,上图为简单实用版。海盒数据交换集成产品解决方案简单实用版适用于大部分的中小型客户和少部分大型客户,是一个非常实用的数据交换集成产品解决方案。

某金融系统目前有最少50GB的工商管理数据(第三方采购所得),日新增量数据2G,用户希望将这些数据文件入仓并为其后续自行开发的上层应用提供数据出仓服务,目前客户急需将数据文件存储的压力转移到大数据平台中,项目初期需求需要txt格式数据文件入仓到大数据平台Hive数据库,随后出仓到目标Mysql数据库,整个过程基于ETL调度。

为了解决这一项目需求,该金融系统项目依托海盒大数据平台,使用海盒大数据分布式ETL系统SKL导入外部文件到hive里,再使用SDOSCSprestokylin等组件通过简单SQL操作联合RDMS以及大数据组件实现跨库查询,做到不编一行java SQL代码把以上数据量直接导入平台,并提供图形化界面和ETL作业监控。对于数据入仓之后导出到MySQL 其他关系型数据库,也可以通过BI工具直接展示。改项目同事也采用在SDO里内置大数据统一SQL引擎presto做联邦跨库关联查询,可以直接通同时查询hive, MySQL,oraclehbase等的数据,不同数据库的表和字段的关联和导入导出等复杂操作,在一个SQL引擎里就可以实现此外还可以专业级的数据资产管理,模型构

海盒数据交换平台解决了目前许多数据交换平台的采集工具大多是针对特定目标设计,需要大量的实施操作的问题,它具备普适性原则和操作高效原则。完美满足业务环境所需的实时性、易操作性,从而极大的减少了大数据融合开发项目所需的开发与管理成本,提升了大数据项目的工作效率