东方金信数据管理实践

2020-09-18 14:15:08

随着大数据行业的不断发展,大数据技术逐渐渗透到各行各业,以Hadoop、 Spark 为代表的大数据技术也慢慢为大家所熟悉,产业界的注意力回归到数据价值本身。 数据成为资产,已经是行业共识。然而现实中,数据资产的管理和应用还处于摸索阶段,数据资产管理面临诸多挑战。一是大部分企业和政府部门的数据基础还很薄弱,存在数据标准混乱,数据质量层次不齐,各条块之间数据孤岛化严重等现象,阻碍了数据的进一步应用。二是数据的应用空间亟待开拓,受限于数据规模和数据源种类的丰富程度,多数企业的数据应用刚刚起步,主要集中在精准营销,舆情感知和风险控制等有限场景,应用深度不够。三是数据的价值很难评估,数据资产的不确定性,导致了无法对数据的成本以及对业务的贡献进行评估,也就无法像运营有形资产一样管理数据资产。

东方金信自己开发的大数据产品可对不同行业的多种数据进行整合,真正实现数据资产的管理与应用,以下是部分产品结构。

数据管理系统

数据管理是指规划、控制和提供数据资产,发挥数据资产的价值。海盒大数据资产管理系统基于分布式文件系统HDFS支持海量的结构化、半结构化和非结构化数据的存储和处理,包括如数据文件、Office文档、PDF文档、图片、音频、视频;提供完整的关系数据库能力支持结构化数据的存储和处理,支持传统关系型数据库及列式数据库,支持数据仓库的建设和运行,海盒大数据平台的结构化数据库具有分布式存储特点,并使用高性能的分布式计算引擎,具备高效并行计算能力;支持集群、节点管理,可对数据资源、运行状态、内存、资源变化等进行实时监控,可提供数据资源调阅功能,提供数据标准的统一管理。

海盒大数据基础平台是海盒大数据资产管理系统的核心与基础,集成了大数据平台的多个底层组件,为用户提供了分布式存储(HDFS)、分布式计算(Mapreduce2、TEZ、Yarn)、协调服务管理(Zookeeper)、数据仓库SQL服务(Hive、Spark)、NoSQL数据库服务(Hbase)、流处理(Storm、Kafka、Flume)、联邦查询(Presto)、分布式内存(SMDS)、索引搜索(ES)等功能和服务。

此外,海盒大数据平台支持用户权限及认证管理,支持数据资源的调阅功能,支持对数据标准的统一管理和存储等。

数据资源体系系统

数据资源体系主要包含数据处理层,主要功能包含:

1.以数据资产数据为基础,建立模型,实现主数据管理,建立主数据的识别标准和创建、下发、变更、销毁的管理制度和流程。

2.提供统一的主数据访问格式,实现业务系统间的信息共享。

3.系统提供主数据存储和对外服务,包括增删改查的申请和审查、主数据的查询、主数据的同步等。

4.实现元数据管理,包括各种数据的来源分析、“血缘分析”、编码规则的存储和访问。

海盒大数据资产管理系统可提供多种数据源接入,包括但不仅限于关系型数据库,如Oracle,DB2,SQLSerever,Sybase等;可扩展支持文件类型数据源,如CSV,Excel,XML等;支持图形化拖拽方式配置,元数据迁移,元数据查询,调试,元数据管理,多用户资源管理;支持处理标准SQL函数、重命名、用户自定义函数、数据类型转换、数据合并等功能。

数据加工整理系统

数据在规范化处理基础上,需根据业务应用和决策分析的实际要求,进行必要的空间化加工,形成空间专题数据,满足空间化的展示分析需要。海盒大数据平台支持数据采集与交换,支持内外部的结构化数据、非结构化数据的自动化采集,通过相关的数据采集工具和组件,将数据源数据高效导入大数据基础平台中。

海盒数据采集传输系统是大数据环境下的企业级数据采集传输系统,功能强大、易于使用、支持拖拽、高度可扩展,通过可配置属性进行数据处理的任务调度,包括支持从多种数据源动态拉取数据、进行数据路由、清洗转化、加载到数据仓库等。该系统提供WEB操作界面,具有良好的易用性:

l图形化界面支持作业和任务的操作。

l图形化界面支持作业和任务运行状态的实时监控。

l可通过图形化的WEB操作界面,用户可以直接以拖拽方式,创建作业流,调用多种语言的运行脚本。

l可集成LDAP和Kerberos的安全管理方式。

海盒SDF是一个统一的数据采集传输系统,能够实现多种数据源(如异构关系型数据库、手机APP、物联网、车联网、地理定位信息、社交网络等)的快速采集、多种传输协议支持、安全的数据传输、清晰的数据追踪,实现多种数据源数据向核心大数据存储的汇聚,实现历史数据与实时数据的集中管理。

数据资产管理在大数据应用体系中,处于承上启下的重要地位。

对上支持以价值挖掘为导向的数据应用开发,对下依托大数据平台实

现数据全生命周期的管理。数据资产管理贯穿数据采集、应用和价值实现等整个生命周期全过程。企业管理数据资产就是管理数据的生命周期。数据先被创建或获得,然后存储、维护和使用,最终被销毁。数据的生命周期开始于数据获取之前,企业先期制定数据规划、定义数据规范,以期获得实现数据采集、交付、存储和控制所需的技术能力。 一般来说包括统筹规划、 管理实施、稽核检查和资产运营四个主要阶段。

海盒大数据资产管理系统,在功能完备性、系统覆盖率、系统集成度、数据规范性、流程固化度、实用化程度、系统稳定性、系统安全性等方面都有不错的表现,对不同行业的多种数据都可进行管理,并能提供个性化解决方案。

为了促进数据资产管理的研究,东方金信参与数据中心联盟大数据发展促进委员会组织编写了《数据资产管理实践白皮书(1.0 版)》。本白皮书分为四大部分,第一部分介绍了数据资产管理的内涵及大数据背景下的新特征,第二部分从实践的角度出发阐述了数据资产管理的主要内容。第三部分重点介绍了数据资产管理的实施步骤、工具平台和成功要素。最后结合实践经验,介绍了电信、金融、政务、医疗和工业等相关领。本白皮书可以为政府和企业开展数据资产管理工作提供参考,也可以作为相关产品和服务提供商的参考依据,附下载链接,以供下载:

下载链接:http://www.dca.org.cn/content/101027.html