东方金信石棋玲:SeaBox 海盒大数据技术与产品创新

2016-04-27 15:58:19

互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。在27日大数据技术与产品创新分论坛中东方金信联合创始人石棋玲以《海盒大数据技术与产品创新》为题做了精彩的分享。

以下是石棋玲的演讲实录:

石棋玲:大家好,很高兴在这里为大家介绍我们北京东方金信科技有限公司的海盒大数据技术与产品创新。我本次演讲主要介绍一下大数据的通用技术与我们海盒大数据产品。本次演讲首先会介绍大数据的技术发展近况,其次会介绍我们海盒大数据平台产品创新,然后讲解创新点的应用实践,再就是大数据行业的趋势。

首先我介绍大数据产业发展的近况。我国的大数据产业市场规模越来越大,国家也推出了很多很好的政策,比如说工信部很多的政策对我们大数据技术的研发有很大的推动作用。我们就大数据在金融行业的广泛应用大家可以看到有很多的案例,我本身在美国PNC银行从事风险管理很多年,我们在美国大的银行也有很多的大数据应用。大数据在通信行业也有很多的应用,逐渐渗透到很多的行业,我所知道的像医疗、政府,还有很多其他的行业可以看到大数据的应用。

这是一张大数据产业生态图,这只是一个简单的例子,大数据有很多的组件,我列举了一些例子,像分布式文件系统,今天我们用的最多的就是这个。HBase等等大家都比较熟悉,其他的组件,很多都是我们常用的。我们公司根据客户的需求,深度定制大数据平台不同的组件,去满足客户的需求。

现在在大数据发展的热潮中,很多技术点开始成为大家热切关心的一个方面,像数据存取,现在要求数据存取的速度不断的提升,催生了数据实时处理的一些需求。云计算的发展,现在催生了很多大数据本地部署和云端部署的结合。大数据平台的不断扩展,催生了数据管理安全的必要性。有些像商务方面的发展,我们就有很多像移动商务与大数据平台的结合。其他方面,有一些像预测性的分析、规范文本分析的发展应用。

下面我介绍我们公司海盒大数据平台的一些产品创新。首先我介绍一下我们公司,今年数据中心联盟第一批大数据产品认证通过的企业,这个认证是国内首家考察商用大数据平台能力的测试。多家业界领先的企业都参与了测试,高可用、多租户我们都通过了测试,而且这个测试非常全面,包括功能、运维、安全、兼容性等各个指标,对大数据平台的能力进行了全面的考察,有很多的测试专家全程监控整个测试的现场,由参测的厂家,还有客户专家、学术专家构成的评审委员会,测试非常公正严谨。

我们海盒大数据平台一个主要的技术创新就是一个高效的实时处理技术。我们通过实时处理的技术,能够实现首先是数据的连续性,然后是实时信息的访问,之后是实时数据的展现,能降低IT成本。我们怎么去实现实时的技术?我们有一个专门的海盒实时同步工具,首先是解析日志的文件,实现数据同步的功能。另一方面我们也使用了很多Hadoop的开源组件或者是其他的组件进行封装,能够实现准实时的同步。另外我们平台的一个创新点在于,在我们的大数据平台上我们做了很多数据仓库的理论创新,因为我本身自己就是做金融行业很多年,我们在数据行业积累了很多的经验。所以首先在数据仓库层面形成了四个方面的理论创新,海盒平台实现了仓库式的数据存储,我们构建了数据仓库的多层数据模型,我们有数据层等等各种数据仓库的层次。我们实现了基于大数据的一个主题模型和数据管控,因为金融主题模型和数据管控是传统数据仓库的核心,怎么建立总框架图,通过这些模型的管控,实现数据仓库的核心价值。在展现方面,我们有多种图形的展示方式,能够满足各种业务的需求。我们创新大数据与云的结合,我们SeaBox大数据的平台可以跑到多可用,我们把各种封装跑在Docker里,Docker可以跑在IaaS服务器上,通过多种平台实现大数据的结合。

创新点的应用实践。大家看左边这幅图是传统的数据仓库,可以看到是T+1的数据平台,数据基本上来源于前端的业务系统,通过定制化的时间,通过ETL跑批的方式进入数据仓库,无法做到实时性。右边这幅图是中间我们增加了一个大数据实时的同步产品。我们通过海盒的同步产品,能够实现数据仓库的计算,将一些关注的指标和数据做到实时推送加工。

我们在金融行业基于SeaBox大数据技术数据仓库的应用。大家可以看到,这只是一个事例,我们在原系统,就是我们数据仓库的多种多样的数据源导入,从数据源可以进入我们的数据交换层,数据交换层有一部分数据可以进入数据缓冲层,在数据缓冲层有一部分可以进入数据整合层,然后再进入展现应用层。其他有些途径会进入历史镜像层,这是我们在数据仓库层面对大数据平台做了很多的改造。

海盒大数据平台的一个数据集中管理与虚拟分发的应用。我们针对不同的用户群建立不同的数据池,数据池比如说使得总行的数据实现管理、分发以及用户权限的管理,使得分行的机构使用和数据能够快速启动,在我们的Docker镜像里面能够快速启动每个应用。

这是我们大数据平台资源按需分配机制的一个应用,这是我们Docker的一个应用。这是传统的大数据平台会跑在固定的集群上面,当然有些业务量是一个波动的过程,就是有些时候访问量会特别大,有些时候访问量会比较小,那就是你集群的数量设置是固定的,但是你如何去适应这种波动性的访问情况?比如这就是一个例子,当你的访问量上涨的时候,你的反应时间会变长。这样的话,我们的Docker会自动扩展,甚至可以扩展到其他的服务器群上面,这样你的访问时间就会马上下降。当你的访问时间下降之后,你不需要这么多台服务器的时候,可以自动实现收缩。

大数据行业趋势。大数据系统整个平台分为两块,主要是两个趋势,一块是做存储,一块是做分析应用。其实做存储这一块目前还是一个主要的趋势,随着我们的数据存储量越来越大以及数据仓储越来越完备,数据分析就会显得越来越重要。在数据存储这个层面来说,现在我们主要像银行业务是支持数据支持业务,比如ATM机取款是业务操作,会有一些实时数据或者是其他数据对接到我们大数据存储。像柜面、电话银行都是多种多样的数据源,会做一个很重要的存储平台。

在另外一个层次来说就是大数据分析,因为我们的数据量越来越大的时候,我们就需要做很多很复杂的分析,这个就会影响到决策层。其实决策层需要的不仅仅是数据,更需要的是很多算法的加工。我这里是举了一些银行的案例,就是我们怎么做大数据分析的。

我可以重点谈一下反洗钱这个案例,为什么要说这个案例?反洗钱的算法是非常复杂的,之前在美国银行做反洗钱的时候我们是和美国的货币管理委员会有一些针对各个银行数据搜集进行算法的分析。其实在这种情况下,随着我们反洗钱规则的制定,有很多的犯罪分子会不断的修改自己的犯罪手段适应你的规则,你的规则越来越复杂的情况下,怎么做到从不同的数据源,从海量的数据当中把这些犯罪的行为抓出来。其实我们做了很多的修正,做到最后包括整个外汇交易一旦进来之后,我们能做到最终像中国成语说的天网恢恢,疏而不漏,这就是大数据将来的一个趋势。

我的分享就到这里,谢谢大家!