海盒大数据平台(SDP)主要包括基础平台和多模数据管理两部分,集成了不同的分布式架构组件,为用户提供了分布式存储(HDFS)、对象存储(OSS)、分布式计算(Mapreduce2、TEZ、Yarn)、协调服务管理(Zookeeper)、数据仓库SQL服务(Hive、Spark)、NoSQL数据库服务(HBase)、实时流处理(Flink、Storm、Kafka、Flume、Logstash)、分布式内存(Alluxio、Redis)、索引搜索(ES、Solr)、数据库联邦查询(Presto、Drill)、MPP数据库服务(Impala、Kudu、Clickhouse、GPDB)、图数据库、时序数据库、关系型数据库、数据湖(Iceberg, Hudi、Delta Lake)等功能和服务,并且具有高可靠的安全管理、多租户、调度、元数据、实时日志流即时查询、实时数据分析系统和丰富的图形化交互界面,为企业级客户提供高性能的一站式大数据产品解决方案。
支持产品便捷部署、组件一键升级和图形化运维,并提供了异常告警和可视化健康监测功能,帮助用户简化运维过程。
支持结构化、半结构化、非结构化的异构数据秒级实时接入;主流关系数据库高效导入,支持文本类日志数据离线导入。
支持分布式文件、NoSQL从GB到PB量级的存储解决方案。高可扩展设计,存储系统可动态随数据量增加从G到P级的动态扩容,支持系统不停机动态扩容、负载均衡等。
提供贯穿数据全流程的数据开发平台,集数据集成、存储、处理、分析、探索、挖掘、监控到数据可视化一体化能力,实现闭环的数据业务开发全流程。
集成交互式SQL、实时内存计算、流式计算、全文检索等技术,实现多数据源、多数据场景及多数据模型的联合计算平台,比传统型数据仓库和开源版分布式架构计算效率提升10倍以上。
外部链接标准化快速接入平台,实现系统功能线性扩展,可按实际情况申请使用,完成用户打通,最大程序满足业务应用需求。