随着企业数字化转型的持续深入,数据分析呈现四大趋势:第一,数据类型多元化,由以结构化为主转变为结构化、半结构化、非结构化、实时数据共存;第二,分析场景多样化,由以统计分析为主转变为统计分析、标签分析、全文检索、 预测分析、推理分析共存;第三,分析时效实时化,由以离线分析为主转变为实时分析、交互分析、自助分析和智能分析;第四,数据管控统一化,由以弱管控转变为强管控,统一标准、统一存储、统一治理、统一视图。
数据平台的演进经历了如下几个阶段:
八十年代诞生的数据库,解决了企业数据高效的事务性处理;
九十年代诞生的数据仓库,核心思路是把数据库中的数据进行一定格式转换后,定时地复制至另一个库里做列式存储,从而满足企业查询和数据分析的诉求;
2000 年后,随着互联网的发展,数据量暴增,非结构化数据越来越多,企业业务变化越来越快,传统数据仓库无法适应大数据以及现代化企业对于实时、交互式分析等方面的诉求。数据湖因此诞生,它选择了“前松后紧”的设计思路,初始化阶段放弃严格的模式,后置 schema,从而获取更强的灵活性,同时通过统一存储管理和计算优化来保证数据的一致性和性能;
近年来出现的湖仓一体架构,解决了数据湖与数据仓库体系的割裂,在架构上把数据湖的灵活性、数据丰富性与数据仓库的企业级战略/战术分析支持能力进行融合,逐步演进成为集多源异构数据统一储存、多模型计算分析及统一数据治理的大数据综合解决方案;
解决客户的多元化数据类型,多样化分析,实时数据分析和统一数据管控,建设湖仓一体平台是现阶段最优解。
“湖+仓” vs “湖仓一体”
“湖仓一体”时代,数据湖和数据仓库通过ETL打通,架构上仍各自独立。数据湖从各类数据源接入原始数据,永久不删,数据从数据湖迁移至数据仓库,支持分析场景。虽然这种方式可快速利用已有的数据湖和数据仓库资产,但是湖和仓仍然各自独立,架构复杂,数据存多份且实效性慢,资源成本和运维成本依旧很高。
“湖仓一体”时代,通过统一资源管控,统一分布式存储管理来支持多种存储模型,统一分布式计算引擎,统一数据接口,实现湖仓一体架构,在技术上,具备存算解耦、弹性扩展、多租户、多计算引擎、分级资源管理等能力;在功能上,兼具数仓的标准SQL、ACID,数据湖的大规模异构数据存储等能力;对下,提供统多种数据接入形式,支持多云、混合云及跨云部署;对上,提供多种数据操作方式和接口,支持多种操作语言。
星环“湖仓一体”的解决之道
星环科技(星环信息科技)的湖仓一体解决方案,从下到上包含如下层次:1)信创自主可控硬件生态,支持多种国产CPU,服务器和操作系统;2)云原生底座,实现了基础设施资源的统一管理;3)统一的分布式存储管理,支持库表存储、文本存储、对象存储,键值存储、时序存储、事件存储、时空存储、图存储、全文引擎等多种模型存储统一管理;4)统一分布式计算引擎,支持分析型处理、操作型处理及实时处理等多种计算类型;5)统一数据操作/数据接口,支持交互式报表分析、即席查询、实时分析、图像文本分析、预测性分析及多场景的数据探测分析,极大方便生态应用;6)统一数据管理,实现了多模型数据和元数据的统一管理;7)统一多租户管理,在资源层,应用层和数据层实现了多租户隔离。
星环“湖仓一体”的逻辑架构:星环的湖仓一体 的逻辑架构,实现了 N 数据源到 1 数据湖,到 N 数仓和数集,到 1 数据接口,再到到 N 数据服务的总体逻辑架构。
星环“湖仓一体”的技术架构:星环湖仓一体的技术架构,核心是星环科技多模数据统一架构,它的核心价值是:1)将多个操作访问入口变为一个入口;2)将多种数据库语言变为一种语言;3)将多套计算引擎变为一套引擎;4)将多份计算资源变为一份资源;5)将分散存储管理变为统一存储管理;6)将多份数据资产变为一份数据资产。