在数字经济大踏步前进和全球数据量大规模爆发下,数据成为新关键生产要素。
然而,大量数据资源并没有得到充分有效的利用。
根据中国信通院的《大数据白皮书(2020)》,企业运营中的数据只有56%能够被及时捕获,而这其中仅有57%的数据得到了利用、43%的采集数据没有被激活,也就是说仅有32%的企业数据价值能够被激活。如何有效利用数据、充分释放数据价值已经成为企业数字化转型过程中的难题。
时速云依托在云原生领域的多年实践积累,打造了集数据开发平台、数据建设、数据资产、数据服务、算法开发平台、数据可视化等功能于一体的“云原生数据平台KubeData”。其向下采集与接入全业务、多终端、多形态的数据,经过数据建设与开发,通过数据规范化的方式实现指标口径的统一,并分类存储以实现数据资产化管理。向上提供各类数据服务,面向业务构建全生命周期的数据服务接口,针对不同业务场景提供可视化的数据分析与展示。
图:KubeData功能架构
作为一站式可视化数据建设和数据开发平台,KubeData帮助企业实现业务数据化、数据资产化、资产价值化的数据全生命周期的打通,全面解放数据的生产力,并最终导向业务,帮助企业完成数字化转型。
业务数据化
构建企业级的数据平台,首先要让企业各个业务系统的数据实现互联互通,为后续数据资产的价值挖掘提供全面、统一的原始材料,而这主要通过数据接入集成的能力实现。
在数据接入层面,KubeData采用了全容器部署和微服务架构来构建数据平台所需的基础设施底座,并集成了Hadoop大数据生态圈基本组件。此外,平台与上层应用平台形成松耦合关联,可将新旧业务系统、外部系统、第三方采集平台等多种数据源统一接入数据处理模块,从物理上打破了数据孤岛。
资源管理器、各类计算和存储引擎服务的对接基于Web图形化界面即可完成,无需额外的安装与部署工作,极大地提高了数据平台的易用性。
此外,KubeData还提供组件的运维管理,包括:存储配置、镜像和服务访问地址、配置文件的动态修改、事件记录等,方便运维人员发现问题以及快速升级组件能力以适配上层平台,保障稳定性。
图:资源组接入
图:数据引擎接入
数据资产化
数据资产化的过程是解放数据生产力的核心环节,KubeData通过数据建设-数据开发-数据资产的流水化作业,根据不同业务需求,将数据转换成各种新的形态,从而易于企业日常经营活动中进行搜索、过滤和管理,充分激活数据的商业价值。
在数据开发及ETL作业阶段,KubeData满足实时与离线开发的多场景需求,可轻松通过可视化拖拽的方式完成作业流程的编排,并通过丰富的内置组件、模板来加速构建数据分析处理流程,极大地降低了用户使用大数据平台的门槛。研发人员也无需关注底层技术栈,使用SQL即可完成开发链路编译。作业开发支持多种粒度的周期性调度配置,并对于流程运行中可能出现异常的节点,可通过监控及看板模块来快速发现和定位。
图:数据开发平台 – 离线开发
图:ETL作业
算法开发平台作为一站式的AI开发平台,从数据喂料的准备到算法模型训练及数据推演,完成所有任务。
平台集成了常见运行框架及算法,包括:Tensorflow、PyTorch、MXNet 等主流学习框架。用户可通过可视化拖拽组件,完成模型的训练及部署应用流程。
图:算法开发
数据建设作为KubeData业务搭建的核心,通过规范化的主题划分及数据建模,帮助用户自上而下的构建企业数据分层体系,沉淀出公共主题、维度以及业务主线,提高数据使用的效率,减少数据的重复建设、孤岛、口径不统一等弊端。
在上层的标签画像体系以及指标体系的建设中,统一来源的数据按照高质量、高易用性标准层层递进,让企业实践数据治理及分析决策更加科学。厘清数据业务分类体系的同时,还可在数据安全及质量的层面,对数据的监管工作做更坚实的铺垫。
图:模型设计
图:标签加工
图:衍生指标
通过数据资产模块,用户可以查看数据资产全局,包括业务与技术资产总量、存储情况,按分类可以搜索到技术数据资产与业务数据资产的结构、血缘、关系脉络,并且可以利用元数据采集工具,进行元数据管理工作,进一步厘清数据所有信息。
图:资产概览
图:数据血缘
图:指标库
资产价值化
数据平台的使命便是为业务赋能。
基于已形成的数据资产,KubeData构建了数据网关、数据可视化等服务能力,使企业利用数据资产的过程更加灵活便捷,辅助企业利用数据进行管理决策,进而推动企业业务创新。
例如在数据服务模块,KubeData为企业提供了API从创建、调试、发布到调用的全生命周期管理工具,可快速将标签或数据表等数据资产生成API,同时也支持将现有API注册到数据服务平台进行统一的管理和发布。数据网关服务采用Serverless架构,用户无需关心基础建设及环境,只需编写API本身的查询逻辑,设置流量控制策略即可,使数据资产的价值化拥有了更多灵活性。
图:API管理
此外,KubeData已可全面支持国产化,基于自有研发的云原生平台,能够满足企业多中心容灾及多活要求,从而保障业务的连续性。当前,KubeData已经具备落地城市地铁等多个行业场景的能力。以数据为基,KubeData正在推动数字化与各行各业的深度融合。
未来,结合云原生能力,时速云将持续推进KubeData的建设迭代,帮助企业激活数据价值,盘活数据资产,弥补数据与业务之间的鸿沟,助力更多企业实现数字化转型升级。