Skip to content

数据中台

字数: 0 字 时长: 0 分钟

数据湖

我的理解是存储所有的原始数据,可能是结构化的、半结构化的,也可能是非结构化的。

数据仓库

数据仓库将企业异构数据通过 ETL 加工整合,建立主题导向时变非易失的数据集合,用于支持历史数据分析与决策。 比如:整合所有航班动态(起降、天气、乘客)、历史准点率等数据,供指挥中心制定运营策略。

也就是说数据仓库主要是将历史数据整合用于决策分析,可以分为以下组成:

1. ODS (Operational Data Store,操作数据存储层)

从各种业务系统(如 Kafka、sftp 文件系统)采集原始数据,比如高频实时报文、离线报文、定制事件报文、主数据。(分别以 edb 、ES 等作为数据库)

2. DWD (Data Warehouse Detail,数据仓库明细层)

基于 ODS 层的数据进行进一步细化的清洗和转换(比如进一步解析 PNR 、ET、NF 三种报文取其有效信息)

3. DWS (Data Warehouse Summary,数据仓库汇总层)

DWS 在 DWD 层的基础数据基础上进行汇总计算(比如 PSIX 模块将 PNR、ET、NF 三种报文取其有效信息生成宽表

4. ADS (Application Data Service,应用数据服务层)

面向业务场景提供数据出口,比如 API 查询接口、BI 报表支持

5. DIM (Dimension,维度层)

维度层不是线性的,而是可能贯穿上面 4 层,而且不需要强实时性(比如以小时或天为单位使用 Azkaban 定时任务调度平台进行维度表数据生成)

数据中台

数据中台往往建立在成熟的数据仓库基础上,通过服务化封装进行演进,提供更泛化的能力。数仓往往是为了 BI 系统服务的,而数据中台的数据服务可以是实时性的,用于其他实时系统使用。