数据中台
字数: 0 字 时长: 0 分钟
数据湖
我的理解是存储所有的原始数据,可能是结构化的、半结构化的,也可能是非结构化的。
数据仓库
数据仓库将企业异构数据通过 ETL 加工整合,建立主题导向、时变、非易失的数据集合,用于支持历史数据分析与决策。 比如:整合所有航班动态(起降、天气、乘客)、历史准点率等数据,供指挥中心制定运营策略。
也就是说数据仓库主要是将历史数据整合用于决策分析,可以分为以下组成:
1. ODS (Operational Data Store,操作数据存储层)
从各种业务系统(如 Kafka、sftp 文件系统)采集原始数据,比如高频实时报文、离线报文、定制事件报文、主数据。(分别以 edb 、ES 等作为数据库)
2. DWD (Data Warehouse Detail,数据仓库明细层)
基于 ODS 层的数据进行进一步细化的清洗和转换(比如进一步解析 PNR 、ET、NF 三种报文取其有效信息)
3. DWS (Data Warehouse Summary,数据仓库汇总层)
DWS 在 DWD 层的基础数据基础上进行汇总计算(比如 PSIX 模块将 PNR、ET、NF 三种报文取其有效信息生成宽表)
4. ADS (Application Data Service,应用数据服务层)
面向业务场景提供数据出口,比如 API 查询接口、BI 报表支持
5. DIM (Dimension,维度层)
维度层不是线性的,而是可能贯穿上面 4 层,而且不需要强实时性(比如以小时或天为单位使用 Azkaban 定时任务调度平台进行维度表数据生成)
数据中台
数据中台往往建立在成熟的数据仓库基础上,通过服务化封装进行演进,提供更泛化的能力。数仓往往是为了 BI 系统服务的,而数据中台的数据服务可以是实时性的,用于其他实时系统使用。
