《企业级数据架构:核心要素、架构模型、数据管理与平台搭建》[75M]百度网盘|pdf下载|亲测有效
《企业级数据架构:核心要素、架构模型、数据管理与平台搭建》[75M]百度网盘|pdf下载|亲测有效
《企业级数据架构:核心要素、架构模型、数据管理与平台搭建》[75M]百度网盘|pdf下载|亲测有效
《企业级数据架构:核心要素、架构模型、数据管理与平台搭建》[75M]百度网盘|pdf下载|亲测有效
《企业级数据架构:核心要素、架构模型、数据管理与平台搭建》[75M]百度网盘|pdf下载|亲测有效
《企业级数据架构:核心要素、架构模型、数据管理与平台搭建》[75M]百度网盘|pdf下载|亲测有效
《企业级数据架构:核心要素、架构模型、数据管理与平台搭建》[75M]百度网盘|pdf下载|亲测有效

企业级数据架构:核心要素、架构模型、数据管理与平台搭建 pdf下载

isbn:9787111746829
出版社 机械工业出版社
出版年 2024-03-01
页数 325页
ISBN 9787111746829
装帧 精装
评分 8.9(豆瓣)
限时特惠 00:00:00
活动结束后恢复原价
纸质书参考价 ¥23
电子版限时价 ¥5.99 省 18 元

选择版本

不满意全额退款
发货失败双倍赔偿
邮箱即时发送

内容简介

本篇主要提供企业级数据架构:核心要素、架构模型、数据管理与平台搭建电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

产品特色

编辑推荐

适读人群 :本书从高到低主要分为三个层次的读者:高级:数据BD人员/数据架构师/中级:数据模型开发人员/ETL工程师/数据运维工程师/数据测试人员初级:想成为架构师的技术人员/对数据感

(1)作者经验丰富:头部保险资管公司深数据架构师,从事数据相关工作10余年,在数据架构、数据治理、数据资产管理等领域积累了丰富的经验。
(2)理论系统全面:系统梳理和阐述了企业架构的基础知识,以及数据架构的组成要素、架构模型、数据治理和数据资产管理的理论知识。
(3)实战案例丰富:用大量案例辅助理论讲解,同时用离线计算和实时计算两大场景的综合案例进行了详细展示。
(4)资深专家推荐:平安集团首席架构师与平安资管总经理等多位专家联袂推荐。

内容简介

这是一部从企业架构视角系统讲解企业级数据架构的著作,包含数据架构的原理、方法和实践。
本书拟分为四个部分共17个章节来系统性的阐述数据架构相关内容;
第1部分 架构基础主要包含1个章节
1.数据架构与企业架构 其主要从宏观的角度阐述企业架构与数据架构的关系以及重要性使读者明白数据架构并不是孤立存在的且与企业架构息息相关
第2部分 数据架构基础主要包含5个章节从理论以及工具层面阐述数据架构的构成
2.数据架构构成 介绍数据架构的主要组成以及框架
3.数据存储 数据架构落地中常见的存储选型以及实用场景
4.数据调度与消息传输 数据架构中调度服务以及消息传输的通用技术选型以及可能出现的关键问题以及优化手段
5.Lambda架构与Kappa架构 系统性的阐述主流的两种数据架构以及使用场景
6.辅助类组件 数据架构中帮助测试以及运维人员精准的定位问题的相关辅助组件,例如日志收集、系统监控以及APM等
第3部分 数据架构实践 基于大量的业务实践,总结数据架构实践中核心组组成以及关键方法进行拆解
7.企业数据区域以及流向 以不同的维度去拆解企业的数据,帮助读者构建数据架构的落地层面的意识,知道为什么拆以及如何去拆
8.模型架构详解 以主流的两种建模方法论为切入点,讨论并对比优劣并让读者拓展模型设计中的工具箱。
9.模型设计 以维度建模为例,详细的介绍不同数据层级、不同类型数据的建模方法,具体案例来源于大量的模型实践
10.元数据 了解什么是元数据及其重要性以及如何管理数据
11.数据质量 基于数据质量去设计数据质量监控体系,做好事前防范、事后治理
12.数据标准 构建数据标准框架以及流程,挖掘具体数据标准落地在企业中的难度。
第4部分 数据资产管理
13.企业数据资产 企业数据资产的构成以及搭建路径以及工具等
14.数据治理 结合元数据、数据质量以及数据标准等,系统的阐述数据治理类型项目的落地
15.大数据平台实践 如何一步一步搭建基于Hadoop大数据平台
16.实时数据仓库搭建 如何构建企业级别的实施数据仓库
17.本书总结 总结写书的感悟以及后续的一些想法等

作者简介

李杨
资深数据架构师,在数据相关领域有10年以上工作经验。头部保险资管公司科技平台交易系统团队开发组负责人,负责多个应用以及数据平台的建设、优化以及迁移工作。曾担任某数据公司技术合伙人,负责多个金融机构的数据仓库或数据平台相关的工作。
在数据质量管理、数据治理等领域有着非常深厚的积累,熟悉不同行业的数字化转型。此外,他还是一名经验丰富的应用工程师,对大数据、数据库以及主流的技术栈有着非常深入的了解。
2022年被集团评为“优秀架构师”,积极参与行业内部的相关课题研究,是《保险问道
之保险资管数字化探索》一书的执笔人之一,是中资协《金融科技赋能保险资管风险管控的研究》课题核心组成员之一。

目录

目录

自序

前言

第一部分 架构基础

第1章 企业架构概述 3

1.1 企业架构 4

1.2 Zachman框架 4

1.3 TOGAF 6

1.4 业务架构 9

1.5 数据架构 11

1.6 总结 13

第二部分?数据架构基础

第2章 数据架构构成 18

2.1 数据模型 18

2.2 元数据 19

2.3 数据质量 20

2.4 数据标准 21

2.5 数据治理 21

2.6 数据资产 22

2.7 数据生命周期 24

2.8 数据分布 27

2.9 常见数据架构技术选型 28

2.10 数据调度 30

2.11 总结 30

第3章 数据存储 31

3.1 数据存储基础 32

3.2 集中式数据库 38

3.3 分布式数据库 40

3.4 大数据存储 43

3.5 特定领域存储 46

3.6 实时计算阶段 49

3.7 总结 49

第4章 数据调度与消息传输 50

4.1 通用技术选型 50

4.2 Airflow调度平台 52

4.3 DataX数据同步工具 56

4.4 Kafka消息中间件 62

4.5 总结 68

第5章 Lambda架构与Kappa架构 69

5.1 架构演进 69

5.2 Lambda架构详解 75

5.3 Kappa架构详解 82

5.4 Lambda与Kappa对比 87

5.5 流批一体化 89

5.6 总结 90

第6章 辅助类应用体系介绍 91

6.1 资源管理 91

6.2 资源及组件监控 95

6.3 应用监控 102

6.4 日志监控 107

6.5 总结 109

第三部分?数据架构模型实践

第7章 企业数据区与数据流向 113

7.1 数据区概述 113

7.2 数据区详解 115

7.3 企业数据流向 119

7.4 企业数据分层 123

7.5 企业集成型数据区层级 124

7.6 互联网公司的集成型数据区分层

   特点 129

7.7 总结 130

第8章 数据模型架构详解 131

8.1 为什么要建模 132

8.2 建模策略 134

8.3 建模三步走 137

8.4 建模方法论 141

8.5 常见模型概述 147

8.6 数据层级与数据模型的关系 151

8.7 总结 152

第9章 维度建模解析 153

9.1 维度建模概述 153

9.2 维度建模总线结构 156

9.3 维度详解 159

9.4 缓慢变化维度 162

9.5 事实表详解 167

9.6 事务型事实表 170

9.7 总结 172

第四部分?数据资产管理

第10章 元数据管理 178

10.1 元数据概述 178

10.2 元数据的产生 179

10.3 不同类型元数据详解 182

10.4 元数据的价值 187

10.5 元数据的应用 189

10.5.1 血缘分析 189

10.5.2 影响分析 190

10.6 元数据的生命周期 191

10.7 元数据管理体系构建 191

10.8 总结 193

第11章 数据质量管理 194

11.1 数据质量概述 194

11.2 数据质量内涵 195

11.3 数据质量管理框架 196

11.4 数据质量核心维度 200

11.5 数据质量规则体系 203

11.6 数据质量评估 206

11.7 总结 210

第12章 数据标准管理 211

12.1 数据标准概述 211

12.2 数据标准内涵 212

12.3 数据标准体系设计框架 213

12.4 数据标准管理流程 219

12.5 数据标准的挑战 223

12.6 数据标准与数据质量的关系 224

12.7 总结 226

第13章 数据治理 227

13.1 为什么需要数据治理 227

13.2 数据治理内涵 229

13.3 数据治理核心准则 232

13.4 数据治理通用流程 236

13.5 数据治理的挑战 242

13.6 总结 243

第14章 数据资产管理与数据

     资产目录 244

14.1 数据资产内涵 245

14.2 数据资产管理活动职能 253

14.3 数据资产目录实践 254

14.4 总结 260

第五部分?数据架构实践

第15章 离线计算 263

15.1 离线计算架构概述 263

15.2 架构设计 264

15.3 软件部署 265

15.4 模型设计 281

15.5 数据处理 291

15.6 离线计算数据应用 298

15.7 总结 299

第16章 实时计算 300

16.1 实时计算架构概述 300

16.2 架构设计 301

16.3 软件部署 303

16.4 连通性配置 310

16.5 实时计算层 315

16.6 总结 322

第17章 对数字未来的展望 324

17.1 建设数字中国 324

17.2 金融行业的数字化转型 325

17.3 数据架构核心 326

17.4 数据开发趋势 326

17.5 DataOps发展 327

17.6 总结 328

前言/序言

为何写作本书
2017年英国《经济学人》杂志提出一个观点:世界上最具价值的资源不再是石油,而是数据。有关数据的各种概念,如数据要素、数字经济、数字化转型以及数据资产定价等不断提出,对数据理论层面的探索从未停止过。各行各业乃至整个社会都对数据愈发重视,政府也提出建设“数字中国”的概念。上述种种无疑对数据从业者提出了更高的要求。
笔者工作这十几年来始终在一线从事开发工作,接触过很多企业内部的需求。笔者清楚地感受到,企业在不同时期,对于数据平台的定位或者期待发生了很大的变化,同时企业高层对于数据的重视程度也在持续提高。同时,企业内部关于数据平台建设的思路或者对于从业者技能的要求也发生了巨大的变化。
笔者花了很长时间去思考一些问题,例如:数据平台在这些年的发展过程中,有哪些内容是始终不变的,哪些内容变得更加重要;从业者需要掌握哪些技能才能更好地适应新时代的发展。基于这些思考,笔者写了这本书,从数据架构的角度阐述不同时期企业数据平台的建设,期望给从业者提供一些参考。
本书主要特点
这是一本偏落地实践的书。笔者会基于自己在一线工作的经验,在书中详细介绍数据架构涉及的技术栈、技术组件以及数据架构落地中可能遇到的问题,并提供对应的解决方案。
这也是一本包含必要理论的书。数据架构涉及大量的概念,不同的概念在不同的阶段可能会有不同的内涵。所以本书会针对这些概念以及不同概念之间的因果关系、逻辑关系等进行详细的介绍。通过这些介绍,相信读者可以更加深入地了解数据架构。
本书会将书介绍的组件与书中提到的理论相结合,并一步步地带领读者搭建自己的迷你版数据平台,以加深读者对于数据架构的理解。
本书读者对象
本书是一本企业数据架构相关的书,比较全面地介绍了企业数据架构在企业架构中的位置以及数据架构的构成等。从内容来看,本书比较适合以下读者阅读:
 对数据感兴趣的相关行业从业者。
 想了解企业数字化转型内涵的相关人员。
 期望从事数据相关工作的初学者。
 想提升自身能力的数据相关从业者。
 想拓展自己的技术领域的应用开发人员。
 正在或者将要进行数据治理或者数据资产建设的相关人员。
 在建设企业数据平台时遇到困难的一线人员。
如何阅读本书
本书共17章,分为五部分。
第一部分为架构基础(第1章),将会总览性地介绍企业架构及数据架构的内容。
第1章主要介绍企业架构的组成,例如业务架构、数据架构及应用架构等,从不同角度解析两个主要企业架构—Zachman框架及TOGAF,并对比不同组织或者机构对于数据架构的理解。
第二部分为数据架构基础(第2~6章),从不同方面阐述数据架构的组成。
第2章主要介绍数据架构的构成,例如数据模型、元数据、数据质量、数据标准、数据治理、数据资产、数据生命周期、数据分布、常见数据架构技术选型、数据调度等。如果想知道数据架构的核心组成,建议仔细阅读这一章。
第3章主要介绍数据架构中数据存储的发展以及不同类型数据存储的特点,然后分别从集中式数据库、分布式数据库、大数据存储、特定领域存储、实时计算阶段等方面进行详细阐述。如果对于不同类型的数据存储都非常了解的话,这一章可以选择性阅读。
第4章主要介绍数据存储中数据调度与消息传输的相关内容,对比了不同类型的商业ETL软件的区别,之后分别介绍了开源调度平台(Airflow)、ETL工具(DataX)、消息中间件(Kafka)的架构及核心概念等。读者可以根据自己对这些内容的了解程度有选择地阅读这一章。
第5章主要介绍数据架构的演进,引出Lambda架构和Kappa架构,并详细介绍这两种架构的组成及区别,最后简单介绍流批一体化的优劣势。
第6章主要介绍数据架构落地中可能涉及的各种辅助类应用,例如资源管理、资源及组件监控、应用监控以及日志监控等。如果企业内部已经有比较成熟的解决方案,这一章可以作为拓展阅读内容。
第三部分为数据架构模型实践(第7~9章),详细介绍了数据架构涉及的数据模型的部分。
第7章主要介绍企业内部数据区的划分以及企业内部数据的流向等内容,包括大多数企业内部数据区层级的划分以及每一层级的作用,并介绍互联网公司的集成型数据区分层特点等。
第8章主要介绍数据模型架构的内容,包括建模策略、建模步骤、建模方法论以及常见模型概述等。对于数据建模比较感兴趣的读者可以仔细阅读这一章内容。
第9章主要介绍维度建模的内容,包括维度建模概述、维度建模总线结构、维度详解、缓慢变化维度、事实表详解、事务型事实表等。对于维度建模的各种概念不是很理解的读者可以仔细阅读这一章内容。
第四部分为数据资产管理(第10~14章),第10~12章介绍数据架构的核心内容,第
13章及第14章介绍企业如何开展数据治理以及数据资产相关工作。
第10章主要介绍元数据管理,包括元数据的产生、分类及价值等,同时介绍元数据的应用及生命周期等,最后阐述如何构建元数据管理体系。
第11章主要介绍数据质量管理,主要内容包括数据质量的管理框架、核心维度及规则体系等,同时介绍企业如何进行数据质量评估。
第12章主要介绍数据标准管理,详细阐述了数据标准的内涵、体系设计框架、管理流程以及面临的挑战,最后系统阐述数据标准与数据质量的关系。如果想系统了解不同概念之间的关系,需要花点时间阅读这一章内容。
第13章主要介绍数据治理的相关内容,就数据治理的产生原因、内涵、核心准则、通用流程等内容进行阐述,最后列举数据治理面临的挑战以及相应的应对方式。推荐将要或者正在进行数据治理的读者仔细阅读这一章内容。
第14章主要介绍数据资产管理相关的内容,包括数据资产的现状以及当前企业可以进行的数据资产管理内容,梳理数据资产与其他概念之间的关系,同时详细介绍如何展开数据资产目录构建工作。
第五部分为数据架构实践(第15~17章),从实践的角度对前面的内容进行了介绍。
第15章主要介绍离线计算的相关实践,并以某个具体的场景为例展开介绍,包括架构设计、软件部署、模型设计、数据处理及离线计算数据应用等。
第16章主要介绍实时计算的相关实践,同样以某个具体的场景为例展开深入介绍,包括架构设计、软件部署、连通性配置、实时计算层等。
第17章主要结合笔者自身的理解以及在行业内的多年观察对数字未来进行展望,希望可以给读者带来一些启发。
由于水平有限,书中可能存在一些描述不准确或者错误的地方,恳请读者多多包涵。同时期待本书可以对读者的工作提供一些帮助。

产品特色

编辑推荐

适读人群 :本书从高到低主要分为三个层次的读者:高级:数据BD人员/数据架构师/中级:数据模型开发人员/ETL工程师/数据运维工程师/数据测试人员初级:想成为架构师的技术人员/对数据感

(1)作者经验丰富:头部保险资管公司深数据架构师,从事数据相关工作10余年,在数据架构、数据治理、数据资产管理等领域积累了丰富的经验。
(2)理论系统全面:系统梳理和阐述了企业架构的基础知识,以及数据架构的组成要素、架构模型、数据治理和数据资产管理的理论知识。
(3)实战案例丰富:用大量案例辅助理论讲解,同时用离线计算和实时计算两大场景的综合案例进行了详细展示。
(4)资深专家推荐:平安集团首席架构师与平安资管总经理等多位专家联袂推荐。

内容简介

这是一部从企业架构视角系统讲解企业级数据架构的著作,包含数据架构的原理、方法和实践。
本书拟分为四个部分共17个章节来系统性的阐述数据架构相关内容;
第1部分 架构基础主要包含1个章节
1.数据架构与企业架构 其主要从宏观的角度阐述企业架构与数据架构的关系以及重要性使读者明白数据架构并不是孤立存在的且与企业架构息息相关
第2部分 数据架构基础主要包含5个章节从理论以及工具层面阐述数据架构的构成
2.数据架构构成 介绍数据架构的主要组成以及框架
3.数据存储 数据架构落地中常见的存储选型以及实用场景
4.数据调度与消息传输 数据架构中调度服务以及消息传输的通用技术选型以及可能出现的关键问题以及优化手段
5.Lambda架构与Kappa架构 系统性的阐述主流的两种数据架构以及使用场景
6.辅助类组件 数据架构中帮助测试以及运维人员精准的定位问题的相关辅助组件,例如日志收集、系统监控以及APM等
第3部分 数据架构实践 基于大量的业务实践,总结数据架构实践中核心组组成以及关键方法进行拆解
7.企业数据区域以及流向 以不同的维度去拆解企业的数据,帮助读者构建数据架构的落地层面的意识,知道为什么拆以及如何去拆
8.模型架构详解 以主流的两种建模方法论为切入点,讨论并对比优劣并让读者拓展模型设计中的工具箱。
9.模型设计 以维度建模为例,详细的介绍不同数据层级、不同类型数据的建模方法,具体案例来源于大量的模型实践
10.元数据 了解什么是元数据及其重要性以及如何管理数据
11.数据质量 基于数据质量去设计数据质量监控体系,做好事前防范、事后治理
12.数据标准 构建数据标准框架以及流程,挖掘具体数据标准落地在企业中的难度。
第4部分 数据资产管理
13.企业数据资产 企业数据资产的构成以及搭建路径以及工具等
14.数据治理 结合元数据、数据质量以及数据标准等,系统的阐述数据治理类型项目的落地
15.大数据平台实践 如何一步一步搭建基于Hadoop大数据平台
16.实时数据仓库搭建 如何构建企业级别的实施数据仓库
17.本书总结 总结写书的感悟以及后续的一些想法等

作者简介

李杨
资深数据架构师,在数据相关领域有10年以上工作经验。头部保险资管公司科技平台交易系统团队开发组负责人,负责多个应用以及数据平台的建设、优化以及迁移工作。曾担任某数据公司技术合伙人,负责多个金融机构的数据仓库或数据平台相关的工作。
在数据质量管理、数据治理等领域有着非常深厚的积累,熟悉不同行业的数字化转型。此外,他还是一名经验丰富的应用工程师,对大数据、数据库以及主流的技术栈有着非常深入的了解。
2022年被集团评为“优秀架构师”,积极参与行业内部的相关课题研究,是《保险问道
之保险资管数字化探索》一书的执笔人之一,是中资协《金融科技赋能保险资管风险管控的研究》课题核心组成员之一。

目录

目录

自序

前言

第一部分 架构基础

第1章 企业架构概述 3

1.1 企业架构 4

1.2 Zachman框架 4

1.3 TOGAF 6

1.4 业务架构 9

1.5 数据架构 11

1.6 总结 13

第二部分?数据架构基础

第2章 数据架构构成 18

2.1 数据模型 18

2.2 元数据 19

2.3 数据质量 20

2.4 数据标准 21

2.5 数据治理 21

2.6 数据资产 22

2.7 数据生命周期 24

2.8 数据分布 27

2.9 常见数据架构技术选型 28

2.10 数据调度 30

2.11 总结 30

第3章 数据存储 31

3.1 数据存储基础 32

3.2 集中式数据库 38

3.3 分布式数据库 40

3.4 大数据存储 43

3.5 特定领域存储 46

3.6 实时计算阶段 49

3.7 总结 49

第4章 数据调度与消息传输 50

4.1 通用技术选型 50

4.2 Airflow调度平台 52

4.3 DataX数据同步工具 56

4.4 Kafka消息中间件 62

4.5 总结 68

第5章 Lambda架构与Kappa架构 69

5.1 架构演进 69

5.2 Lambda架构详解 75

5.3 Kappa架构详解 82

5.4 Lambda与Kappa对比 87

5.5 流批一体化 89

5.6 总结 90

第6章 辅助类应用体系介绍 91

6.1 资源管理 91

6.2 资源及组件监控 95

6.3 应用监控 102

6.4 日志监控 107

6.5 总结 109

第三部分?数据架构模型实践

第7章 企业数据区与数据流向 113

7.1 数据区概述 113

7.2 数据区详解 115

7.3 企业数据流向 119

7.4 企业数据分层 123

7.5 企业集成型数据区层级 124

7.6 互联网公司的集成型数据区分层

   特点 129

7.7 总结 130

第8章 数据模型架构详解 131

8.1 为什么要建模 132

8.2 建模策略 134

8.3 建模三步走 137

8.4 建模方法论 141

8.5 常见模型概述 147

8.6 数据层级与数据模型的关系 151

8.7 总结 152

第9章 维度建模解析 153

9.1 维度建模概述 153

9.2 维度建模总线结构 156

9.3 维度详解 159

9.4 缓慢变化维度 162

9.5 事实表详解 167

9.6 事务型事实表 170

9.7 总结 172

第四部分?数据资产管理

第10章 元数据管理 178

10.1 元数据概述 178

10.2 元数据的产生 179

10.3 不同类型元数据详解 182

10.4 元数据的价值 187

10.5 元数据的应用 189

10.5.1 血缘分析 189

10.5.2 影响分析 190

10.6 元数据的生命周期 191

10.7 元数据管理体系构建 191

10.8 总结 193

第11章 数据质量管理 194

11.1 数据质量概述 194

11.2 数据质量内涵 195

11.3 数据质量管理框架 196

11.4 数据质量核心维度 200

11.5 数据质量规则体系 203

11.6 数据质量评估 206

11.7 总结 210

第12章 数据标准管理 211

12.1 数据标准概述 211

12.2 数据标准内涵 212

12.3 数据标准体系设计框架 213

12.4 数据标准管理流程 219

12.5 数据标准的挑战 223

12.6 数据标准与数据质量的关系 224

12.7 总结 226

第13章 数据治理 227

13.1 为什么需要数据治理 227

13.2 数据治理内涵 229

13.3 数据治理核心准则 232

13.4 数据治理通用流程 236

13.5 数据治理的挑战 242

13.6 总结 243

第14章 数据资产管理与数据

     资产目录 244

14.1 数据资产内涵 245

14.2 数据资产管理活动职能 253

14.3 数据资产目录实践 254

14.4 总结 260

第五部分?数据架构实践

第15章 离线计算 263

15.1 离线计算架构概述 263

15.2 架构设计 264

15.3 软件部署 265

15.4 模型设计 281

15.5 数据处理 291

15.6 离线计算数据应用 298

15.7 总结 299

第16章 实时计算 300

16.1 实时计算架构概述 300

16.2 架构设计 301

16.3 软件部署 303

16.4 连通性配置 310

16.5 实时计算层 315

16.6 总结 322

第17章 对数字未来的展望 324

17.1 建设数字中国 324

17.2 金融行业的数字化转型 325

17.3 数据架构核心 326

17.4 数据开发趋势 326

17.5 DataOps发展 327

17.6 总结 328

前言/序言

为何写作本书
2017年英国《经济学人》杂志提出一个观点:世界上最具价值的资源不再是石油,而是数据。有关数据的各种概念,如数据要素、数字经济、数字化转型以及数据资产定价等不断提出,对数据理论层面的探索从未停止过。各行各业乃至整个社会都对数据愈发重视,政府也提出建设“数字中国”的概念。上述种种无疑对数据从业者提出了更高的要求。
笔者工作这十几年来始终在一线从事开发工作,接触过很多企业内部的需求。笔者清楚地感受到,企业在不同时期,对于数据平台的定位或者期待发生了很大的变化,同时企业高层对于数据的重视程度也在持续提高。同时,企业内部关于数据平台建设的思路或者对于从业者技能的要求也发生了巨大的变化。
笔者花了很长时间去思考一些问题,例如:数据平台在这些年的发展过程中,有哪些内容是始终不变的,哪些内容变得更加重要;从业者需要掌握哪些技能才能更好地适应新时代的发展。基于这些思考,笔者写了这本书,从数据架构的角度阐述不同时期企业数据平台的建设,期望给从业者提供一些参考。
本书主要特点
这是一本偏落地实践的书。笔者会基于自己在一线工作的经验,在书中详细介绍数据架构涉及的技术栈、技术组件以及数据架构落地中可能遇到的问题,并提供对应的解决方案。
这也是一本包含必要理论的书。数据架构涉及大量的概念,不同的概念在不同的阶段可能会有不同的内涵。所以本书会针对这些概念以及不同概念之间的因果关系、逻辑关系等进行详细的介绍。通过这些介绍,相信读者可以更加深入地了解数据架构。
本书会将书介绍的组件与书中提到的理论相结合,并一步步地带领读者搭建自己的迷你版数据平台,以加深读者对于数据架构的理解。
本书读者对象
本书是一本企业数据架构相关的书,比较全面地介绍了企业数据架构在企业架构中的位置以及数据架构的构成等。从内容来看,本书比较适合以下读者阅读:
 对数据感兴趣的相关行业从业者。
 想了解企业数字化转型内涵的相关人员。
 期望从事数据相关工作的初学者。
 想提升自身能力的数据相关从业者。
 想拓展自己的技术领域的应用开发人员。
 正在或者将要进行数据治理或者数据资产建设的相关人员。
 在建设企业数据平台时遇到困难的一线人员。
如何阅读本书
本书共17章,分为五部分。
第一部分为架构基础(第1章),将会总览性地介绍企业架构及数据架构的内容。
第1章主要介绍企业架构的组成,例如业务架构、数据架构及应用架构等,从不同角度解析两个主要企业架构—Zachman框架及TOGAF,并对比不同组织或者机构对于数据架构的理解。
第二部分为数据架构基础(第2~6章),从不同方面阐述数据架构的组成。
第2章主要介绍数据架构的构成,例如数据模型、元数据、数据质量、数据标准、数据治理、数据资产、数据生命周期、数据分布、常见数据架构技术选型、数据调度等。如果想知道数据架构的核心组成,建议仔细阅读这一章。
第3章主要介绍数据架构中数据存储的发展以及不同类型数据存储的特点,然后分别从集中式数据库、分布式数据库、大数据存储、特定领域存储、实时计算阶段等方面进行详细阐述。如果对于不同类型的数据存储都非常了解的话,这一章可以选择性阅读。
第4章主要介绍数据存储中数据调度与消息传输的相关内容,对比了不同类型的商业ETL软件的区别,之后分别介绍了开源调度平台(Airflow)、ETL工具(DataX)、消息中间件(Kafka)的架构及核心概念等。读者可以根据自己对这些内容的了解程度有选择地阅读这一章。
第5章主要介绍数据架构的演进,引出Lambda架构和Kappa架构,并详细介绍这两种架构的组成及区别,最后简单介绍流批一体化的优劣势。
第6章主要介绍数据架构落地中可能涉及的各种辅助类应用,例如资源管理、资源及组件监控、应用监控以及日志监控等。如果企业内部已经有比较成熟的解决方案,这一章可以作为拓展阅读内容。
第三部分为数据架构模型实践(第7~9章),详细介绍了数据架构涉及的数据模型的部分。
第7章主要介绍企业内部数据区的划分以及企业内部数据的流向等内容,包括大多数企业内部数据区层级的划分以及每一层级的作用,并介绍互联网公司的集成型数据区分层特点等。
第8章主要介绍数据模型架构的内容,包括建模策略、建模步骤、建模方法论以及常见模型概述等。对于数据建模比较感兴趣的读者可以仔细阅读这一章内容。
第9章主要介绍维度建模的内容,包括维度建模概述、维度建模总线结构、维度详解、缓慢变化维度、事实表详解、事务型事实表等。对于维度建模的各种概念不是很理解的读者可以仔细阅读这一章内容。
第四部分为数据资产管理(第10~14章),第10~12章介绍数据架构的核心内容,第
13章及第14章介绍企业如何开展数据治理以及数据资产相关工作。
第10章主要介绍元数据管理,包括元数据的产生、分类及价值等,同时介绍元数据的应用及生命周期等,最后阐述如何构建元数据管理体系。
第11章主要介绍数据质量管理,主要内容包括数据质量的管理框架、核心维度及规则体系等,同时介绍企业如何进行数据质量评估。
第12章主要介绍数据标准管理,详细阐述了数据标准的内涵、体系设计框架、管理流程以及面临的挑战,最后系统阐述数据标准与数据质量的关系。如果想系统了解不同概念之间的关系,需要花点时间阅读这一章内容。
第13章主要介绍数据治理的相关内容,就数据治理的产生原因、内涵、核心准则、通用流程等内容进行阐述,最后列举数据治理面临的挑战以及相应的应对方式。推荐将要或者正在进行数据治理的读者仔细阅读这一章内容。
第14章主要介绍数据资产管理相关的内容,包括数据资产的现状以及当前企业可以进行的数据资产管理内容,梳理数据资产与其他概念之间的关系,同时详细介绍如何展开数据资产目录构建工作。
第五部分为数据架构实践(第15~17章),从实践的角度对前面的内容进行了介绍。
第15章主要介绍离线计算的相关实践,并以某个具体的场景为例展开介绍,包括架构设计、软件部署、模型设计、数据处理及离线计算数据应用等。
第16章主要介绍实时计算的相关实践,同样以某个具体的场景为例展开深入介绍,包括架构设计、软件部署、连通性配置、实时计算层等。
第17章主要结合笔者自身的理解以及在行业内的多年观察对数字未来进行展望,希望可以给读者带来一些启发。
由于水平有限,书中可能存在一些描述不准确或者错误的地方,恳请读者多多包涵。同时期待本书可以对读者的工作提供一些帮助。