大数据架构演变
在 Hadoop 系列框架还没出现之前,数据分析工作已经经历漫长的发展,其中以 BI 系统为主的数据分析,已经有非常成熟和稳定的技术解决方案和生态系统,BI 系统的架构图如下:
BI 又叫商业智能,其包括与传统业务系统的区别在于:业务系统更注重于事务型的数据处理,用来支撑企业的各业务线;而 BI 是将企业中所有数据汇聚成数据仓库(DW)并对其进行分析型操作,其中 Cube 是 BI 的核心模块。Cube 是一额更高层的业务抽象模型,在 Cube 上可以进行上钻、下钻、切片等操作、
BI 系统都是基于关系型数据库,关系型数据库使用 SQL 语句进行操作,但是 SQL 在多维操作相对较弱,所以 Cube 有自己独有的查询语言多维查询语言 —— MDX
大多数的数据库服务厂商都提供 BI 服务,轻易便可搭建出一套 OLAP 分析系统
OLTP 联机事务处理,表现为企业中的应用系统如 OA、CRM、ERP、财务软件等供各部门使用
OLAP 联机分析处理,也叫决策支持系统 DSS,通常进行使用者是企业高管或部门管理者
但是随着互联网发展,BI 系统也暴露除了一些缺点:
BI 系统多以分析业务数据产生结构化数据为主,对于非结构化和半结构化数据处理乏力。例如图片、文本、音频的存储、分析。
随着异构数据源增加,要解析数据内容进入数据仓库,则需要非常复杂的 ETL 程序,从而导致 ETL 变得过于庞大和容易出错,需要大量人力进行维护
随着数据的增长,性能会成为瓶颈,在 TB/PB 级别的数据处理上表现的尤为乏力
数据仓库的原始数据都是只读的用来分析,不存实务操作者导致传统的范式约束大大影响了性能
由于 BI 的一系列问题,在以 Hadoop 生态圈的大数据分析平台逐渐表现出其优异性,围绕 Hadoop 体系的生态圈也不断变大,对于 Hadoop 系统来说,从根本上解决了传统数据仓库瓶颈的问题
随着大数据平台的不断发展,现在主要对数据的处理时效进行区分为
针对于 T+1 数据的离线处理架构,其主要应用框架由 Hadoop、Hive、Sqoop 等组成
针对实时数据的流式处理架构,其主要由 Spark、Flink、Flume、Kafka 等组成
Lambda 架构
“我们正在从 IT 时代走向 DT 时代 (数据时代)。IT 和 DT 之间,不仅仅是技术的变革,更是思想意识的变革,IT 主要是为自我服务,用来更好地自我控制和管理,DT 则是激活生产力,让别人活得比你好”
Hadoop 作为解决对大数据量低成本规模化的处理的解决方案被广泛应用
但是 MapReduce 或者 Hive 很难做到低延迟,用 Storm 开发的实时流处理技术可以帮助解决延迟性的问题,但它并不完美
Storm 不支持 exactly-once 语义,因此不能保证状态数据的正确性
Storm 不支持基于事件时间的处理
后来出现了一种混合分析的方法,它将上述两个方案结合起来,既保证低延迟,又保障正确性 ——Lambda
Lambda 架构是由 Storm 的作者 Nathan Marz 提出的一个实时大数据处理框架
Marz 在 Twitter 工作期间开发了著名的实时大数据处理框架 Storm,Lambda 架构是其根据多年进行分布式大数据系统的经验总结提炼而成
Lambda 的目标:
- 高容错、低延时、可扩展
Lambda 特性
整合离线计算和实时计算
读写分离和复杂性隔离
可集成 Hadoop,Kafka,Storm,Spark,HBase 等
Marz 认为大数据系统应具有以下的关键特性(Lambda 架构的关键特性):
Robust and fault-tolerant(容错性和鲁棒性):让系统从错误中快速恢复
Low latency reads and updates(低延时):响应是低延时
Scalable(横向扩容):通过增加机器的个数来提高系统的性能
General(通用性):支持多领域的数据分析(金融、社交、电子商务等)
Extensible(可扩展):以最小的开发代价来增加新功能
Allows ad hoc queries(方便查询):即时查询,快速简便的进行查询
Debuggable(易调试):快速定位错误
Lambda 架构通过分解的三层架构来解决问题
Batch Layer
Speed Layer
Serving Layer
Batch Layer
理想状态下,任何数据查询都可以从表达式 Query= function (all data) 获得,但是若数据达到相当大的一个级别(例如 PB),且还需要支持实时查询时,就需要耗费非常庞大的资源
可以将数据提前进行计算处理成为 Batch View,这样当需要执行查询时,可以从 Batch View 中读取结果。这样一个预先运算好的 View 是可以建立索引的,因而可以支持随机读取
Batch Layer 总结为:
Batch View = function(all data)
Query = function(BatchView)
Speed Layer
Batch Layer 的离线处理可以很好的满足大多数应用场景,但有很多场景的数据是不断实时生成,并且需要实时查询处理。Speed Layer 正是用来处理增量的实时数据并生成 Realtime View
Speed Layer 处理的数据是最近的增量数据流,Batch Layer 处理的是全体数据集
Speed Layer 为了效率,接收到新数据时不断更新 Realtime View,而 Batch Layer 根据全体离线数据集直接得到 Batch View
Speed Layer 是一种增量计算,所以延迟小
Speed Layer 总结为:
- RealtimeView=function(RealtimeView,new data)
Batch Layer 和 Speed Layer 优点:
容错性:Speed Layer 中处理的数据也不断写入 Batch Layer,当 Batch Layer 中重新计算的数据集包含 Speed Layer 处理的数据集后,当前的 Realtime View 就可以丢弃,这也就意味着 Speed Layer 处理中引入的错误,在 Batch Layer 重新计算时都可以得到修正。这点也可以看成是 CAP 理论中的最终一致性(Eventual Consistency)的体现
复杂性隔离:Batch Layer 处理的是离线数据,可以很好的掌控。Speed Layer 采用增量算法处理实时数据,复杂性比 Batch Layer 要高很多。通过分开 Batch Layer 和 Speed Layer,把复杂性隔离到 Speed Layer,可以很好的提高整个系统的鲁棒性和可靠性
Query = function( Batch View , Realtime View )
Realtime View = function( Realtime View , new data )
Batch View = function( all data )
Serving Layer
用于响应用户的查询请求,合并 Batch View 和 Realtime View 中的结果数据集到最终的数据集
Kappa 架构
Lambda 架构有时会出现批量数据和实时数据结果对不上的问题
LinkedIn 的 Jay Kreps 提出了一个新的架构:KAPPA
它的理念是:鉴于大家认为批量数据和实时数据对不上是个问题,它直接去掉了批量数据;而直接通过队列(Kafka),放入实时数据之中。
例如:将所有的数据直接放到原来的 Kafka 中,然后通过 Kafka 的 Streaming,去直接面向查询
该架构也存在着一些问题:
不能及时查询和训练。例如:我们的分析师想通过一条 SQL 语句,来查询前五秒的状态数据。这对于 KAPPA 架构是很难去实现的
面对各种需求,它同样也逃不过每次需要重新做一次 Data Streaming。也就是说,它无法实现 Ad—hoc 查询,我们必需针对某个需求事先准备好,才能进行数据分析
新数据源的结构问题。例如:要新增一台智能硬件设备,我们就要重新开发一遍它对应的适配格式、负责采集的 SDK、以及 SDK 的接收端等,即整体都要重复开发一遍
IOTA 架构
IOTA 架构整体思路
设定标准数据模型,通过边缘计算技术把所有的计算过程分散在数据产生、计算和查询过程当中,以统一的数据模型贯穿始终,从而提高整体的预算效率,同时满足即时计算的需要,可以使用各种 Ad-hoc Query 来查询底层数据
- Common Data Model(核心):从数据收集到数据存储和处理使用统一的数据模型
“主 - 谓 - 宾”、“对象 - 事件”、“产品 - 事件”、“地点 - 时间” 模型等等
例,“X 用户 – 事件 1 – A 页面(2018/4/11 20:00)
SDKs:数据的采集端,不仅仅是过去的简单的 SDK,在复杂的计算情况下,会赋予 SDK 更复杂的计算,在设备端就转化为形成统一的数据模型来进行传送
Real Time Data:实时数据缓存区,这部分是为了达到实时计算的目的,海量数据接收不可能海量实时入历史数据库,那样会出现建立索引延迟、历史数据碎片文件等问题。因此,有一个实时数据缓存区来存储最近几分钟或者几秒钟的数据。这块可以使用 Kudu 或者 Hbase 等组件来实现。这部分数据会通过 Dumper 来合并到历史数据当中。此处的数据模型和 SDK 端数据模型是保持一致的,都是 Common Data Model,例如 “主 - 谓 - 宾” 模型
Historical Data:历史数据沉浸区,这部分是保存了大量的历史数据,为了实现 Ad-hoc 查询,将自动建立相关索引提高整体历史数据查询效率,从而实现秒级复杂查询百亿条数据的反馈。例如可以使用 HDFS 存储历史数据,此处的数据模型依然 SDK 端数据模型是保持一致的 Common Data Model
Dumper:Dumper 的主要工作就是把最近几秒或者几分钟的实时数据,根据汇聚规则、建立索引,存储到历史存储结构当中,可以使用 map reduce、C、Scala 来撰写,把相关的数据从 Realtime Data 区写入 Historical Data 区
Query Engine:查询引擎,提供统一的对外查询接口和协议(例如 SQL JDBC),把 Realtime Data 和 Historical Data 合并到一起查询,从而实现对于数据实时的 Ad-hoc 查询。例如常见的计算引擎可以使用 presto、impala、clickhouse 等
Realtime model feedback:通过 Edge computing 技术,在边缘端有更多的交互可以做,可以通过在 Realtime Data 去设定规则来对 Edge SDK 端进行控制