Spark 核心概念详述 2.2

blairchen

Publish：Jul 21, 2020

Spark 核心概念详述 2.2

1. Word Count

Spark 核心概念详述 2.2

data source -> LineRDD -> WordRDD -> WordAndOneRDD -> WordCountRDD -> 目的地

整个 SPark 程序中的

1个Application —> 1个Job —>

Spark 核心概念详述 2.2

storm —- 细粒度 — 一条数据处理一次

sparkStreaming — 粗粒度 — 一小段时间内的所有数据处理一次

加入 1s 中就一条数据
加入 1s 中就一万条数据. Spark Core + MapReduce

spark: master(resourcemanager) worker(nodemanager)

YARN:

— master yarn
—deploy-mode client/cluster

上传和下载数据的流程： 7

SparkSubmit： 10步
SparkCore 任务运行流程： 20步

RDD 三句话

linage 血脉关系

一个线程一个任务

一个 Executor 会执行多个 Task

updated on：Jun 28, 2021

spark

Spark Core 中的 RDD 详解 3.1

1. 广播变量线程可以共享变量的思路广播变量： (1) 在默认情况下，每一个task都会维持一个全局变量的副本有一个集合：100M 在 driver 中生成，但是在所有的tas...

Hive Optimize 25 Items

调优: Hive底层执行引擎深度剖析 25条Hive性能调优实战深度剖析Hive架构设计与工作原理4.1 Hive 的概念 Hive依赖HDFS数据，Hive将HQL转成MapRe...

Comments