sparkcore 的任务执行流程分析:
- 构建DAG
- DAGScheduler —> DAG —> TaskSet (Task set)
补充:
- executor ExecutorBacked actor
- driver SchedulerBackend actor
Spark 核心概念复习
2个重要的知识:
- new SparkContext (sparkConf)
- collect(). action算子的提交任务机制,出发任务执行核心
HDFS - File - block - mapreduce line
HDFS - RDD - partition -
Spark:
- Application
- Driver Program
- ClusterManager
- SparkContext 整个应用上下文
- RDD
- DAGScheduler
- TaskScheduler
- Worker
- Executor
- Stage
- Job
- Task
- SparkEnv : 线程级别上下文, 存储运行时重要组件的引用
SparkEnv:
MapOutPutTracker
…
SparkConf
课程结束:
- 大数据存储
- 大数据计算
- 大数据实时增删改查
MapReduce 分布式计算的鼻祖 模型 解决大数据集计算的通用思想
- 分而治之: 1个Application —> 多个task
- 临时结果汇总: 多个Task的数据进行最终的汇总处理
zookeeper
议会制 , 投票 , 少数服从多数
艺术来源于生活
kylin, spark, flink ----> mapreduce
Spark 任务执行流程详解
现在开始介绍SparkContext,SparkContext的初始化步骤如下:
最重要的三个属性:
- _dagScheduler
---->
a- _taskScheduler
---->
TaskSchedulerImpl- _schedulerBackend
---->
StandaloneSchedulerBackend
Spark 任务提交流程:
图2:
Checking if Disqus is accessible...