1. 什么是大数据? 核心问题是什么?
举个🌰: 商品的推荐
(问题1) 大量的订单数据如何存储?
(问题1) 大量的订单数据如何计算?大数据的核心问题 (技术上):
- 存储 (HDFS)
- 计算 (离线 + 实时)
离线计算 与 实时计算
2.1 离线计算 - 批处理
(MapReduce, Spark Core, Flink DataSet API)
2.2 实时计算
(Spark Streaming、Flink DataStream API)
MapReduce 核心思想: 先拆分,在合并
2. MapReduce 编程模式
数据的处理流程: WordCount程序为例
3. MapReduce 编程实战
- WordCountMapper
- WordCountReducer
- WordCountMain
4. 分布式计算模型
MapReduce 计算模型的来源: PageRank 问题
启动 Hadoop & Yarn:
执行 MapReduce:
执行结果:
Checking if Disqus is accessible...