分布式文件系统HDFS: 核心原理与操作
如何学习大数据?
- 思想、架构、原理 (非常重要)
- 搭建环境 (建议: Apache版本)
1. 什么是大数据
Volume, Velocity, Variety, Value, Veracity
商品推荐:
Q1: 大量的订单如何存储 ?
Q2: 大量的订单如何计算 ?
大数据的核心问题是?
- 数据的存储
- 数据的计算
2. 分布式文件系统
分布式文件系统的核心原理
Q1: 硬盘不够大
- 多几个硬盘
Q2: 硬盘不够安全
- 多存几份
- HDFS的默认的 数据库冗余度: 3
主从架构 HDFS、Yarn、Hbase、Storm、Spark、Flink 都是主从架构
- 存在的问题: 单点故障
- Zookeeper: HA (Hadoop的HA实现架构)
- …
1 | ➜ hdfs dfsadmin -report |
3. 操作 HDFS
- 命令行
- Web Console: 端口 9870
- Java程序
4. HDFS 进阶
- 回收站
- 安全模式
- 配额
- 权限管理
- 快照
Checking if Disqus is accessible...