blaire
👩🏻💻ブレア🥣
介绍了 CDH 集群的搭建与安装
标签: Cloudera-Manager CDH Hadoop 部署 集群
Elasticsearch 是一个基于Apache Lucene™的开源搜索引擎 、 实时分布式搜索 和 分析引擎。
Elasticsearch 扩展性非常好,有很多官方和第三方开发的插件
介绍了 CDH 集群的搭建与安装,其中 Server 安装步骤非常准确, Agent 需要进一步验证.
Sqoop 即 SQL to Hadoop, 是一款方便的在传统关系数据库与 Hadoop 之间进行数据迁移的工具,充分利用 MapReduce 并行特点以批处理的方式加快数据传输.
Hive 是基于 Hadoop 中的 MapReduce,提供 HQL 查询的数据仓库.
Hive 是一个很开放的系统,很多内容都支持用户定制. 如 : 文件格式、MR脚本、自定义函数、自定义聚合函数 等.
我们可以用 hadoop-streaming 的方式,通过 python 等其他语言来编写 MR 程序.