Hadoop学习

Hadoop2.0架构图

Screen Shot 2018-05-06 at 11.21.44 PM.png

未涉及组件 简要介绍
Storm 分布式流式处理、实时计算系统
Kafka linkedin用于日志处理的分布式消息队列
Mathout 数据挖掘算法库
  1. HDFS:分布式存储系统

  2. MapReduce:分布式离线计算框架

  3. Yarn:资源调度和管理平台

    Screen Shot 2018-05-15 at 10.06.52 PM.png

  4. Zookeeper:分布式协调服务

  5. Hive:数据仓库

  6. Hbase:分布式存储系统、数据库

  7. Kafka:流式数据处理——消息队列

  8. Storm:流式数据处理——计算框架

  9. Flume:流式数据处理——数据采集

  10. Spark:内存计算框架