Hadoop大數據框架的四個組成部分

Hadoop大數據框架的四個組成部分？

1、Hadoop 是一個能夠對大量數據進行分布式處理的軟件框架。具有可靠、高效、可伸縮的特點。 Hadoop的核心是HDFS和MapReduce，hadoop2.0還包括YARN。 2、HDFS Hadoop的分布式文件系統。是Hadoop體系中數據存儲管理的基礎。它是一個高度容錯的系統，能檢測和應對硬件故障，用于在低成本的通用硬件上運行。HDFS簡化了文件的一致性模型，通過流式數據訪問，提供高吞吐量應用程序數據訪問功能，適合帶有大型數據集的應用程序。 3、MapReduce（分布式計算框架） MapReduce是一種計算模型，用以進行大數據量的計算。其中Map對數據集上的獨立元素進行指定的操作，生成鍵-值對形式中間結果。Reduce則對中間結果中相同“鍵”的所有“值”進行規約，以得到最終結果。MapReduce這樣的功能劃分，非常適合在大量計算機組成的分布式并行環境里進行數據處理。 4、Hive（基于Hadoop的數據倉庫）Hive定義了一種類似SQL的查詢語言(HQL),將SQL轉化為MapReduce任務在Hadoop上執行。通常用于離線分析。

java流式sql,Hadoop大數據框架的四個組成部分