ApacheSpark是一個通用和閃電般的集群計算系統。它提供了高級API。例如,Java,Scala,Python和R.ApacheSpark是用于運行Spark應用程序的工具。Spark比BigdataHadoop快100倍,比從磁盤訪問數據快10倍。
Hadoop是一個用Java編寫的開源,可擴展和容錯框架。它有效地處理大量商品硬件上的大量數據。Hadoop不僅是一個存儲系統,而且是一個大數據存儲和處理的平臺。
Spark是閃電般的群集計算工具。ApacheSpark的應用程序運行速度比Hadoop快100倍,磁盤速度快10倍。由于減少了磁盤讀/寫周期的次數,并且可以存儲內存中的中間數據。HadoopMapReduce從磁盤讀取和寫入,因此會降低處理速度。Spark很容易編程,因為它擁有大量具有RDD(彈性分布式數據集的高級操作符)。HadoopMapReduce的開發人員需要手動編寫每一項操作,這使得工作非常困難。
Spark能夠在同一個群集中執行批處理,交互式和機器學習和流式處理。因此使其成為一個完整的數據分析引擎。因此,不需要為每個需求管理不同的組件。在集群上安裝Spark足以滿足所有要求。MapReduce只提供批處理引擎,因此,會依賴于不同的引擎。例如Storm,Giraph,Impala等用于其他要求,所以,管理很多組件非常困難。
ApacheSpark可以以每秒數百萬事件的速率處理實時數據,即來自實時事件流的數據,例如,例如Twitter數據或Facebook分享/發布。Spark的優勢在于能夠有效地處理直播視頻流。Hadoop則不行,因為它旨在對大量數據執行批處理。