sparksql為什么比hive處理速度快?
Spark為什么快呢?
消除了冗余的HDFS讀寫
Hadoop每次shuffle操作后,必須寫到磁盤,而Spark在shuffle后不一定落盤,可以cache到內存中,以便迭代時使用。如果操作復雜,很多的shufle操作,那么Hadoop的讀寫IO時間會大大增加。、
消除了冗余的MapReduce階段
Hadoop的shuffle操作一定連著完整的MapReduce操作,冗余繁瑣。而Spark基于RDD提供了豐富的算子操作,且action操作產生shuffle數據,可以緩存在內存中。
JVM的優化
Hadoop每次MapReduce操作,啟動一個Task便會啟動一次JVM,基于進程的操作。而Spark每次MapReduce操作是基于線程的,只在啟動Executor時啟動一次JVM,內存的Task操作是在線程復用的。
每次啟動JVM的時間可能就需要幾秒甚至十幾秒,那么當Task多了,這個時間Hadoop不知道比Spark慢了多少。
總結:Spark比Mapreduce運行更快,主要得益于其對mapreduce操作的優化以及對JVM使用的優化。