大數(shù)據(jù)時(shí)代已經(jīng)到來?
有java基礎(chǔ)學(xué)習(xí)大數(shù)據(jù)還是比較容易的,但是這個(gè)還是要看你的java基礎(chǔ)到底怎么樣了,基礎(chǔ)好的話倒是沒什么問題。自學(xué)是個(gè)選擇,但是不一定是個(gè)好的選擇,自學(xué)的弊端相信你應(yīng)該是知道的,周期長,可能中間堅(jiān)持不了就想放棄了,有問題和不能解決的困難也沒有人問,這是個(gè)很大的問題。另外一種學(xué)習(xí)就是去培訓(xùn)機(jī)構(gòu)了,雖然說有的機(jī)構(gòu)坑,但是也有好的,我知道科多大數(shù)據(jù),現(xiàn)在已經(jīng)有很多班在學(xué)習(xí)了,有的人說培訓(xùn)機(jī)構(gòu)出來達(dá)不到企業(yè)的要求,我看不一定,他們的學(xué)員剛學(xué)出來沒有工作經(jīng)驗(yàn)也有7000,當(dāng)然這是大數(shù)據(jù)人才匱乏也是原因之一。
建議先學(xué)習(xí)下hadoop的基礎(chǔ),hdfs、mapreduce、yarn的基本知識,然后開始上手spark,spark可以看看databricks的指導(dǎo)資資料,databricks還有公開課,多寫一些應(yīng)用,對Rdd(DataFrame)、sparkSql、sparkStreaming的應(yīng)用都有一定的開發(fā)經(jīng)驗(yàn)后,就可以嘗試閱讀spark的源碼,學(xué)習(xí)其設(shè)計(jì)思想,即使以后不做底層,只是開發(fā)應(yīng)用,那也有助于你寫出更好的應(yīng)用。有了這些基礎(chǔ)知識,對行業(yè)的理解也深了,選一個(gè)方向,深入進(jìn)去做。學(xué)習(xí)Spark的話,databricks官方有很多例子,還有他們團(tuán)隊(duì)的博客,有很多含金量比較高的資料。有條件的話,多在集群上處理大規(guī)模的數(shù)據(jù)。