首先,大數據的基礎有三大部分內容,分別是數學、統計學和計算機,所以要想從事大數據領域的研發工作需要一個系統的學習過程。
在大數據的技術體系結構中,編程語言是一個重要的組成部分,目前在大數據領域使用比較普遍的編程語言包括Java、Python、R、Scala等,通常從事不同的崗位需要掌握不同的編程語言(與技術團隊有密切關系),所以學習大數據一定要具備編程語言基礎,但是并不是說一定要具備Java基礎。從事數據分析通常更多的選擇是采用Python語言,無論是通過統計學方式還是機器學習方式,而R語言在數據過濾和推薦系統等大數據應用領域也有廣泛的應用。
雖然學習大數據并不一定要掌握Java語言,但是掌握Java語言對于學習大數據技術還是有積極意義的,一方面原因是Hadoop平臺本身就是采用Java語言開發的,另一方面原因是Java語言具有健全的生態體系,在開發大數據落地應用方面具有一定的優勢,而且Java語言性能穩定且擴展性比較強,采用Java語言的開發風險是比較小的。
學習Java語言可以分成三個階段來學習,第一個階段是學習Java的基本語法,重點在于對抽象的理解,包括封裝、繼承、多態等概念;第二個階段是學習Java的分布式開發,重點在于如何通過Java來整合資源,包括數據庫等;第三個階段是學習Java的Web開發,重點在于理解Web開發體系結構以及服務組件的開發。
在學習Hadoop開發的過程中需要掌握Hadoop平臺提供的API,通過大量的實驗逐漸掌握如何通過Java在Hadoop平臺下進行功能開發。