大數據開發主要做哪些工作?
大家好,我是Lake,專注大數據技術、程序員經驗、互聯網科技見解分享。
作為一個軟件工程師,我個人目前從事的就是大數據方向。目前大數據可以分成很多具體的方向:大數據平臺開發、大數據分析師(BI)、大數據運維、大數據處理(ETL)、大數據組件開發(偏大數據組件底層)。不同的工作方向,其工作內容還是有一定差異的,下面我來說下不同工作崗位具體的工作內容:
大數據平臺開發更偏向對整體數據平臺功能性開發,比如離線計算平臺、實時計算平臺、算法推薦平臺等等。平時用的較多的語言是Java,其更偏向于Java開發。如果用戶是上層用戶,大數據相關組件作為最低層,大數據平臺就橋接著用戶和大數據組件,方便用戶使用大數據組件的功能。
大數據分析師(BI同學)更多的是對我們已有的線上數據進行價值分析,從相關的線上用戶所產生的數據中,發現出一些潛在的商業價值,能夠更好的去輔助決策層的戰略決定。BI需要對數據敏感、細心,善于從數據中發現業務價值,平常很多工作就是數據可視化、簡單化、深入化、PPT化。
大數據運維同學主要是保障公司相關機器集群的穩定,使得它們不能出現故障。當申請到新的機器時,會在新機器上面部署各種大數據組件組成的集群。同樣,當有業務同學需要用到機器時,可以給大數據運維同學提需求。當大數據組件集群突然因為什么變得集群不穩定時,運維同學需要去定位問題和解決問題,運維同學平時用的較多的Linux Shell腳本和命令行等,其職位更偏向于為其他同學提供機器穩定保障。
ETL同學(數倉同學)則是對我們的線上數據進行數據加工,形成DWD層(公共明細層)、DWS層(公共匯總層),形成統一的指標口徑。ETL同學會根據不同的業務需求,一般使用SQL進行數據指標的加工,指導業務同學更好的運營相關業務。同時ETL同學更關注業務指標的口徑,在指標開發的過程中,使用數倉模型對業務數據進行建模,便于開發的指標數據更加統一,減少口徑偏差。
大數據組件開發,更多的是結合公司業務,對大數據基礎組件進行定制化開發、性能優化、BUG修復等等。同時,也需要對業務方接入進行問題答疑,指導他們使用大數據組件滿足業務需求。同時,你也需要運維你的大數據組件,當出現故障BUG時,需要你能及時修復,保證大數據組件的穩定。大數據組件開發需要對你自己運維的組件原理掌握的很全很深,只有這樣,你才能夠更好的指導別人。
總結大數據開發有很多方向,你可以結合你自己的興趣,選擇一個從事方向。大數據目前很多互聯網公司都在做,所以大數據整體的就業情況還是很不錯的。當你選擇具體的大數據方向后,希望你能夠深入持續的學習你所從事的方向,技術在于深,而不在于淺嘗輒止。
如果我的問答對你有幫助,歡迎你點贊轉發或者關注我,你的一個小小的鼓勵,就是我持續分享的動力,感謝。