如何才能成為大數(shù)據(jù)工程師?
如何成為一個(gè)大數(shù)據(jù)工程師?這個(gè)問題挺好的,我想很多人都想知道,畢竟現(xiàn)在大數(shù)據(jù)挺火的,我結(jié)合我的個(gè)人經(jīng)驗(yàn)來說吧,大數(shù)據(jù)開發(fā)工程師,首先你得熟悉關(guān)系型數(shù)據(jù)庫,比如Oracle或者M(jìn)ySQL,熟悉之后,有利于數(shù)據(jù)倉庫的開發(fā),因?yàn)楹芏嘧鯡TL(抽取(extract)、轉(zhuǎn)換(transform)、加載(load))時(shí),用的源就是這些,不過還有其他比如從Nosql數(shù)據(jù)庫導(dǎo)出導(dǎo)入數(shù)據(jù),也有用FTP傳輸數(shù)據(jù),還有用爬蟲工具爬數(shù)據(jù),等等很多中方式。再次熟悉Hadoop,這個(gè)都是現(xiàn)在大數(shù)據(jù)領(lǐng)域中用的最多的一個(gè)技術(shù),它的HDFS可以實(shí)現(xiàn)分布式存儲(chǔ),Yarn是一個(gè)優(yōu)秀的資源調(diào)度框架。再次你可以學(xué)習(xí)Hadoop生態(tài)圈中的技術(shù),向Hive現(xiàn)在用的挺多的,只要你會(huì)SQL語句在熟悉一下Hadoop的架構(gòu)原理,基本可以駕馭了它,它做數(shù)據(jù)倉庫很優(yōu)秀,還可以自定義函數(shù)UDF,也可以控制權(quán)限,你也可以通過Sqoop工具從數(shù)據(jù)庫中向Hive中導(dǎo)入數(shù)據(jù),速度是真的快,在一個(gè)就是面向列族的Hadoop的數(shù)據(jù)庫HBase,現(xiàn)在也用的挺多的,只要是大數(shù)量的,一般大部分用HBase存儲(chǔ)數(shù)據(jù),Hbase實(shí)時(shí)性強(qiáng),延時(shí)低,有唯一ROWkey的索引機(jī)制,所以很快。你還有學(xué)習(xí)FLUME用來收集日志,比如靜態(tài)日志Nginx產(chǎn)生的,里面有很多關(guān)鍵的信息可以分析,通過Hive清洗數(shù)據(jù),最后存儲(chǔ)在HBase,還有就是Kafka消息訂閱分發(fā)系統(tǒng),這個(gè)也用的多,比如很多實(shí)時(shí)行的數(shù)據(jù)可以通過Kafka分類可以存儲(chǔ)在Hbase中不同的表中,在一個(gè)就是Spark生態(tài)圈,Spark是基于內(nèi)存計(jì)算的大數(shù)據(jù)計(jì)算框架,他計(jì)算非常快,如果要求計(jì)算速度高,有實(shí)時(shí)性強(qiáng),可以采用Spark的SparkSQL、SparkStreaming等,Spark還支持機(jī)器學(xué)習(xí),圖計(jì)算等。最后再學(xué)習(xí)一下JAVAweb的ssh框架。學(xué)玩這些基本計(jì)算一個(gè)初級(jí)的大數(shù)據(jù)開發(fā)工程師啦。