大數(shù)據(jù)相比較于Java、Python等編程語言來說,確實是入門比較難的,不過如果想自學(xué)也沒毛病,只要你了解大數(shù)據(jù)的學(xué)習(xí)路線圖,跟著學(xué)習(xí)路線圖來學(xué)習(xí),不會走偏,那么,想學(xué)習(xí)還是很容易的哦!
分享給大家一套大數(shù)據(jù)的學(xué)習(xí)路線圖學(xué)習(xí)大數(shù)據(jù),也需要一些編程語言要基礎(chǔ),之后還要學(xué)習(xí)Hadoop、spark等技術(shù)棧,在加上一些項目實戰(zhàn),就可以找工作嘍!
第一階段:零基礎(chǔ)數(shù)據(jù)倉庫管理可掌握的核心能力
?掌握企業(yè)級ETL平臺的kettle
?掌握BI的可視化平臺Superset
?掌握Kettle ETL處理設(shè)計思想
?掌握大數(shù)據(jù)企業(yè)開發(fā)中最常見的linux的操作
?掌握一款主流數(shù)據(jù)庫客戶端工具DataGrip
?掌握企業(yè)MySQL的調(diào)優(yōu)方案
?掌握大數(shù)據(jù)分析中數(shù)據(jù)全量及增量同步解決方案
?掌握生產(chǎn)環(huán)境中數(shù)據(jù)分析程序的部署解決方案
第二階段:Java語言編程可掌握的核心能力
?掌握Java程序基礎(chǔ)數(shù)據(jù)類型
?掌握開發(fā)中常用類如集合、IO流、常用類等操作
?掌握Java異常處理機制
?掌握反射、網(wǎng)絡(luò)編程、多線程開發(fā)
?掌握Jsoup的網(wǎng)絡(luò)爬蟲開發(fā)
?掌握JDBC操作
?掌握ETL數(shù)據(jù)處理和BI報表開發(fā)
第三階段:Hadoop技術(shù)棧可掌握的核心能力
?掌握shell編程
?掌握ZooKeeper原理并應(yīng)用
?掌握HDFS的使用和MapReduce編程
?理解MapReduce原理和調(diào)優(yōu)
?掌握Yarn的原理和調(diào)優(yōu)
?掌握Hive的使用和調(diào)優(yōu)
第四階段:項目一(在線教育)可掌握的核心能力
?掌握從需求、設(shè)計、研發(fā)、測試到落地上線的完整項目流程
?掌握大量教育行業(yè)的真實業(yè)務(wù)邏輯,涉及20多個主題,100多個指標(biāo)
?掌握海量數(shù)據(jù)如何調(diào)優(yōu)、使用拉鏈表、增量數(shù)據(jù)處理,以及Hive函數(shù)的具體應(yīng)用等
?掌握基于CM的大數(shù)據(jù)環(huán)境部署和管理
?掌握數(shù)據(jù)倉庫的核心概念和應(yīng)用
?掌握常用離線大數(shù)據(jù)技術(shù):Oozie、Sqoop、Hive等
?掌握FineReport可視化
第五階段:數(shù)據(jù)微服務(wù)接口開發(fā)可掌握的核心能力
?掌握SpringBoot整合SpringMVC開發(fā)
?掌握SpringBoot整合MyBatis開發(fā)
?掌握Eureka搭建
?掌握Feign的使用
第六階段:實時生態(tài)圈可掌握的核心能力
?掌握Redis原理及架構(gòu)
?掌握Redis命令操作、及數(shù)據(jù)結(jié)構(gòu)
?掌握Hbase原理及架構(gòu)
?掌握HBase命令操作、MapReduce編程
?掌握Phoneix二級索引優(yōu)化查詢
?掌握ELK開發(fā)掌握Kafka原理及架構(gòu)
掌握KafkaStreams開發(fā)
掌握基于Flink進行實時和離線數(shù)據(jù)處理、分析
掌握基于Flink的多流并行處理技術(shù)
掌握千萬級高速實時采集技術(shù)
第七階段:項目二(證券、物聯(lián)網(wǎng)任選其一)可掌握的核心能力
?掌握基于FTP、Flume + Kafka的實時數(shù)據(jù)采集開發(fā)
?掌握TB級海量規(guī)模下Flink實時處理開發(fā),保證實時計算高容錯
?掌握三種不同時間維指標(biāo)的存儲、計算方案(Druid、MySQL、HBase),例如:毫秒級\秒級\分時等時間維
?掌握基于Kylin的即席快速OLAP開發(fā)
?掌握基于Flink CEP的實時預(yù)警監(jiān)控開發(fā)
?掌握基于Spring Boot的數(shù)據(jù)服務(wù)接口開發(fā)
第八階段:Spark技術(shù)棧可掌握的核心能力
?掌握Scala語言基礎(chǔ)、數(shù)據(jù)結(jié)構(gòu)
?掌握Scala語言高階語法特性
?掌握Spark的RDD、DAG、CheckPoint等設(shè)計思想
?掌握SparkSQL結(jié)構(gòu)化數(shù)據(jù)處理,Spark On Hive整合
?掌握Spark Streaming整合Kafka完成實時數(shù)據(jù)處理
?掌握Spark Streaming偏移量管理及Checkpoint
?掌握Structured Streaming整合多數(shù)據(jù)源完成實時數(shù)據(jù)處理
第九階段:項目三可掌握的核心能力
?掌握Docker環(huán)境部署、管理操作
?掌握基于Oracle + MySQL異構(gòu)數(shù)據(jù)源數(shù)據(jù)處理技術(shù)
?掌握基于Oracle Golden Gate以及Canal的實時采集技術(shù)
?掌握Kudu + Spark的快速離線數(shù)據(jù)處理、分析技術(shù)
?掌握Kudu + Impala即席數(shù)據(jù)分析技術(shù)
?掌握基于ClickHouse高性能存儲、計算引擎技術(shù)
?掌握基于ELK的全文檢索技術(shù)
?掌握Kudu、Spark的調(diào)優(yōu)能力
?掌握基于Spring Cloud的數(shù)據(jù)微服務(wù)接口開發(fā)技術(shù)
如果想要學(xué)習(xí),有免費教程,可以私信我哦