第一次工業革命是機械化,第二次電氣化,第三次信息化,第四次智能化。這次的工業革命從規模,從對每個人的生活、對整個社會的影響的廣泛性和深度,都要遠遠大于前幾次。在技術上來講,核心技術是通過數據來觀察世界,通過數據來獲取知識。
站在浪尖上面臨150萬的人才緊缺的大數據。
大數據主要分成三大類:大數據系統研發類、大數據應用開發類、大數據分析類,崗位包括大數據系統架構、大數據開發、大數據系統分析、數據分析、數據挖掘、大數據可視化、數據庫管理、數據遷移等。
據有關媒體報道,目前行業最稀缺的人才:
1、java大數據開發
2、大數據精準營銷
3、大數據分析師(金融企業急需和緊缺的,尤為突出)
4、數據架構師
當下最熱門的崗位兩大類:一類是應用類,另一類是系統類。
應用類
應用類,偏向于數據分析和數據應用,經常說到的數據分析、數據挖掘,就是典型的應用技術。這一類職位,要求采用適當的分析和挖掘方法對數據進行分析,提取數據中隱含的業務信息,來支撐企業決策。
最典型的職位就是:大數據分析師。
主要崗位有:
1、大數據分析師:主要是指,基于業務問題,能夠選擇最合適的數據分析和數據挖掘方法,提取數據中的業務信息,從而支撐業務決策。要求熟悉數據分析/挖掘過程,掌握數據分析/挖掘方法,理解數據分析模型,熟練操作數據分析工具(比如Excel、SPSS、SAS等)。一般對于大數據分析師,其能力要求比較全面,不管是業務邏輯、還是分析方法、模型、可視化,都要求全面掌握。
2、業務數據分析師:側重于商業理解,要求能夠將業務問題和商業問題,轉化為大數據的問題,并將分析結果從業務層面進行解讀,從而形成業務建議和業務策略。要求熟悉業務邏輯和業務模型,掌握數據分析思路,能將數據可視化,對數據解讀等。當然,類似的職位還有大數據觀察員、大數據研究員等等,這些都側重于商業理解。
3、大數據建模/算法師:側重于數據建模,能夠圍繞業務問題,構建合適的數據分析框架和分析模型,將業務問題進行分解,從而達到定性或定量來描述業務的目的。要求熟悉數據建模、模型評估、模型優化、模型應用等等。
4、大數據算法師:側重于數據模型的實現算法研究、設計與實現,為達到分析目的,對實現算法進行分析、選擇與優化,確保實現性能及效果。一般情況下,算法師往往和建模師在一起工作。
系統類
系統類,偏向于系統研發,比如Hadoop系統、云計算,就屬于系統類技術。這一類職位,要求熟悉Hadoop大數據平臺的核心框架和組件,能夠基于大數據平臺來寫代碼開發應用,支撐業務應用。
最典型的職位就是:大數據工程師。
1、大數據開發工程師:負責大數據系統的開發工作,能夠運用編程語言進行應用程序的開發、測試和維護,實現產品功能。要求掌握編程語言,如JAVA、R、Python等等。
2、大數據架構師:負責大數據系統的平臺架構設計、平臺構建。要求熟悉Hadoop/Storm/Spark等平臺,熟悉整個生態系統的組件,有平臺級開發和架構設計能力等等。
3、大數據運維工程師:側重于大數據平臺運維管理,包括系統運維規劃、系統監控、系統優化等等,保障大數據平臺服務的穩定性和可用性。掌握平臺各組件的安裝、配置與調試,有良好的系統性能優化及故障排除能力。
4、大數據庫管理員:側重于數據庫/數據倒倉庫的設計、開發、管理和優化,監控數據庫的性能、故障檢測和排除,包括數據采集,數據庫架構設計,空間和容量規劃,性能優化,數據安全和隱私,數據容錯,等等。
當然,在不同的企業中,職位的名稱和叫法有所不同,或者會衍生出新的職位,但基本的崗位職責是類似的。
1、大數據系統架構師
大數據平臺搭建、系統設計、基礎設施。
技能:計算機體系結構、網絡架構、編程范式、文件系統、分布并行處理等。
年薪百萬百度大數據架構師需要掌握什么技術?
大數據極為龐大。如今每天為我們創造出約2.3萬億GB數據,這意味著數據世界每兩年都將增長一倍。那么,展望即將到來的2018年,大數據領域會出現哪些變化?這些變化又會給我們造成怎樣的影響!
(1)、我們終將利用暗數據;
(2)、結構化與非結構化邊界的消失;
(3)、CDO快速崛起;
(4)、量子計算進入公眾視野。
那么,大數據架構師需要掌握什么技術?
(1)、統計分析
大數定律、抽樣推測規律、秩和檢測、回歸分析、方差分析等
(2)、可視化輔助工具
Excel、PPT、Xmind、Visio
(3)、大數據處理框架
Hadoop、Kaffka、Storm、ELK、Spark
(4)、數據庫
SQlite、MySQL、MongoDB、Redis、Cassandra、HBase
(5)、數據倉庫/商業智能
SSIS數據倉庫、SSASMDX多維數據表Ssrs、DW2.0
(6)、數據挖掘工具
Matlab、SAS、SPSS、R、Python
(7)、人工智能/挖掘算法
機器學習、數據結構一致性、常用算法
(8)、編程語言
Python、R、Ruby、Java
2、大數據系統分析師
面向實際行業領域,利用大數據技術進行數據安全生命周期管理、分析和應用。
技能:人工智能、機器學習、數理統計、矩陣計算、優化方法。
3、大數據開發工程師
圍繞大數據系平臺系統級的研發人員,熟練Hadoop、Spark、Storm等主流大數據平臺的核心框架。深入掌握如何編寫MapReduce的作業及作業流的管理完成對數據的計算,熟練掌握Hadoop整個生態系統的組件如:Yarn,HBase、Hive、Pig等重要組件,能夠實現對平臺監控、輔助運維系統的開發。
通過學習一系列面向開發者的Hadoop、Spark等大數據平臺開發技術,掌握設計開發大數據系統或平臺的工具和技能,能夠從事分布式計算框架如Hadoop、Spark群集環境的部署、開發和管理工作,如性能改進、功能擴展、故障分析等。
4、數據分析師
不同行業中,專門從事行業數據搜集、整理、分析,并依據數據做出行業研究、評估和預測的專業人員。在工作中通過運用工具,提取、分析、呈現數據,實現數據的商業意義。
作為一名數據分析師,至少需要熟練SPSS、STATISTIC、Eviews、SAS、大數據魔鏡等數據分析軟件中的一門,至少能用Acess等進行數據庫開發,至少掌握一門數學軟件如matalab、mathmatics進行新模型的構建,至少掌握一門編程語言。總之,一個優秀的數據分析師,應該業務、管理、分析、工具、設計都不落下。
5、數據挖掘工程師
做數據挖掘要從海量數據中發現規律,這就需要一定的數學知識,最基本的比如線性代數、高等代數、凸優化、概率論等。經常會用到的語言包括Python、Java、C或者C++,我自己用Python或者Java比較多。有時用MapReduce寫程序,再用Hadoop或者Hyp來處理數據,如果用Python的話會和Spark相結合。
6、大數據實施工程師:能熟練架設數據庫.大數據分析生態系統,通過Hive編寫常見的MapReduce程序。
7、用戶交互技術工程師
大數據所提供的用戶交互方式主要有五種類型,分別是統計分析和數據挖掘、任意查詢和分析、立方體分析、企業報表、報表分發和預警,它們在交互程度和用戶群類型及規模上各有差異。
8、大數據可視化工程師
隨著大數據在人們工作及日常生活中的應用,大數據可視化也改變著人類的對信息的閱讀和理解方式。從百度遷徙到谷歌流感趨勢,再到阿里云推出縣域經濟可視化產品,大數據技術和大數據可視化都是幕后的英雄。
9、大數據采集與管理師
大數據浪潮,洶涌來襲,與互聯網的發明一樣,這絕不僅僅是信息技術領域的革命,更是在全球范圍加速企業創新、引領社會變革的利器。現代關系學之父德魯克有言,預測未來最好的方法,就是去創造未來。而“大數據戰略”,則是當下領航全球的先機。“大數據”(BigData)指一般的軟件工具難以捕捉、管理和分析的大容量數據。“大數據”之“大”,并不僅僅在于“容量之大”,更大的意義在于:通過對海量數據的交換、整合和分析,發現新的知識,創造新的價值,帶來“大知識”、“大科技”、“大利潤”和“大發展”。“大數據”能幫助企業找到一個個難題的答案,給企業帶來前所未有的商業價值與機會。大數據同時也給企業的IT系統提出了巨大的挑戰。通過不同行業的“大數據”應用狀況,我們能夠看到企業如何使用大數據和云計算技術,解決他們的難題,靈活、快速、高效地響應瞬息萬變的市場需求。
10、數據安全師
從事數據安全的系統管理與監測工作,數據安全在大數據行業極為重要,因此數據安全師的地位遠遠高于線下生活中保安的地位。
11、數據營銷師
大家一看不算很新,但是實際上這個職位與過去的營銷崗位除了有相近的傳播、推廣、溝通說服與信息匯集的功能以外,在今天的數據營銷師會遇到的最大問題是客戶提出了問題,而這個問題或者需求是原來的大數據產品或者技術不能完全解決的,因此營銷過程帶有較強的探索性溝通與尋求合作研發的特性。
同時,數據營銷師往往需要一定的架構能力,而且能夠理解數據架構的邏輯,從而能夠創造性地推廣前沿性的數據產品與服務。
12、數據科學家
數據科學家是指能采用科學方法、運用數據挖掘工具對復雜多量的數字、符號、文字、網址、音頻或視頻等信息進行數字化重現與認識,并能尋找新的數據洞察的工程師或專家(不同于統計學家或分析師)。一個優秀的數據科學家需要具備的素質有:懂數據采集、懂數學算法、懂數學軟件、懂數據分析、懂預測分析、懂市場應用、懂決策分析等。
13、大數據分析架構師
梳理業務數據的來源、定義、邏輯,根據多樣化的業務需求制定、優化報表;l理解并分析相關產品和制造流程現狀,根據業務需求分析挖掘數據規律、趨勢、關注點,為產品制造業務提供決策支持;l基于海量數據,通過機器學習和AI的方法,為個人電腦和手機產品制造業務提供個性化服務,提升制造效率和質量;l負責相應安全AI模型設計,研發適合在業務中使用的模型、算法和工具,以支持數據分析需求和模擬預測業務場景。l結合業務層面數字化項目,開發系統數據接口及建立分析預判機制,實現數據定制可視化、預警、模擬、決策輔助。
14、大數據解決方案架構師
負責大數據業務的售前技術支持,能獨立進行售前工作,包括并不限于客戶需求調研、解決方案編制和技術交流;
對競爭產品和方案進行競爭分析和對比,對市場競爭形勢進行總結;
配合銷售團隊培訓代理商合作伙伴,并提供相關培訓和技術支持;
分析、撰寫和總結公司產品的行業應用方案。
不同的平臺對應不同的職位
1、數據平臺
DataPlatform,構建、維護穩定、安全的大數據平臺,按需設計大數據架構,調研選型大數據技術產品、方案,實施部署上線。對于大數據領域涉及到的大多數技術都要有所了解,并精通某一部分,具備分布式系統的知識背景;
對應職位:大數據架構師,數據平臺工程師
2、數據采集
DataCollecting,從Web/Sensor/RDBMS等渠道獲取數據,為大數據平臺提供數據來源,如ApacheNutch是開源的分布式數據采集組件,大家熟知的Python爬蟲框架ScraPy等。
對應職位:爬蟲工程師,數據采集工程師
3、數據倉庫
DataWarehouse,有點類似于傳統的數據倉庫工作內容:設計數所倉庫層級結構、ETL、進行數據建模,但基于的平臺不一樣,在大數據時代,數據倉庫大多基于大數據技術實現,例如Hive就是基于Hadoop的數據倉庫。
對應職位:ETL工程師,數據倉庫工程師
3、數據處理
DataProcessing,完成某些特定需求中的處理或數據清洗,在小團隊中是結合在數據倉庫中一起做的,以前做ETL或許是利用工具直接配置處理一些過濾項,寫代碼部分會比較少,如今在大數據平臺上做數據處理可以利用更多的代碼方式做更多樣化的處理,所需技術有Hive、Hadoop、Spark等。隨便說下,千萬不要小看數據處理,后續的數據分析、數據挖掘等工作都是基于數據處理的質量,可以說數據處理在整個流程中有特別重要的位置。
對應職位:Hadoop工程師,Spark工程師
5、數據分析
DataAnalysis,基于統計分析方法做數據分析:例如回歸分析、方差分析等;大數據分析例如Ad-Hoc交互式分析,SQLonHadoop的技術有:Hive、Impala、Presto、SparkSQL,支持OLAP的技術有:Kylin;
對應職位:數據分析師
6、數據挖掘
DataMining,是一個比較寬泛的概念,可以直接理解為從大量數據中發現有用的信息。大數據中的數據挖掘,主要是設計并在大數據平臺上實現數據挖掘算法:分類算法、聚類算法、關聯分析等。
對應職位:數據挖掘工程師
7、機器學習
MachineLearning,與數據挖掘經常一起討論,甚至被認為是同一事物。機器學習是一個計算機與統計學交叉的學科,基本目標是學習一個x->y的函數(映射),來做分類或者回歸的工作。之所以經常和數據挖掘合在一起講是因為現在好多數據挖掘的工作是通過機器學習提供的算法工具實現的,例如個性化推薦,是通過機器學習的一些算法分析平臺上的各種購買,瀏覽和收藏日志,得到一個推薦模型,來預測你喜歡的商品。
對應職位:算法工程師,研究員
8、深度學習
DeepLearning,是機器學習里面的一個topic(非常火的Topic),從深度學習的內容來看其本身是神經網絡算法的衍生,在圖像、語音、自然語言等分類和識別上取得了非常好的效果,大部分的工作是在調參。不知道大家有否發現現在的Google翻譯比以前的要準確很多,因為Google在去年底將其Google翻譯的核心從原來基于統計的方法換成了基于神經網絡的方法;
對應職位:算法工程師,研究員
9、數據可視化
DataVisualization,將分析、挖掘后的高價值數據用比較優美、靈活的方式展現在老板、客戶、用戶面前,更多的是一些前端的東西,也可能要求有一定的美學知識。結合使用者的喜好,以最恰當的方式呈現數據價值;
對應職位:數據工程師,BI工程師
10、數據應用
DataApplication,從以上的每個部分可以衍生出的應用,例如廣告精準投放、個性化推薦、用戶畫像等。
對應職位:數據工程師
從數據科學家到數據架構師,大數據職場中的核心新崗位
任何新行業興起的時候必然伴隨著行業的深化與細化,伴隨著新職業崗位的生長,大數據行業也不例外。大家都說大數據,很多人甚至省略掉了數據,其實我們今天很多朋友做的最多算數據行業,還遠不是大數據行業,因為還沒有做數據源的整合、不同結構數據源的清理與對接、數據的貫通分析與實時共享;即使已經是大數據行業,那么屬于大數據硬件行業(如制造、銷售、管理大數據服務器)還是軟件行業(開發大數據管理系統、數據內容的軟件化整合與開發應用)也是不一樣的;就算同是大數據軟件行業,那么是屬于數據庫管理與運行維護,還是屬于數據應用就是差異行業;同樣是數據應用行業,數據資源的轉移應用與精準匹配應用,與基于深度分析的決策應用,也是深度細分的差異行業;在大數據決策應用行業中,基于大數據分析的人工應用模式與基于大數據智能的自動化應用模式,可以看成不同的技術含量的精度細分行業。零點有數就是屬于最后這個類別的大數據智能應用服務機構。
而在這樣的行業中,我們會看到不少新興的職業崗位興起,其中不少人已經對數據科學家這一說法有認識,他們往往是數據模型或者說算法的設計者,也是復雜算法的修正優化與管理者;數據營銷師,大家一看不算很新,但是實際上這個職位與過去的營銷崗位除了有相近的傳播、推廣、溝通說服與信息匯集的功能以外,在今天的數據營銷師會遇到的最大問題是客戶提出了問題,而這個問題或者需求是原來的大數據產品或者技術不能完全解決的,因此營銷過程帶有較強的探索性溝通與尋求合作研發的特性;數據工程師是與數據科學家合作實施具體的數據管理與開發工作的技術白領,今天絕大部分數據工程師是邊干邊學,一般他們往往是學習計算機或者數據科學出身的初級專業人員;數據挖掘師,在海量數據中從事數據分類、清洗、標簽與檢核工作;數據安全師,從事數據安全的系統管理與監測工作,數據安全在大數據行業極為重要,因此數據安全師的地位遠遠高于線下生活中保安的地位。在所有這些崗位以外,有一個崗位往往是很少為人提及,但實際上至為重要的,那就是數據架構師。數據架構師需要判斷在某一領域、行業的基本趨勢與特點,熟悉開放式關鍵中的最佳標桿與前沿和典型做法,對于半封閉與體系內需要具備敏銳與犀利的洞察能力,由此而能來定義數據應用任務或者項目的目標與疆界、核心工作內容與指標、路線圖與時間表,其中涉及到在多大意義上要體現本任務與宏觀需要的契合、與周圍可能有的其他關聯系統的對接口、要素保障與條件保障、危機測定與安全管理機制。架構師需要將總體目標、要素關系、推進步驟能夠在合理構設中藍圖化與實現優化整合。與設計師不同的是,架構師不只是藍圖設計者,也是藍圖可行性的負責人與推進者、協調者。
盡管我們在前面描述大數據行業的時候有一種介紹序列,其實在實際的大數據應用中,我們可以反過來看我們的大數據需要,然后設定我們在大數據應用、軟硬件建設中的需要,這也是數據架構師所可能設計的工作內容。而我們所說的數據科學家,在一定程度上是鏈接與細化數據架構師工作的,而數據營銷師往往需要一定的架構能力,而且能夠理解數據架構的邏輯,從而能夠創造性地推廣前沿性的數據產品與服務。如果我能夠大致提出一個典型大數據智能服務機構中這幾類崗位的人員比例,那么它們大致是:數據架構師:數據營銷師:數據科學家:數據工程師:數據挖掘師:數據安全師=1:2:3:30:60:5。而從人才市場的供應來說,實際上越是后面的崗位越是可以依靠專業機構培訓的,越是前面的人才往往是在一定專業基礎上在實際工作涌現的具有特殊技能的營運人才而需要數據機構領導人去留心發現。
由于國內高校2016年開始開設大數據本科專業,目前還沒有畢業生流向市場,造成人才嚴重短缺,所以大數據人才待遇較高。
初級崗位(3—5年):15000—25000月/元;
中級崗位(5—10年):25000—35000月/元;
高級崗位(10年以上):40—100萬/年。
如大數據系統架構師、大數據分析架構師、數據科學家等。
總之,選擇大數據專業,從事大數據工作,待遇高,前景好!