數據科學家最需要什么技能?
Jeff Hale在TowardsDataScience發文整理了多個求職網站的信息,對雇主最希望數據科學家具備的技能進行了分析,并提供了一些建議。
數據科學家需要涉獵很多——機器學習、計算機科學、統計學、數學、數據可視化、通信和深度學習。這些領域中有幾十種語言、框架和技術可供數據科學家學習。那么要想成為雇主需要的數據科學家,他們應該如何安排學習內容呢?
我搜索了招聘網站,想找到數據科學家最需要的技能。我分別研究了通用的數據科學技能和特定的語言、工具。2018 年 10 月 10 日,我在 LinkedIn、Indeed、SimplyHired、Monster 和 AngelList 上搜索了招聘信息。下表展示了每個網站列出的數據科學家職位數量。
我讀了許多招聘要求和調查,以找到最常用的技能。像「管理」這樣的詞會在不同背景的招聘信息中不斷提及,因此不列入比較范圍。
所有的搜索都是以「數據科學家」「[關鍵字]」格式展開的。使用精確匹配搜索雖然減少了搜索結果的數量,但確保了結果與數據科學家的職位相關,且對所有搜索關鍵詞產生類似的影響。
AngelList 提供的是具備數據科學家職位需求的公司數量,而不是職位數量。所以 AngelList 被排除在這兩種分析之外,因為它的搜索算法是一種「OR」的邏輯搜索,無法變為「AND」。如果你搜索「數據科學家」「TensorFlow」這類只會在數據科學家職位上找到的詞,AngelList 表現得很好。但如果關鍵詞是「數據科學家」「react.js」,搜索結果中會出現太多不具備數據科學家職位需求的公司。
Glassdoor 也不在分析范圍之內。該網站表示,在美國有 26263 個「數據科學家」職位,但它顯示的職位數據不超過 900 個。此外,Glassdoor 上的數據科學家職位數量也不太可能是任何其他主流平臺的三倍。
最終使用 LinkedIn 上的 400 多個職位信息用于對通用技能的分析,200 多個職位信息用于對特定技能的分析。當然有一些職位可能重復用于兩種分析。結果記錄在 Google 表格中(https://docs.google.com/spreadsheets/d/1df7QTgdAOItQJadLoMHlIZH3AsQ2j2_yoyvHOpsy9qU/edit?usp=sharing)。
我下載了 .csv 文件并將它們導入 JupyterLab。然后計算出事件發生的百分比,并針對招聘網站的數量進行平均運算。
我還將運算結果與 2017 年上半年 Glassdoor 對數據科學家職位要求的研究進行了比較。結合KDNuggets 的調查信息來看,有些技能變得越來越重要,有一些則變得無足輕重。我稍后會談到這些。
有關交互式圖表和其他分析,請參閱我的 Kaggle Kernel(https://www.kaggle.com/discdiver/the-most-in-demand-skills-for-data-scientists/)。我利用 Plotly 做了可視化。截至本文寫作時,使用 Plotly 與 JupyterLab 會有些爭議,在 Kaggle Kernel 末尾和 Plotly 文檔會有說明。
通用技能以下是雇主最希望數據科學家具備的通用技能。
結果表明,分析和機器學習是數據科學家工作的核心。洞察數據是數據科學的一項基本功能。機器學習就是創造能夠預測性能的系統,這在現在是非常需要的。
數據科學需要統計和計算機科學技能。統計學、計算機科學和數學都是大學課程,這可能是這幾個詞出現頻率高的原因。
有趣的是,幾乎一半的職位要求中都提到了「溝通」。數據科學家需要具備與他人交流和合作的能力。
人工智能和深度學習并不像其他詞出現地那么頻繁,雖然它們是機器學習的子集。深度學習被用于越來越多的機器學習任務,取代了曾經的算法。例如,現在針對大多數自然語言處理問題的最佳機器學習算法是深度學習算法。我預計未來人們將更明確地追尋深度學習技能,機器學習與深度學習的意義將更加接近。
雇主希望數據科學家使用哪些特定的軟件工具呢?下面我們來解決這個問題。
技術技能下表是雇主希望數據科學家必備的前 20 種特定語言、庫和技術工具。
我們簡單看看最普遍的技術技能。
Python 是最受歡迎的語言。這個開源語言已經廣為流行了,它對初學者十分友好,有許多支持資源。絕大多數新的數據科學工具都與之兼容。Python 是數據科學家的主要語言。
R 和 Python 很接近。它曾經是數據科學的主要語言,目前它的需求量仍然很大。這種開源語言的基礎是統計學,所以它仍然很受統計學家的歡迎。
對于每個數據科學家來說,Python 或 R 語言是必不可少的。
SQL 也很受歡迎。SQL 表示結構化查詢語言(Structured Query Language),是與關系數據庫交互的主要方式。在數據科學領域,SQL 有時會被低估,但如果你打算進入職場,這是一塊很有價值的「敲門磚」。
接下來是 Hadoop 和 Spark,這兩款開源工具都來自 Apache,面向大數據。
Apache Hadoop 是一個開源軟件平臺,利用商用硬件計算機集群進行分布式存儲和分布式處理。
Apache Spark 是一個基于內存的快速數據處理引擎,具有簡明而富有表達性的開發 API,允許數據工作人員高效地執行流、機器學習或 SQL 工作,這些工作負載需要對數據集進行快速迭代訪問。
這些工具的教程和 Medium 網站文章遠遠低于其他工具。我認為具備這些技能的求職者比會 Python、R 和 SQL 的少得多。如果你具備使用 Hadoop 和 Spark 的經驗,那么你在競爭中會獲得優勢。
然后是 Java 和 SAS。我很吃驚這些語言排名會這么高。這兩種語言背后都有大公司支持,而且至少有一些免費產品。但在數據科學社區中,Java 和 SAS 通常很少受到關注。
接下來是 Tableau。這個分析平臺和可視化工具功能強大、易于使用,并且越來越流行。它有一個免費的公開版本,但是如果想保證數據的隱私性,需要付費。
如果不熟悉 Tableau,那么在在線教育網站上學習速成課程是很值得考慮的,比如 https://www.udemy.com/tableau10/。
下表更完整地展示了需求最多的語言、框架和其他數據科學軟件工具。
前后對比GlassDoor 曾分析了 2017 年 1 月至 7 月數據科學家最常用的 10 種軟件技能。以下是 GlassDoor 網站上出現這些詞匯的頻率與 LinkedIn、SimplyHired 和 Monster 在 2018 年 10 月的平均頻率的對比。
結果相當一致。我的分析和 GlassDoor 的研究結果都顯示 Python、R 和 SQL 是最受雇主歡迎的語言。top 9 技術技能也基本一致,只是順序略有不同。
結果表明,與 2017 年上半年相比,R、Hadoop、Java、SAS、MatLab 的需求有所減少,Tableau 的需求有所增加。以 KDnuggets developer survey 的調查結果作為補充,這一結果在我預期之中。KDnuggets 調查顯示,R、Hadoop、Java 和 SAS 都有明顯下降趨勢,Tableau 呈現明顯上升趨勢。
建議根據這些分析的結果,我將向現在和以后有志于從事數據科學工作的人提供一些通用建議,關于如何使自己被市場廣泛接受。
證明你可以做數據分析,并專注于真正熟練地掌握機器學習。
鍛煉溝通技巧。推薦閱讀《Make to Stick》一書,它幫助你產生更具影響力的想法。也可以通過 Hemmingway Editor 來提高寫作水平。
掌握深度學習框架。精通深度學習框架在精通機器學習中的占比越來越大。有關深度學習框架在使用、熱點和流行度方面的比較,請參閱文章:2018 年最熱門的深度學習框架?這份科學的排行榜可以告訴你。
如果你在學習 Python 和 R 之間猶豫,選擇 Python。如果你對 Python 不感冒了,就考慮學習 R,如果你對 R 語言也有所了解,你肯定會更有市場。
當雇主在尋找具有 Python 技能的數據科學家時,他們也期望應聘者了解常用的 Python 數據科學庫:numpy、panda、scikit-learn 和 matplotlib。如果你想學習這組工具,可利用以下資源:
DataCamp 和 DataQuest:它們都是價格合理的在線 SaaS 數據科學教育產品,你可以一邊編程一邊學習。它們會教授一些技術工具。
Data School 有各類資源,包括解釋數據科學概念的一系列優質 YouTube 視頻。
Wes McKinney 的著作《Python for Data Analysis》。這本書由 pandas 庫的主要作者所著,主要關注 pandas,也討論了數據科學中基本的 python、numpy 和 scikit-learn 功能。
Andreas Müller 和 Sarah Guido 的著作《Introduction to Machine Leaning with Python》。Müller 是 scikit-learn 的主要維護人員。這是一本利用 scikit-learn 學習機器學習的好書。
如果你想開始深度學習,我建議先從 Keras 或 fastai 開始,然后再轉向 TensorFlow 或 PyTorch。Francois Chollet 的《Deep Learning with Python》是學習 Keras 的很好的資源。
此外,我建議你了解興趣所在,盡管在決定分配學習時間時要考慮很多因素。
如果你正在找工作或在求職網站上發布職位空缺,關鍵詞很重要。在每個網站上,「數據科學」返回的結果幾乎是「數據科學家」結果的三倍。如果你要找的是數據科學家的工作,你最好還是搜索「數據科學家」。
建議制作一個在線作品集,盡可能展示你對這些必備技能的熟練程度。我還建議通過 LinkedIn 個人資料展示你的技能。
希望本文對大家有所幫助。