python還是c語言?
非計算機系學習大數據的路徑如下:
Python or C?如果非要從這里面選一個學習大數據,肯定是Python。Python良好的數據處理環境和近幾年跟著人工智能的潮流出現了很多相適應的工具包,如numpy、pandas、sklearn和tensorflow等。C語言也是一門史詩級的語言,如果入門Python后有余力學習我很建議再把C家族語言看一下。
數理統計知識學習數據方面必要要有一定的數理統計知識,如果大學有學習足夠的數學課程那么足夠了,也可以去可汗學院參考以下課程去復習這些知識點:
概率和統計視頻課;
線性代數視頻課;
概率和統計視頻課。
大數據工具Hadoop:
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構,工業上大數據熱門的工具之一。其中最核心的設計就是HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。
對于大數據的學習,我推薦阿里云的一篇文章,頭條似乎不能放鏈接,請自行搜索關鍵詞:Hadoop學習資源集合-博客-云棲社區-阿里云。
其他相關資源:
《十節課帶你走進hadoop世界》
《Hadoop從入門上手工作》
《hadoop之DataGuru視頻》
《Hadoop數據分析》
《云計算hadoop實戰視頻》
《Cloudera Hadoop課程培訓》
《大數據戰略規劃班》
Spark:Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。
學習資料自行搜索:
Spark官方文檔-快速入門
Spark官方文檔-Spark編程指南
相關資源:
《Spark大數據處理 技術、應用與性能優化 高彥杰》
《深入理解Spark核心思想與源碼分析 耿嘉安》
深度學習深度學習是近年來熱門的概念之一,源于人工神經網絡的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發現數據的分布式特征表示。
這里我只推薦一本書,MIT的《深度學習》,這本書已經能夠全面地介紹深度學習的方方面面且被不少人奉為“圣經”。
其他對于非科班來學習大數據,可能剛開始一上手會較難入門,俗話說:萬事開頭難。聽聽別人的建議后,先行動,后思考,軟件工程是一門實踐學科。
如果你對學習人工智能和深度學習感興趣,你可以訂閱我的頭條號,我會在這里發布所有與算法、機器學習以及深度學習有關的有趣文章。