爬蟲實(shí)際上是數(shù)據(jù)獲取的捷徑,如果想要學(xué)習(xí)數(shù)據(jù)分析,首先還是需要了解數(shù)據(jù)分析的過程。這里簡(jiǎn)單說一下數(shù)據(jù)分析的過程并告訴每個(gè)部分需要掌握的知識(shí)。
1.定義問題
確定需要的問題,以及想得出的結(jié)論。需要考慮的選項(xiàng)有很多,要根據(jù)所在業(yè)務(wù)去判斷。常見的有:變化趨勢(shì)、用戶畫像、影響因素、歷史數(shù)據(jù)等等。
- 《數(shù)據(jù)之美》:這一本書里面沒有什么干貨,但有很多案例,可以通過里面的案例來了解數(shù)據(jù)分析的基本過程。不是很厚,
但里面的數(shù)據(jù)分析思想非常值得學(xué)習(xí),畢竟ideal才是最重要的。
2.數(shù)據(jù)獲取
數(shù)據(jù)獲取的方式有很多種。一是可以直接從企業(yè)數(shù)據(jù)庫(kù)調(diào)取,這時(shí)候就需要SQL技能去完成數(shù)據(jù)提取等的數(shù)據(jù)庫(kù)管理工作。二是獲取公開數(shù)據(jù),可以從政府、企業(yè)、統(tǒng)計(jì)局等機(jī)構(gòu)去下載公開數(shù)據(jù)。三是通過Python編寫網(wǎng)頁爬蟲,收集互聯(lián)網(wǎng)的數(shù)據(jù)。
- SQL是用于訪問和處理數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)的計(jì)算機(jī)語言。需要掌握到如何使用SQL訪問和處理數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)。SQL在公司的應(yīng)用多,可以說是必須掌握的。
- 這里我推薦一個(gè)SQL的教程:
http://www.w3school.com.cn/sql/
3.數(shù)據(jù)預(yù)處理
因?yàn)樵紨?shù)據(jù)可能會(huì)有很多問題比如殘缺、重復(fù)、無效的數(shù)據(jù),所以數(shù)據(jù)預(yù)處理主要是對(duì)異常數(shù)據(jù)進(jìn)行清洗,以便更加準(zhǔn)確的分出分析結(jié)果。而我最經(jīng)常做的就是設(shè)定一些篩選規(guī)則把異常數(shù)據(jù)剔除掉,以及將缺失值用平均值或者線性函數(shù)估計(jì)進(jìn)行填補(bǔ)。
- 這里比較多涉及的就是統(tǒng)計(jì)學(xué)的知識(shí)了,剛?cè)腴T不建議把統(tǒng)計(jì)學(xué)翻個(gè)底朝天的學(xué)習(xí),不然就會(huì)覺得很吃力。所以建議暫時(shí)先掌握一些基本的預(yù)處理。
- 推薦:
《深入淺出統(tǒng)計(jì)學(xué)》,這本書可以說是非常適合入門了,如果對(duì)統(tǒng)計(jì)學(xué)一點(diǎn)了解都沒有或者都忘得差不多了,可以從他入手。如果大學(xué)時(shí)數(shù)學(xué)就特別好,就不推薦這本書。
4.數(shù)據(jù)分析與建模
這個(gè)部分學(xué)起來可能會(huì)覺得很抽象,因?yàn)槟P褪菍?duì)現(xiàn)實(shí)世界特征的模擬和抽象。在這個(gè)部分需要了解基本的統(tǒng)計(jì)分析方法、數(shù)據(jù)挖掘算法,了解不同統(tǒng)計(jì)方法適用的場(chǎng)景和適合的問題。而數(shù)據(jù)挖掘的算法、特征提取可以用來優(yōu)化自己的模型,獲得更好的結(jié)果。
- 這個(gè)部分涉及的知識(shí)就比較復(fù)雜,這是一個(gè)建立數(shù)據(jù)模型的過程,內(nèi)容包括數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)操作、數(shù)據(jù)約束。還要學(xué)習(xí)的是數(shù)據(jù)挖掘和算法,需要很好的數(shù)學(xué)基礎(chǔ)。
5.數(shù)據(jù)可視化和分析報(bào)告撰寫
數(shù)據(jù)可視化,學(xué)習(xí)一款可視化工具,將數(shù)據(jù)通過可視化最直觀的展現(xiàn)出來。也可以進(jìn)一步深入探究其內(nèi)部的關(guān)系,通過建模和分析,來對(duì)未來的情況有更精準(zhǔn)的預(yù)測(cè)。
數(shù)據(jù)可視化的方法有很多,常見的有用SPSS、R語言來進(jìn)行可視化,如果編程能力有限也可以選擇一款喜歡的可視化軟件。這里我推薦一個(gè)Tableau,原因當(dāng)然是簡(jiǎn)單易用還附帶免費(fèi)教程。