這些是數據分析師關注的焦點問題
1獲取數據
首先確定數據源是什么、在哪里、獲取方法及權限等;數據源是個相對概念,有深淺之分,最深層次的根源數據源一般都是源自業務實踐產生,比如產品APP埋點技術獲取用戶PV/UV類線上流量數據明細,比如手工采集實際業務運作過程中產生的線下數據(比如登記表等)...這些都是最深層次的數據源,根據實際需要將這些數據進行一層層加工(格式優化、內容增減、數據聚合簡化標準化等)后形成靠上層的新數據源
然后根據獲取數據源流程進行實際操作;公司內部大數據離線和實時系統數據源是公司最高級機密數據源,必須經過公司授權才能獲取,公司對外數據源可以通過公司發布的正規渠道獲取(官網、指定途徑等)。有些技術高手總想通過爬蟲技術鉆法律空子爬取別家公司的機密數據,這類操作是高風險、不可取的
最后將寶貴數據合理存儲起來,一般數據源復用性都很強,要養成及時合理保存、存儲的好習慣
2分析數據
拿到數據源后先進行清晰,然后才能根據實際業務需要進行分析,分析要有目標、或者帶著問題去分析。
一是少量(不必使用大數據處理技術的)數據的統計分析,運用本地常用辦公軟件(比如offive等)、本地常用統計分析軟件(Python/R/SP等SS)就能處理,涉及統計學、高數、概率論等基礎數學計算知識
二是大規模數據的數據挖掘,由于數據規模很大導致本地軟件處理不了、只能借助大數據處理技術進行分析,此類分析將運用高階數學、AI算法等方法
3應用數據
將數據分析結果進行歸納提煉形成可行性的指導建議,應用在實際業務生產中,促進業務向前發展
4注意事項
數據源獲取分2類,1類是直接獲取(非技術人員不用寫代碼即可獲取,比如從實時系統查詢、下載、導出到本地)2是代碼提取(需專業開發人員進行代碼開發、運行后獲取)。
數據源是數據分析階段的輸入、應用數據優化建議是數據分析階段的輸出,分析不是目的、分析是獲取有指導業務發展類優化建議的必經途徑/方法