#一、數據挖掘的定義
什么是數據挖掘?
- 數據挖掘是一個用數據發現問題、解決問題的學科。
- 通常通過對數據的探索、處理、分析或建模實現。
數據挖掘學習路線
- 大學里并沒有數據挖掘這么一個專業,現有的數據挖掘工程師大都來自工科或統計學等專業。
- 目前的數據挖掘工程師大都來自不同背景,計算機科學、數學甚至是機械工程。要想成功勝任,其訣竅是熱情、好奇心,不斷學習新的工具的能力,以及對數據清洗和分析的耐心。
給新人的建議
- 最重要的三個品質:好奇心、是非觀以及批判性思考。這三個品質,放在其他領域同樣適用。
- 專業領域的三種能力:編程能力、統計基礎、商業思維。編程和統計在大學較為容易學到,商業思維需要多實踐總結。
#二、數據挖掘在做什么
數據挖掘工程師的一天
- 檢查日常報表數據是否異常,尋求數據波動的合理解釋。
- 針對新業務,設計指標,搭建數據模型。
- 搭建商品推薦系統、價格預測系統、文本分類系統或是聊天機器人。
數據挖掘的算法
- 使用復雜的機器學習算法并不能保證效果。一般來講,最好的解決辦法,通常很簡單。
- 生產環境使用簡單的算法,并不意味著要放棄前沿算法。每一套新的方法,其目的都在解決前面的薄弱之處。
數據挖掘與服務器
- 本地PC由于硬件與系統限制,工程師常在服務器進行大規模數據的運算、腳本部署與接口部署。
#三、商業中的數據挖掘
作為公司,該如何開展數據挖掘
- 評估可能的收益與需要的投入
- 開始收集數據
- 招募數據挖掘團隊
招聘數據挖掘團隊
- 好奇心應該是數據挖掘從業者的最重要品質。
- 招聘時,應確保候選人對工作內容感興趣。
- 候選人應具備一定的成果意識。商業更重成果,而不是過程。
數據挖掘應用
- 廣告位點擊預估
- 信用卡風控評估
- 用戶流失干預
#四、數據挖掘工具
數據挖掘工具與大數據
- 掌握以下工具:Python、Linux、Pandas及Jupyter、關系型和非關系型數據庫。
- 大數據通常指傳統數據系統無法處理的數據。體量和增速都相當大。處理工具以Hadoop為代表。
#五、數據挖掘進階
神經網絡和深度學習
- 神經網絡出現已數十年,但由于條件限制,這一方向擱置了數十年。目前隨著新的優化方法的出現和算力的提升,這一方向的工業化逐漸成為可能。
如何更上一層樓
- 掌握基本的編程知識,更多地去理解背后的原理。
- 流程化意識,及時復盤總結,規范流程(復用)。
- 成果導向,將知識轉化為行動和成果,給他人帶來價值,服務更多人。