華為大數據開發項目流程?
大數據開發步驟:
第一步:需求:數據的輸入和數據的產出;
第二步:數據量、處理效率、可靠性、可維護性、簡潔性;
第三步:數據建模;
第四步:架構設計:數據怎么進來,輸出怎么展示,最最重要的是處理流出數據的架構;
第五步:再次思考大數據系統和企業IT系統的交互;
第六步:最終確定選擇、規范等;
第七步:基于數據建模寫基礎服務代碼;
第八步:正式編寫第一個模塊;
第九步:實現其它的模塊,并完成測試和調試等;
第十步:測試和驗收;
大數據流程:
從流程角度上看,整個大數據處理可分成4個主要步驟。
第一步是數據的搜集與存儲;
第二步是通過數據分析技術對數據進行探索性研究,包括無關數據的剔除,即數據清洗,與尋找數據的模式探索數據的價值所在;
第三步為在基本數據分析的基礎上,選擇和開發數據分析算法,對數據進行建模。從數據中提取有價值的信息,這其實是真正的阿里云大數據的學習過程。這當中會涉及很多算法和技術,比如機器學習算法等;
最后一步是對模型的部署和應用,即把研究出來的模型應用到生產環境之中。
1) 數據采集:定制開發采集程序,或使用開源框架flume
2) 數據預處理:定制開發mapreduce程序運行于hadoop集群
3) 數據倉庫技術:基于hadoop之上的Hive
4) 數據導出:基于hadoop的sqoop數據導入導出工具
5) 數據可視化:定制開發web程序或使用kettle等產品