此時一位碼農路過,并留下了自己的見解。
大數據應用工程師,顧名思義,就是搞大數據的,也就是在巨大的數據量面前進行數據處理,然后篩選出有用的東西。數據工程師日常都是按照幾個步驟來處理數據的,從數據上游到數據下游,大致可以分為:數據采集->數據清洗->數據存儲->數據分析統計->數據可視化等幾個方面。具體如下:
- 數據采集。在公司一些應用中,多多少少都會在一些關鍵的地方進行數據買點,記錄下日志。然而大多數時候這些日志都是分散的,所以需要使用工具來把這些分散的數據聚合起來。
- 數據清洗。原始記錄下來的數據都是千奇百怪的,對于這樣的數據來說,其實還不可用,所以要對數據進行清洗。一些字段可能會有異常取值,即臟數據。為了保證數據下游的"數據分析統計"能拿到比較高質量的數據,需要對這些記錄進行過濾;而有些字段是多余的,為了后續的數據存儲節省開銷,需要把這些冗余的字段刪除掉;還有一些日志的字段信息可能包含用戶敏感信息,需要做脫敏處理。
- 數據存儲。清洗后的干凈數據就需要存儲到數據倉庫中。具體使用哪種數據存儲引擎,就需要看下游取數據的時候對數據實時性的要求。如果實時性要求比較高的話,一般會使用kafka進行數據存儲。
- 數據分析統計。這方面的工作也要部分公司管其叫BI,通過去數據存儲引擎那里取出數據,對數據進行各方面的統計和分析或者是做成報表。
- 數據可視化。也就是把搜集的數據進行可視化處理,根據不同要求,可視化的圖形也不盡相同。最后根據這些可視化的數據,進行下一步的決策。
以上便是大數據工程師的日常工作。