數據分析師與大數據分析師所做工作有什么區別?
很多初學者,對大數據分析的概念都是模糊不清的,大數據分析是什么,能做什么,學的時候,該按照什么線路去學習,學完往哪方面發展,很多人對于大數據分析師的印象就是坐在辦公室對著電腦噼里啪啦的敲鍵盤,跟程序員差不多,這種想法是錯誤的,其實大數據分析師是一個很高大上的職業,大數據分析師通過獲取必要的數據,分析這些數據,然后從數據中發現一些問題提出自己的想法,這就是一個大數據分析師的基本工作內容。
大數據工程師工作內容取決于你工作在數據流的哪一個環節。從數據上游到數據下游,大致可以分為:
數據采集 -> 數據清洗 -> 數據存儲 -> 數據分析統計 -> 數據可視化 等幾個方面
大數據分析工作內容當然就是使用工具組件(Spark、Flume、Kafka等)或者代碼(Java、Scala等)來實現上面幾個方面的功能。具體說說如下:
一、數據采集
業務系統的埋點代碼時刻會產生一些分散的原始日志,可以用Flume監控接收這些分散的日志,實現分散日志的聚合,即采集。
二、數據清洗
原始的日志,數據是千奇百怪的
一些字段可能會有異常取值,即臟數據。為了保證數據下游的"數據分析統計"能拿到比較高質量的數據,需要對這些記錄進行過濾或者字段數據回填。
一些日志的字段信息可能是多余的,下游不需要使用到這些字段做分析,同時也為了節省存儲開銷,需要刪除這些多余的字段信息。
一些日志的字段信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用'*'字符替換。
三、數據存儲
清洗后的數據可以落地入到數據倉庫(Hive),供下游做離線分析。如果下游的"數據分析統計"對實時性要求比較高,則可以把日志記錄入到kafka。
四、大數據分析統計
大數據分析是數據流的下游,消費來自上游的數據。其實就是從日志記錄里頭統計出各種各樣的報表數據,簡單的報表統計可以用sql在kylin或者hive統計,復雜的報表就需要在代碼層面用Spark、Storm做統計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。
五、數據可視化
用數據表格、數據圖等直觀的形式展示上游"大數據分析統計"的數據。一般公司的某些決策會參考這些圖表里頭的數據。當然,大數據平臺(如CDH、FusionInsight等)搭建與維護,也可能是大數據工程師工作內容的一部分。
大數據分析師工作的流程簡單分為兩部分,第一部分就是獲取數據,第二部分就是對數據進行處理。那么怎么獲得數據呢?首先,我們要知道,獲取相關的數據,是數據分析的前提。每個企業,都有自己的一套存儲機制。因此,基礎的SQL語言是必須的。具備基本SQL基礎,再學習下其中細節的語法,基本就可以到很多數據了。當每個需求明確以后,都要根據需要,把相關的數據獲取到,做基礎數據。
獲得了數據以后,才能夠進行數據處理工作。獲取數據,把數據處理成自己想要的東西,是一個關鍵點。很多時候,有了數據不是完成,而是分析的開始。大數據分析師最重要的工作就是把數據根據需求處理好,只有數據跟需求結合起來,才能發揮數據的價值,看到需求的問題和本質所在。如果連數據都沒處理好,何談從數據中發現問題呢?
就目前而言,大數據分析日益成為研究行業的重要研究目標。面對其高數據量、多維度與異構化的特點,以及分析方法思路的擴展,傳統統計工具已經難以應對。所以我們要使用專業的大數據分析工具。大數據分析工具都有Excel、SPSS、SAS等工具。Excel、SPSS、SAS 這三者對于大數據分析師來說并不陌生。但是這三種大數據分析工具應對的數據分析的場景并不是相同的,一般來說,SPSS 輕量、易于使用,但功能相對較少,適合常規基本統計分析。而SPSS和SAS作為商業統計軟件,提供研究常用的經典統計分析處理。由于SAS 功能豐富而強大,且支持編程擴展其分析能力,適合復雜與高要求的統計性分析。 摘自:https://www.aaa-cg.com.cn/data/1770.html