對于很多人來講,這幾個概念經常分不清,我當初入門的時候也一樣,只不過那時候沒有大數據的概念,作為一個數據分析從業者,其實并不需要關注這些名字直接的本質區別,只要明白一件事,數據最終是為了決策服務。
鑒于大家對此還是有些好奇,這里我大概說說我的理解,希望和各位有所交流,不足之處還望大家指正。
先看看數據分析與數據挖掘的區別:
首先要搞懂,什么是數據,什么是信息,這兩者本質的區別就是數據是存在的,不用人腦,而信息是需要人腦進行處理,上面意思呢?
比如你裝修完了房子,打算開始買家具,那么第一件事就是用尺子量房屋各處的長度和寬度,這些都是可以主觀的看到的,客觀存在的,這就是數據,而信息則不同,例如你要去買沙發,你會說,我們放5米的沙發剛好,4米的有些短,看著不大氣,6米的太大了,看著不美觀,那這種就屬于信息,是需要人們經過大腦去判斷的,屬于主觀,判斷的依據就是數據(客觀存在)。
其次,數據分析是對客觀存在的已知的數據,通過各類維度的分析,得出一個結論,例如我們發現用戶注冊量下降:
可以從:
區域上看,某區域的注冊量下降了x%
渠道方面,搜索引擎帶來的注冊了下降了X%
年齡來看,20歲~30歲的注冊量下降了X%
等等,這樣不同的業務類型去看過去一段時間發展的趨勢來做結論判斷。
數據挖掘則更注重洞察數據本身的關系,從而獲得一些非顯型的結論,這是我們從數據分析中無法得到了,例如關聯分析可以知道啤酒與尿布的關系、決策樹可以知道你購買的概率、聚類分析可以知道你和誰類似,等等,重在從各個維度去發現數據之間的內在聯系
因此兩者的目的不一樣,數據分析是有明確的分析群體,就是對群體進行各個維度的拆、分、組合,來找到問題的所在,而數據發挖掘的目標群體是不確定的,需要我們更多是是從數據的內在聯系上去分析,從而結合業務、用戶、數據進行更多的洞察解讀。
舉個例子來理解一下:
比如一個分析師一直單身,想去找一個女朋友,他可以很迅速的知道這個女孩的身高、收入、學歷等,但無法從這些數據中獲知這個女孩是不是適合自己、她的性格如何,這時我們就需要從一些日常行為的數據進行推斷,一種是主觀的推斷,我覺得、我估計、我認為,不可能在一起
另一種是客觀+主觀的推斷,比如整合微博數據(可以知道微博的內容、發送行為、關注的領域等),和自己的行為進行數據挖掘,來看看數據內在的匹配度有多高,這時候,你會說,我們在一起的概率有90%,從而建立信心,開始行動.....
當然統計學上講,100%的概率都未必發生,0%的概率都未必不發生,這只是小概率事件,不要讓這個成為你脫單的絆腳石。
最后,思考的方式不同,一般來講,數據分析是根據客觀的數據進行不斷的驗證和假設,而數據挖掘是沒有假設的,但你也要根據模型的輸出給出你評判的標準。
我們經常做分析的時候,數據分析需要的思維性更強一些,更多是運用結構化、MECE的思考方式,類似程序中的IFelse
分析框架(假設)+客觀問題(數據分析)=結論(主觀判斷)
而數據挖掘大多數是大而全,多而精,數據越多模型越可能精確,變量越多,數據之間的關系越明確
什么變量都要,先從模型的意義上選變量(大而全,多而精),之后根據變量的相關系程度、替代關系、重要性等幾個方面去篩選,最后全扔到模型里面,最后從模型的參數和解讀的意義來判斷這種方式合不合理。
以上就是我認為的三個區別,其實不論數據分析還是數據挖掘,能抓住老鼠的就是好貓,真的沒必要糾結他們之前的區別,難道你給領導匯報時,第一部分是數據分析得出,第二部分是數據挖掘得出?他們只關注你分析的邏輯、呈現的方式。
下來說說我理解的大數據,常常有人問我,感覺現在的大數據分析培訓和講解,都是把之前的各類數據分析資料,前面加了了“大”,然后變成了大數據分析培訓....,其實想一想這位兄弟說的真TM對。
大數據對我的感覺并不是數據量大,也不是數據復雜,這些都可以用工具和技術去處理,而是它可以做到千人千面,而且是實時判斷規則
例如定向廣告的推送,就是大數據,它根據你以往的瀏覽行為,可以準確的給你推相關的信息,基本做到了你一個人就是一個數據庫,而不是一條數據。但我們所作的數據分析更多是針對群體的,而非針對每個個人。
要做到千人前面,侵犯你隱私數據是避免不了的,或多或少都有知道一些,而做到千人千面的大數據不就是要更多的了解你,引導你、殺你、留住你嗎?為了達到這類手段,就要不斷的去完善自家數據,甚至要購買數據來360度的讓你在數據下裸奔,從而解決數據孤島的問題
所以大數據時代也顯露出了各類問題,數據的隱私、數據殺熟、數據孤島等,這也許就是我們目前看到大數據分析更看重的是技術、手段的原因,它其實是一門純技術,但有時候確實可能需要藝術。
文源自:小鄧種草