在當今的大數據時代,數據的重要性愈發明顯。然而有了數據并不意味著就有了一切。很多時候大數據能給出結論,但給不了解釋。只有把數據通過可視化效果呈現出來,并對其進行分析,才能找出真正的答案。然而每一個問題都不止一面,當我們面對復雜的數據問題時,核心是把數據關聯起來。
在此之后,才可以說進行關聯分析。關聯分析(規則)即挖掘關聯現象,從大量數據當中發現事物、特征或者數據之間的,頻繁出現的相互依賴關系和關聯關系。關聯關系包含簡單關聯、時序關聯及因果關聯等,這些關聯有的產生于經驗之中,但并不總是事先知道,而是通過數據庫中數據的關聯分析獲得的,其對商業決策具有重要的價值,常用于實體商店或電商的跨品類推薦,購物車聯合營銷,貨架布局陳列,聯合促銷,市場營銷等,來達到關聯項互相銷量提升與共贏,提升用戶體驗,減少上貨員與用戶投入時間,尋找高潛用戶。
怎樣快速地把數據拿來做一個整合,又很快地呈現出來,是非常重要的。數據分析挖掘很重要,但有時一些應用場景和分析挖掘不一定有太大關系。舉個例子,假設某地發生了一個大地震,在這個災難性事件中,最重要的不是預測,而是診斷,讓你了解現在的情況是什么,未來要朝哪個方向走。這就需要數據的整合與呈現。分析的力量是你能夠對整個流程進行分析,而不是某個環節。你可以看到真正的故事在于快速關聯不同的數據源。
過去我們談大數據分析包含了數據采集、清洗、分析和展現,今天談的好像是關聯、分析和展現,那么是不是大數據分析的理念變了呢?的確是一個比較大的概念上的轉換。從信息的角度看,每個數據都有價值,獲得的數據越多越好,有些系統通過清洗或是數據處理,可能把一些價值去除掉了。另外,過去是ETL,也就是數據抽取、轉換和上載?,F在所謂的轉換,是在關聯引擎里面做的。數據抽取出來,然后上傳,再做轉換,也就是ELT。ELT對比ETL,速度要快很多。