數據自身是沒有價值或者說微乎其微的,價值是被賦予的,就像黃金一樣,黃金的價值是他的應用前景或場景。
數據的價值就是數據能力體現出的收益,或者說投資回報率。
今天我們就來聊聊數據能力和價值。說到大數據就不得不提數據倉庫,企業數據倉庫演化至最終階段或許會變為大腦中樞神經,如果要支撐起整個復雜的大腦和神經系統,需要一系列的復雜機制配合。
一、抽象的數據能力架構
我把數據能力抽象概括為四個方向:傳輸能力、計算能力、算法能力和數據資產量級,后面會講述在這四個能力之上泛化出的數據應用和價值。
1.數據傳輸能力
數據大部分的使用場景必然會涉及到數據傳輸,數據傳輸性能決定了部分應用場景的實現,數據實時的調用、加工、算法推薦和預測等;而傳輸抽象出來的支撐體系是底層的數據存儲架構(當然非同機房的傳輸還要考慮到網絡環境等。單純的小數據量調用等一般不會涉及到這些,但數據量級大、高并發且對SLA要求非常嚴格的時候,就是對數據傳輸能力的考驗)。
從產品的角度我把數據傳輸能力分解為:底層數據傳輸效率和應用層數據傳輸效率。
底層的數據傳輸效率是指數據源進入后的預處理階段的傳輸效率,即加工為產品所需的數據交付物之前階段。
Ps:數據在可為產品所用之前需要很長的一段加工過程,應用層數據產品基本不涵蓋底層數據加工環節,而數據產品會用到規定好的數據交付物(即已約定好的結構化或標準化的數據),而利用此數據交付物再經過產品對實際應用場景的匹配和加工來提供數據服務。即使涉及底層數據管理的相關產品也是對Meta元數據、使用日志或寫好的shell等的調用。
底層數據加工計算所涉及到的傳輸效率,直接決定了支撐數據產品高性能、高可靠的自身需求;而應用層的傳輸影響了用戶體驗和場景實現。傳輸機制和體系就像毛細血管一樣遍布全身錯綜復雜,但是流通速率直接決定了大腦供氧是否充足。
2.數據計算能力
數據計算能力就像造血系統一樣,根據多種來源的養分原料進行生產加工最終產出血液。而源數據通過高性能的底層多存儲的分布式技術架構進行ETL(抽取、轉換、裝載)清洗后產出的是數據中間層通用化的結構化數據交付物。計算速度就像造血速度一樣,決定了供應量。而計算速度直接決定了數據應用的時效性和應用場景。
目前最多最普遍的就是離線數倉,離線數倉大部分擔任著事后諸葛亮的角色,即沒辦法保證數據的及時性而延后了數據分析及應用的產出,導致更多的是沉淀經驗而難以做到實時決策。而實時數倉,甚至說對DataLake(數據湖)的實時處理已經逐步開放應用多種場景。我們先不考慮越來越強烈的實時性要求帶來的巨大成本是否真的可以創造等值的收益。
強實時可以更接近一個“未來”的狀態,即此時此刻。這遠比算法對未來的預測更有價值,因為把握眼前比構造多變的未來對一個企業更有價值。甚至說當數據過程快過神經元的傳遞,那么從獲取到你腦電波的那一刻起,數據處理的驅動結果遠比神經元傳遞至驅動四肢要快。
是不是與兵馬未動,糧草先行的場景相似?當然這是以數據計算能力的角度來看待這個問題。跳出來以我個人的觀點來說,整體數據能力強大到一定階段后,會從主觀改變個人的意愿,即通過引導你的大腦從而來控制或決定個人行為且不會讓你感知,所以可以理解為從主觀改變個人意愿。從人的角度來說,你并不知道或者直觀意愿去憑空決定下一步要做什么,因為大腦是邏輯處理器,當然這又涉及到心理學,這些觀點就不在此贅述了,等往后另起一個篇幅來說數據應用未來前景和假想。
3.數據資產能力
都在說“大”數據,那么數據量級越大越好嗎?并不是,從某種角度來說大量無價值或者未探索出價值的數據是個負擔,巨大的資源損耗還不敢輕易抹滅。
隨著數據量級的急劇放大,帶來的是數據孤島:數據的不可知、不可聯、不可控、不可取;那么散亂的數據只有轉換成資產才可以更好的發揮價值。
什么是數據資產,我覺得可以廣泛的定義為可直接使用的交付數據即可劃為資產,當然可直接使用的數據有很多種形式,比如meta元數據、特征、指標、標簽和ETL的結構化或非結構化數據等。
目前也在拓展DataLake的使用場景,直接實時的使用和處理DataLake數據的趨勢是一種擴大企業自身數據資產范圍和資產使用率的方式。這有利于突破數倉模型對數據的框架限定,改變數據使用方式會有更大的想象空間。
數據資產的價值可以分兩部分來考慮:一部分是數據資產直接變現的價值;另一部分是通過數據資產作為資源加工后提供數據服務的業務價值。
第一部分比較好理解,就是數據集的輸出變現值,如標簽、樣本和訓練集等的直接輸出按數據量來評估價值;第二部分價值比如通過自身數據訓練優化后的算法應用而提升業務收益的價值或依于數據的廣告投放的營銷變現等,甚至說沉淀出的數據資產管理能力作為知識的無形資產對外服務的價值。這些間接的數據應用和服務的變現方式也是數據資產價值的體現并可以精細的量化。
4.數據算法能力
其實無論是傳輸能力還是計算能力,都是相對偏數據底層的實現,而離業務場景最近的就是算法能力所提供的算法服務,這是最直接應用于業務場景且更容易被用戶感知的數據能力,因為對于傳輸和計算來說用戶感知的是速度快慢,從用戶視角快是應該的,因此用戶并不知道何時何地計算或傳輸。
而算法對業務應用場景是一個從0到1,從無到有的過程。并且算法是基于數據傳輸、計算和資產能力之上泛化出的應用能力,或者換句話說是三個基礎能力的封裝進化。
而算法能力是把多元的數據集或者說獲取到盡可能多的數據轉化為一個決策判斷結果來應用于業務場景。算法能力的強弱反映了三個數據能力是否高效配合,是否存在木桶效應,更甚者木桶也沒有。當然單純的算法也可以單獨作為無形資產的知識沉淀來提供服務。
對于數據能力架構中的四大能力,傳輸、計算和資產是基礎能力,而算法是高級的泛化能力。而能力的輸出和應用才能體現數據價值,數據能力的最大化輸出考驗著整個數據產品架構體系的通用性和靈活性。因為需要面對的是各種業務演化出的多種多樣場景,對數據能力的需求參差不齊:可能是片面化的,也可能是多種能力匹配協調的。這對產品的通用性就是一個巨大的挑戰,想更好的應對這個問題,可能就需要整個數據平臺的產品矩陣來支撐和賦能。
二、數據能力對應數據價值的呈現
從數據應用的角度,每個能力都可以獨立開放也可以組合疊加。如果把能力具象出來就會衍生到產品形態的問題,產品形態是對能力適配后發揮作用的交付物。說到產品形態我們可以想象一下應用場景。
首先最基礎的應用場景就是數據直接調用,數據資產的使用基本會基于特征、指標、標簽或者知識等交付形態。而對于使用方來說這些數據會作為半成品原料或依據來進行二次加工應用于業務場景中,如數據分析、數據挖掘、算法的訓練與驗證、知識圖譜、個性推薦、精準投放(觸達)和風控等。數據資產可以統歸為在數據市場中通過構建的一些OpenAPI進行賦能。
而對于一個工廠來說,僅僅進行原材料的加工(ETL)輸出即除了自身原材料(數據資產)的壁壘外核心競爭力很小,需要包裝一些上層的基礎服務來提升競爭力,那么數據計算的能力融合進來對原材料進行二次加工(聚合統計)。
計算的聚合統計能力加入進來后可以滿足大部分的數據分析場景的支持,就不單單是原材料毫無技術含量的輸出,并可以以半成品的形態規避數據敏感。因為對于統計值來說,這是一個分析結果或結論,并不會涉及到自身敏感數據的輸出,因此你的核心資產不會泄露,而輸出的僅僅是資產的附加值。換句話說知識產權專利依然在你手中,通過控制專利泛化出的能力進行投資回報。
融入計算能力后的一些分析場景如:人群的畫像分析、多維度的交叉分析、業務的策略分析和監控分析等多種場景。
隨著時代的發展和業務場景的增多,這時工廠繼續需要產業變革,要深耕服務業逐步拋棄制造業形態,全面提升更高級的數據服務。這時算法能力的加入來更好的完善服務矩陣。
算法通過封裝了傳輸、計算和資產能力而進行統一的更好理解的業務場景目標預測和識別等。這樣對于企業來說可以更容易接受和低成本使用數據服務而不需要再涉及到數據加工鏈路中,而僅僅需要一個目標結果,通過算法的決策作為參考來指導業務方向。像算法對一些業務場景的預測分析,甚至說一些人工智能場景的識別或學習思考,都可以通過算法賦能來實現。對于企業來說就是從無到有的突破,企業發展進程甚至可能提升好幾年。
而貫穿以上能力應用場景都是對數據傳輸能力的考驗。