色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

如何搭建數據質量管理平臺?

林雅南2年前16瀏覽0評論

一數據質量基本概念

  • 數據質量管理(DataQualityManagement),是指對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高
  • 數據質量管理不是一時的數據治理手段,而是循環的管理過程。其終極目標是通過可靠的數據,提升數據在使用中的價值,并最終為企業贏得經濟效益

二影響因素

數據問題的來源可能產生于從數據源頭到數據存儲介質的各個環節。在數據采集階段,數據的真實性、準確性、完整性、時效性都會影響數據質量。除此之外,數據的加工、存儲過程都有可能涉及對原始數據的修改,從而引發數據的質量問題。所以,技術、流程、管理等多方面的因素都有可能會影響到數據質量。

在企業中,隨著企業業務的增長,數據也是一個增量積累的過程。隨著數據類型、數據來源的不斷豐富以及數據數量的快速增長,企業在數據管理工作和數據流程中面臨越來越多的數據質量問題。而且數據質量的管理并沒有被企業重視起來,其根本原因還是ROI并沒有那么明顯。

數據質量管理相對來說成本比較高。因為它涉及到企業數據標準的制定、規范的落地、生命周期的管理等多個環節。從收益上來說,數據質量的效益和結果并不是十分明顯,大部分企業不會把數據質量作為KPI。在企業的不同系統中,業務領域的關鍵指標不一致,數據無法共享導致出現數據孤島,大量數據無法關聯,并且有明顯的數據冗余等問題,還有數據的維護需要投入大量的人員、時間、軟硬件成本。所以數據的質量管理往往被會邊緣化甚至趨向于無。

在此附上數據的生命周期圖,包括各環節的數據流轉和數據處理。

三評估維度

  • 完整性

數據完整性問題包含數據條目不完整,數據屬性不完整等

  • 一致性多源數據的數據模型不一致,如命名不一致,數據編碼不一致,含義不一致,生命周期不一致等
  • 準確性準確性也叫可靠性,不可靠的數據可能會導致嚴重的問題,會造成有缺陷的方法和糟糕的決策
  • 唯一性

用于識別和度量重復數據,冗余數據,重復數據是導致業務無法協同,流程無法追溯的重要因素,也是數據治理需要解決的最基本的數據問題

  • 關聯性數據關聯性問題是指存在數據關聯的數據關系缺失或錯誤,例如:函數關系、相關系數、主外鍵關系、索引關系等。存在數據關聯性問題,會直接影響數據分析的結果,進而影響管理決策。
  • 真實性

數據必須真實準確的反映客觀的實體存在或真實的業務,真實可靠的原始統計數據是企業統計工作的靈魂,是一切管理工作的基礎,是經營者進行正確經營決策必不可少的第一手資料。

  • 及時性數據的及時性(In-time)是指能否在需要的時候獲到數據,數據的及時性與企業的數據處理速度及效率有直接的關系,是影響業務處理和管理效率的關鍵指標。
  • 邏輯檢查不同表字段之間可能會有邏輯關聯,需要稽核
  • 離群值檢查部分數據可能會偏離其他數據,比如同一個商品金額大家都是100元,而有一條數據是1W
  • 自定義規則由需求方自定義相關規則
  • 波動稽核

與上周環比稽核波動情況

  • 強弱規則

每個規則的權重應該是不一樣的,需要配置優先級,這對后續的告警方式是有幫助的

我們最終的目的是希望做到頁面可配置

四實施流程

4.1事前定義質量規則

  • 梳理表,字段等信息
  • 確定資產等級
  • 制定檢驗規則

4.2事中監控數據質量



  • 在數據抽取過程中,可以對數據進行數據量稽核及唯一性,非空性稽核

  • etl過程對臟數據進行清洗,保證數據質量

  • 指標計算過程中,可以對指標進行波動值稽核,保證指標變化在合理范圍內

以上如果有異常都需要郵件短信報警,對應負責人根據優先級判斷是不是需要及時處理

4.3事后分析和問題跟蹤

每周定時跑一次程序,對全局數據進行質量稽核控制,如唯一性,非空性等

對于程序跑出來的數據:

數據質量概覽在數據質量管理系統查詢

數據質量明細數據在數據質量管理系統查詢

根據異常數據統計出來的各種數據質量報表也可以在數據質量管理系統查詢,包括表覆蓋率,歷史趨勢,綜合分析,排名分析等(質量報告支持導出為word,pdf,excel)

對異常進行評估、嚴重程度、影響范圍、問題分類等

可以訂閱自己比較關心的主題,表或者規則,郵件只會發送訂閱內容

對于打分比較低的表或者業務,可以反推業務方進行整改



4.4重大問題告警

1.警告

郵件短信通知

2.數據整改

問題跟蹤處理,故障review,一周內處理完成

五總結

數據質量管理貫穿數據生命周期的全過程,覆蓋質量評估、數據監控、數據探查、數據清洗、數據診斷等方面。數據源在不斷增多,數據量在不斷加大,新需求推動的新技術也不斷誕生,這些都對大數據下的數據質量管理帶來了困難和挑戰。因此,數據質量管理要形成完善的體系,建立持續改進的流程和良性機制,持續監控各系統數據質量波動情況及數據質量規則分析,適時升級數據質量監控的手段和方法,確保持續掌握系統數據質量狀況,最終達到數據質量的平穩狀態,為業務系統提供良好的數據保障。