色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

實時數據倉庫如何做?

錢浩然2年前14瀏覽0評論

3.1.1Lambda架構

來自ApacheFlink中文學習網站ververica.cn侵權告知立刪

3.1.2Kappa架構

來自ApacheFlink中文學習網站ververica.cn侵權告知立刪

3.1.3實時olap變體架構

來自ApacheFlink中文學習網站ververica.cn侵權告知立刪

3.1.4常見架構對比

來自ApacheFlink中文學習網站ververica.cn侵權告知立刪

ps:lambda架構

開發割裂感:

?表結構不同

?sql語法不同

資源浪費:

?重復計算

?重復存儲

集群維護:

?組件不同

?計算引擎不同

數據一致性

3.2實時數倉架構

3.2.1方案一

優點:

?便于數據回溯、重算和數據質量驗證。

缺點:

?通過批處理重算,需要維護兩套代碼,開發和維護成本高。

?需要兩套計算資源

適用場景:

?超大規模歷史數據計算,且這種場景比較頻繁。

?對數據質量要求極高,需要比對實時和離線的計算結果,甚至利用離線去修正實時的計算結果。

3.2.2方案二

優點:

?無需維護兩套代碼,開發迭代速度快。

?數據回溯和重算方便,重算時間根據需求回溯的時間范圍定。

?只需流計算資源,資源占用小

缺點:

?ODS\DWD部分數據“不可見”,原始數據和中間數據不便于查詢(解決方案:可通過重新消費指定時間范圍的數據查詢,或導入需要的數據到olap引擎)

?依賴業務端反饋問題(解決方案:設計數據質量監控指標,實時監控報警)

適用場景:

ODS\DWD查詢不頻繁等

3.2.3方案三

相對于方案二:

?增加ODS層落地hive,排查分析原始數據比較方便,恢復歷史數據的時候可獲取hive數據寫入kafka,然后按原流處理的邏輯重新處理即可,只需修改數據源為歷史數據對應的topic。

?需新增kafka寫入hive邏輯

?需新增從hive讀取數據寫入kafka

?需新增整條鏈路歷史數據對應的topic