分布式任務調度框架選型?
1.XXL-JOB
XXL-JOB 是一個輕量級分布式任務調度框架,支持通過 Web 頁面對任務進行 CRUD 操作,支持動態(tài)修改任務狀態(tài)、暫停/恢復任務,以及終止運行中任務,支持在線配置調度任務入參和在線查看調度結果。主要特性
簡單:支持通過Web頁面對任務進行CRUD操作,操作簡單,一分鐘上手;
調度中心HA(中心式):調度采用中心式設計,“調度中心”基于集群Quartz實現并支持集群部署,可保證調度中心HA;
執(zhí)行器HA(分布式):任務分布式執(zhí)行,任務"執(zhí)行器"支持集群部署,可保證任務執(zhí)行HA;
彈性擴容縮容:一旦有新執(zhí)行器機器上線或者下線,下次調度時將會重新分配任務;
分片廣播任務:執(zhí)行器集群部署時,任務路由策略選擇"分片廣播"情況下,一次任務調度將會廣播觸發(fā)集群中所有執(zhí)行器執(zhí)行一次任務,可根據分片參數開發(fā)分片任務;
動態(tài)分片:分片廣播任務以執(zhí)行器為維度進行分片,支持動態(tài)擴容執(zhí)行器集群從而動態(tài)增加分片數量,協同進行業(yè)務處理;在進行大數據量業(yè)務操作時可顯著提升任務處理能力和速度。
動態(tài):支持動態(tài)修改任務狀態(tài)、暫停/恢復任務,以及終止運行中任務,即時生效;
注冊中心: 執(zhí)行器會周期性自動注冊任務, 調度中心將會自動發(fā)現注冊的任務并觸發(fā)執(zhí)行。同時,也支持手動錄入執(zhí)行器地址;
一致性:“調度中心”通過DB鎖保證集群分布式調度的一致性, 一次任務調度只會觸發(fā)一次執(zhí)行;
其他特性
路由策略:執(zhí)行器集群部署時提供豐富的路由策略,包括:第一個、最后一個、輪詢、隨機、一致性HASH、最不經常使用、最近最久未使用、故障轉移、忙碌轉移等;
故障轉移:任務路由策略選擇"故障轉移"情況下,如果執(zhí)行器集群中某一臺機器故障,將會自動Failover切換到一臺正常的執(zhí)行器發(fā)送調度請求。
阻塞處理策略:調度過于密集執(zhí)行器來不及處理時的處理策略,策略包括:單機串行(默認)、丟棄后續(xù)調度、覆蓋之前調度;
任務超時控制:支持自定義任務超時時間,任務運行超時將會主動中斷任務;
任務失敗重試:支持自定義任務失敗重試次數,當任務失敗時將會按照預設的失敗重試次數主動進行重試;其中分片任務支持分片粒度的失敗重試;
任務失敗告警;默認提供郵件方式失敗告警,同時預留擴展接口,可方面的擴展短信、釘釘等告警方式;
事件觸發(fā):除了"Cron方式"和"任務依賴方式"觸發(fā)任務執(zhí)行之外,支持基于事件的觸發(fā)任務方式。調度中心提供觸發(fā)任務單次執(zhí)行的API服務,可根據業(yè)務事件靈活觸發(fā)。
任務進度監(jiān)控:支持實時監(jiān)控任務進度;
腳本任務:支持以GLUE模式開發(fā)和運行腳本任務,包括Shell、Python、NodeJS、PHP、PowerShell等類型腳本;
調度線程池:調度系統(tǒng)多線程觸發(fā)調度運行,確保調度精確執(zhí)行,不被堵塞;
數據加密:調度中心和執(zhí)行器之間的通訊進行數據加密,提升調度信息安全性;
郵件報警:任務失敗時支持郵件報警,支持配置多郵件地址群發(fā)報警郵件;
運行報表:支持實時查看運行數據,如任務數量、調度次數、執(zhí)行器數量等;以及調度報表,如調度日期分布圖,調度成功分布圖等;
全異步:任務調度流程全異步化設計實現,如異步調度、異步運行、異步回調等,有效對密集調度進行流量削峰,理論上支持任意時長任務的運行;
功能齊全,文檔也很齊全,有使用教程,但是上手門檻稍微高了;
2.Elastic-Job
Elastic-Job 是一個分布式調度解決方案,由兩個相互獨立的子項目 Elastic-Job-Lite 和 Elastic-Job-Cloud 組成。
定位為輕量級無中心化解決方案,使用 jar 包的形式提供分布式任務的協調服務。
支持分布式調度協調、彈性擴容縮容、失效轉移、錯過執(zhí)行作業(yè)重觸發(fā)、并行調度、自診斷和修復等等功能特性。
分布式調度解決方案,由兩個相互獨立的子項目Elastic-Job-Lite和Elastic-Job-Cloud組成。
Elastic-Job-Lite定位為輕量級無中心化解決方案,使用jar包的形式提供分布式任務的協調服務。選擇該項目可以滿足大多數it企業(yè)的需求。
Elastic-Job-Cloud使用Mesos + Docker的解決方案,額外提供資源治理、應用分發(fā)以及進程隔離等服務。
輕量級無中心化:Elastic-Job-Lite并無作業(yè)調度中心節(jié)點,而是基于部署作業(yè)框架的程序在到達相應時間點時各自觸發(fā)調度。
靈活的增刪改查作業(yè),集中式管理調度作業(yè)
支持高可用:一旦執(zhí)行作業(yè)的服務器崩潰,等待執(zhí)行的服務器將會在下次作業(yè)啟動時替補執(zhí)行。開啟失效轉移功能效果更好,可以保證在本次作業(yè)執(zhí)行時崩潰,備機立即啟動替補執(zhí)行。
支持分片:作業(yè)分片一致性,保證同一分片在分布式環(huán)境中僅一個執(zhí)行實例
任務監(jiān)控:通過監(jiān)聽Elastic-Job-Lite的zookeeper注冊中心的幾個關鍵節(jié)點即可完成作業(yè)運行狀態(tài)監(jiān)控功能
一致性:使用zookeeper作為注冊中心,為了保證作業(yè)的在分布式場景下的一致性,一旦作業(yè)與注冊中心無法通信,運行中的作業(yè)會立刻停止執(zhí)行,但作業(yè)的進程不會退出,這樣做的目的是為了防止作業(yè)重分片時,將與注冊中心失去聯系的節(jié)點執(zhí)行的分片分配給另外節(jié)點,導致同一分片在兩個節(jié)點中同時執(zhí)行。
同時支持動態(tài)擴容,將任務拆分為n個任務項后,各個服務器分別執(zhí)行各自分配到的任務項。一旦有新的服務器加入集群,或現有服務器下線,elastic-job將在保留本次任務執(zhí)行不變的情況下,下次任務開始前觸發(fā)任務重分片
3.opencron
opencron是一個功能完善且通用的開源定時任務調度系統(tǒng),擁有先進可靠的自動化任務管理調度功能,提供可操作的 web 圖形化管理滿足多種場景下各種復雜的定時任務調度,同時集成了 linux 實時監(jiān)控、webssh 等功能特性
4.quartz
支持集群和分布式,但是沒有友好的管理界面,功能單一,對于管理調用的任務比較困難。
quartz使用數據庫鎖。在quartz的集群解決方案里有張表scheduler_locks,quartz采用了悲觀鎖的方式對triggers表進行行加鎖,以保證任務同步的正確性。一旦某一個節(jié)點上面的線程獲取了該鎖,那么這個Job就會在這臺機器上被執(zhí)行,同時這個鎖就會被這臺機器占用。同時另外一臺機器也會想要觸發(fā)這個任務,但是鎖已經被占用了,就只能等待,直到這個鎖被釋放。
quartz的分布式調度策略是以數據庫為邊界資源的一種異步策略。各個調度器都遵守一個基于數據庫鎖的操作規(guī)則從而保證了操作的唯一性。同時多個節(jié)點的異步運行保證了服務的可靠。但這種策略有自己的局限性:集群特性對于高CPU使用率的任務效果很好,但是對于大量的短任務,各個節(jié)點都會搶占數據庫鎖,這樣就出現大量的線程等待資源。這種情況隨著節(jié)點的增加會越來越嚴重。
缺點:quartz的分布式只是解決了高可用的問題,并沒有解決任務分片的問題,還是會有單機處理的極限。
5.Saturn
Saturn
基于當當Elastic Job代碼基礎上自主研發(fā)的任務調度系統(tǒng),是唯品會開源的分布式作業(yè)調度平臺,取代傳統(tǒng)的Linux Cron/Spring Batch Job的方式,做到統(tǒng)一配置,統(tǒng)一監(jiān)控,任務高可用以及分片并發(fā)處理。主要是去中心化,高可用,可分片,動態(tài)擴容,有認證和授權功能。
主要特性
支持多種語言作業(yè),語言無關(Java/Go/C++/PHP/Python/Ruby/shell)
支持秒級調度
支持作業(yè)分片并行執(zhí)行
支持依賴作業(yè)串行執(zhí)行
支持作業(yè)高可用和智能負載均衡
支持異常檢測和自動失敗轉移
支持異地容災
支持多個集群部署
支持跨機房區(qū)域部署
支持彈性動態(tài)擴容
支持優(yōu)先級和權重設置
支持docker容器,容器化友好
支持cron時間表達式
支持多個時間段暫停執(zhí)行控制
支持超時告警和超時強殺控制
支持灰度發(fā)布
支持異常、超時和無法高可用作業(yè)監(jiān)控告警和簡易的故障排除
支持失敗率最高、最活躍和負荷最重的各域各節(jié)點TOP10的作業(yè)統(tǒng)計
優(yōu)點:源碼清晰,學習入手容易。應用部署簡單,提供運維控制臺,集中管理作業(yè),運維控制臺功能強大,提供作業(yè)統(tǒng)計報表 ,告警,增刪改查作業(yè),作業(yè)統(tǒng)一配置。
最后一個是國內團隊封裝的