AI-Ops
智能運維(AI-Ops)
通過AI技術來改善運維團隊的工作方式
AI的兩個含義
使用現代人工智能在實現IT運維自動化
最早的叫法
AlgorithmicIT
使用自動化和規則來執行IT運維
AI-Ops并不是一個全新的理念,而是IT運營分析和管理(ITOA/ITOM)體系與大數據和人工智能技術結合的產物。AI-Ops智能運維以ITOA/ITOM系統所采集的運維大數據為基礎,利用人工智能和機器學習算法對運維數據進行深入分析,涵蓋IT監控,應用性能管理、外網監控、日志分析,系統安全等方面。
根據艾瑞咨詢、Gartner等機構的數據顯示,中國企業IT運維已是千億級市場,2016年為5231.8億元的市場規模,并且以16%的復合年均增長率高速增長,預計到2020年,將達到9463.9億元的市場規模。
在企業IT運維的發展過程中,存在著IT運維難度大幅提高,成本急劇上升的現狀,相關調查顯示,90%使用混合云的企業,81%使用多云的企業均遇到以上問題。在部署上,系統部署慢,項目啟動晚;在遷移時,系統復雜,云遷移難;在運維中,管理工具多,統一難,使得IT運維效率較低。而人員的流動性高,運維經驗缺乏;業務開展中,系統的不穩定性,拓展受阻;以及運維不當,信息安全隱患多等問題,造成了成本的居高不下。
在這樣的發展背景下,高效率、低成本的AIOps無疑將是企業IT運維剛需所在。據Gartner等報告宣稱,到2020年,近50%的企業將在他們的業務和IT運維方面采用AIOps,遠高于2017年的5%。
當系統越來越多,越來越復雜
最終導致警報、故障排除、管理更困難
故障診斷和修復工作
需要花費數個小時、數天甚至數周
這么多問題該如何解決?
幾秒鐘就能搞定工作難題該如何實現?
AI-Ops孕育而生
?
提供了哪些技術亮點?
帶來了哪些價值?
解決了哪些技術問題?
關鍵技術
01
人工智能(AI)——使用深度學習神經網絡等人工智能技術來充分理解不同系統之間發生時間的方式和原因。使用專家規則系統和推理引擎作為自動化故障排除和自動修復的一部分。
02
機器學習(ML)——使用先進的數學技術分析、預測、警報和建模各種系統,服務器、服務、日志、警報等等。
03
大數據(BD)——一切都基于大數據,數十萬個數據點位于500,000個不同的指標(每個服務器和服務數百個數據點)上。
關鍵價值
1.加分項:告警
更多、更快的警報,減少重復、錯誤警報
2.加分項:登錄
更好地分析,更方便地發現與解決問題
3.加分項:系統性能
優化系統性,解決效率不高的服務
4.減分項:排查時間
更多系統自動修復與更快的備份
5.減分項:更少的人員
更少的人員與資源成本
6.減分項:成本控制
自動化減少人員工作量
解決問題
異常檢測
高級警報以更快的速度查找實際問題
事件管理
將警報組合成事件,刪除重復虛假數據
登錄分析
更強大的自動化運維、排查支持
專業排查
更快的問題解決
深度分析
運營機器學習,人工智能,數據指標、模型,進行深度學習
自動修復
基于人工智能,自動修復問題
動態建模
基于機器學習,更好地理解關系及超載失敗
關系分析
基于機器學習,更好地理解關系及超載失敗
整理/夏立成上海藍盟創始人,IT外包服務專家,復旦校友創新創業俱樂部副會長,專注創業、運動和公益。