云就可靠嗎?在技術變革和迭代的過程中,一切都不能保證100%的安全,只能更安全,卻不能完全安全,否則,就沒有技術人員什么事兒了。上海藍盟統(tǒng)計了一下,近些年,因為IT系統(tǒng)出現(xiàn)故障導致對外服務降級和終止,從而造成極大影響的案例屢見不鮮,AWS、Azure和國內(nèi)的一些云服務商等曾被報道出過此類事故。背后的原因在于:一方面,隨著IT系統(tǒng)與業(yè)務日益密切,特別是不少企業(yè)IT即業(yè)務,IT與業(yè)務已經(jīng)分不開,IT的重要性不言而喻;另一方面,IT系統(tǒng)越來越復雜,其管理難度越來越高。如果高效運維成為IT部門乃至CIO必須面對的問題,特別是那些大型數(shù)據(jù)中心這一問題尤為突出。在這一背景之下,自動化運維以及AIOps等概念一經(jīng)提出就受到業(yè)界關注,特別是AIOps,在AI熱的加持下,這一概念很快就成為運維領域最熱門的詞匯之一。那么,AIOps到底是什么?有啥魅力?
AIOps為何被認可
我們在談AIOps之前,還是先看看IT運維的現(xiàn)狀。如前所說,近些年來,隨著IT應用的日益普及,IT應用越來越復雜,涉及面越來越廣,一旦出現(xiàn)故障,診斷越來越困難,導致人才緊缺。比如,硬件方面會涉及用戶終端、服務器、存儲、網(wǎng)絡等,在軟件方面則有操作系統(tǒng)、中間件、數(shù)據(jù)庫等,另外還涉及運營商的網(wǎng)絡、云服務商、CDN服務商等,其中任何一個環(huán)節(jié)出現(xiàn)問題都會導致用戶體驗欠佳。而讓這個問題更為復雜的是,當今互聯(lián)網(wǎng)環(huán)境下越來越多的應用之間通過API或者Web服務進行通信時,這一切就更為困難。
為了高效運維,此前人們提出自動化運維的理念,希望通過各種軟件工具,特別是一些開源產(chǎn)品(如Ansible、Chef)來自動化流程,通過減少人力來提高效率。但這只是解決執(zhí)行問題,沒有解決診斷和歸因的問題。實際上,在故障發(fā)生和面對各個各樣報警信息時如何快速準確找到問題所在,這是解決故障的關鍵。而AI和大數(shù)據(jù)技術的出現(xiàn),讓我們看到了解決這個問題的希望。實際也正如我們看到的,AI和大數(shù)據(jù)等數(shù)據(jù)分析和處理技術在改變傳統(tǒng)行業(yè)的同時,也IT行業(yè)自己帶來新的發(fā)展,IT運維就是其中之一。
上海藍盟認為“IT運維正在從大數(shù)據(jù)和AI技術中受益,從而使得IT運維開始轉(zhuǎn)向IT運營,IT運維也從被動防護轉(zhuǎn)向主動感知。”
這種受益首先體現(xiàn)在,大數(shù)據(jù)的出現(xiàn)讓IT運維有了能力來收集和處理海量的信息,而且是幾乎實時地完成整個過程。其次,AI技術的引入讓系統(tǒng)有了“火眼金星”,可以及時發(fā)現(xiàn)問題、預測問題,并自動解決問題,大大減少了人工參與。
從自動化到智能運維
注意到IT運維行業(yè)上述變化,善于制造概念的Gartner于2016年提出AIOps(智能運維),稱其為應用了AI技術的新一代IT運維,將代表IT運維的新趨勢。
Gartner在對2018年的技術預測報告《Predicts2018:ITOperations》中提到,未來五年,隨著數(shù)字化程度的提高,75%的企業(yè)可能會遭遇IT故障造成的業(yè)務中斷,越來越多的大型企業(yè)將使用人工智能進行IT運營(AIOps),以支持和部分取代傳統(tǒng)的ITOM。其中,到2019年,四分之一的全球企業(yè)將策略性地實施AIOps支持兩個或更多主要IT運營功能;到2022年,40%的大型企業(yè)將結合大數(shù)據(jù)和機器學習功能,支持和部分替代監(jiān)測、服務臺和自動化流程和任務。Gartner在報告中指出,現(xiàn)在是開始戰(zhàn)略性地利用AlOps平臺進行IT運營的時候了。
很顯然,AIOps被Gartner的一經(jīng)提出很快就被廣泛接受,也引發(fā)了眾多從事IT運維業(yè)務的廠商們積極跟進。實際上,今天我們看到幾乎所有從事IT運維行業(yè)的廠商都宣稱在其產(chǎn)品中集成了AI和大數(shù)據(jù)功能。
AIOps能干什么?
根據(jù)Gartner的定義,AIOps的主要目標包括:通過采集當前環(huán)境中的運維數(shù)據(jù),集成現(xiàn)有IT運維管理工具,利用算法等高級數(shù)據(jù)分析技術對IT系統(tǒng)中各個環(huán)節(jié)的問題進行快速定位、故障排除和預測;對來自業(yè)務環(huán)節(jié)中各個分布式系統(tǒng)的數(shù)據(jù)進行聚合分析,合理優(yōu)化IT服務,挖掘關鍵業(yè)務的KPI指標,反哺業(yè)務端,幫助其做出明智決策;通過大數(shù)據(jù)和人工智能技術分析用戶的行為日志和運維數(shù)據(jù),發(fā)掘潛在的系統(tǒng)安全和合規(guī)問題,為企業(yè)的信息安全保駕護航。
功能看起來很多,但在筆者看來最為核心的功能有:發(fā)現(xiàn)異常、定位故障、基線預測等,這些都屬于智能運維范疇,在此之上還有提供對業(yè)務支撐和運營,也就是現(xiàn)在一些廠商提的“IT運營”。與前面的核心功能相比,業(yè)務支撐和運營各家都有自己的解讀。相比較而言,前面的幾個功能更容易理解,也更為普遍。
以發(fā)現(xiàn)異常為例,傳統(tǒng)IT運維工具中都會采用基于經(jīng)驗值來定義異常閾值,這種方法主要基于人的主觀判斷。而基于機器學習的方法,通過積累歷史運維數(shù)據(jù),根據(jù)日常運維的需求在數(shù)據(jù)特征的基礎上建立算法模型,對模型進行周期性地訓練學習,從而能為IT系統(tǒng)提供更為及時、準確、高覆蓋的檢測結果。比如,傳統(tǒng)異常發(fā)現(xiàn)的流程是運維人員在系統(tǒng)中創(chuàng)建了業(yè)務路徑,并對路徑中關注的節(jié)點或連線進行告警設置。如數(shù)據(jù)中心網(wǎng)銀交易服務器響應時間告警的設置為>300ms,如果運維軟件監(jiān)測到響應時間超過300ms,系統(tǒng)告警。而采用AI方法進行異常檢測時,運維人員不用對業(yè)務路徑做任何告警設置,當機器學習算法檢測到某個業(yè)務路徑的某個節(jié)點或連線上產(chǎn)生了異常值,就會自動拋出異常事件。
抑制告警風暴也是AIops的非常實用的功能。所謂告警風暴是指在短時間內(nèi)系統(tǒng)產(chǎn)生大量告警消息,這些消息有的是由某種共同因素引發(fā),互相之間存在一定關聯(lián)。大型企業(yè)的IT應用系統(tǒng)龐大而復雜,設備數(shù)量動輒成千上萬,任何一個小小的IT問題都有可能引發(fā)“告警風暴”。大量同一事故源引發(fā)的告警信息會極大地干擾運維人員的工作,導致運維人員疲于應付大量的告警消息,需要耗費更多時間排查和處理問題,大大降低了運維效率,更為嚴重的是會讓真正關鍵的告警信息淹沒其中,由于無法第一時間發(fā)現(xiàn)根源問題,延誤了故障處理時間。而AIops通過算法模型結合固定規(guī)則的方式對告警消息進行告警壓縮和告警合并,在保證核心告警內(nèi)容(即不壓縮核心告警內(nèi)容)的前提下合并告警消息數(shù)量,為運維人員提供有效的告警信息。
就藍盟在IT外包的過程中了解到,有很多廠商提出“IT運營”,不只是讓AIOps用于運維,還希望讓AIOps為業(yè)務運營提供更多直接支持,比如對IT系統(tǒng)進行預警和預測,輔助決策,從而為企業(yè)的IT管理從IT運維向IT運營轉(zhuǎn)型提供幫助。應該說,這應該是IT運維的發(fā)展方向,畢竟運營才能產(chǎn)生效益,Gartner也提出了這個觀點。但與IT運維相比,IT運營還是一個更高級的階段,如何支持還需要更多探索。