有150臺服務(wù)器?
150臺服務(wù)器,不算多也不算少。要想真正做好運維。我們可以采用PDCA理念和系統(tǒng)化運維的思路來做。
運維的目標要想做好運維,我們首先要明確運維的目標是什么。這決定了我們后面該做多少運維工作。比如:“確保這150臺服務(wù)器穩(wěn)定運行,可用性達到95%。(運維周期1年)”。可用性是指:服務(wù)器正常提供服務(wù)的時間/總時間。
制定運維計劃當(dāng)我們有了運維的目標后,我們就可以根據(jù)運維目標制定運維計劃。制定出在運維周期內(nèi)要開展的各項工作。這里就安全運維目標舉的例子來。要想可用性達到95%,我們首先得評估自己單位有沒有能力保障?如果沒有能力保障則可以考慮借第三方運維的力量來保障。畢竟錢能解決的問題就不是問題。
一、自己單位技術(shù)保障
如果是有自己單位的技術(shù)團隊來保障。那就要開始計劃一下資源安排,我們可以從運維的四大要素(團隊、工具、流程、伙伴)來考慮。
①、團隊資源計劃
你需要從你這150臺機器出發(fā),評估需要什么技術(shù)才能保障服務(wù)器少出故障,就算出了故障也能在短時間內(nèi)快速恢復(fù)。假如:這150臺服務(wù)器中,有windows系統(tǒng)50臺,linux系統(tǒng)80臺,AIX系統(tǒng)8臺,HP-unix系統(tǒng)8臺,4臺solaris系統(tǒng)。那么,我們就必須要有這方面的系統(tǒng)工程至少1人。規(guī)劃如下:
AIX 系統(tǒng)管理員:需要1人;
HP-Unix系統(tǒng)工程師:需要1人;
Solaris系統(tǒng)工程師:需要1人;
windows、linux系統(tǒng)工程師:需要1人;
前面3個都是小型機系統(tǒng),3個人管20臺,有點浪費,而pc服務(wù)器的1人卻要管130臺有點累。那我們可以讓小機的工程師兼會linux系統(tǒng)。這樣就可以分攤得比較好。
②、運維工具
如今是信息化時代。運維不能只是靠堆人來運維,我們需要借助自動化工具。市面上非常多自動化運維工具。可以幫助監(jiān)控系統(tǒng)主機的運行狀態(tài)、性能、容量、并在監(jiān)控到異常時候及時告警。工程師在接到告警后及時處理告警。
③、運維流程
基于ITIL管理的運維是公認的運維最佳實踐。我們自己運維也要重視運維的管理流程,因為很多故障是管理的缺失導(dǎo)致的。在ITIL運維管理中,主要有五大流程和我們實際運維息息相關(guān):
配置庫管理(含知識庫):資產(chǎn)清晰,運維過程清晰,知識庫可以讓修復(fù)一般故障更加高效。
事件管理:將所有的運維事件納入管理,讓所有事件處理都可以閉環(huán)處理。不要讓運維事件發(fā)生了,很長時間都沒有關(guān)閉。這樣很難保障運維目標。
問題管理:從眾多運維事件的分析出根本原因(包括管理原因)。得出行之有效的方法。確保同類問題不再發(fā)生。
變更管理:對任何資產(chǎn)、配置等等的變更,都需要進入變更管理。并需要被審核。只有審核通過的變更才能執(zhí)行變更。
發(fā)布管理:對經(jīng)過審核的變更,需要進行發(fā)布管理。也就是通知到相關(guān)人。讓所有人都知道某個資產(chǎn)或者某個配置發(fā)生了變更。
④、合作伙伴
合作伙伴在運維過程中也是至關(guān)重要。我們在處理故障時,如果整機硬件損壞,我們需要跟合作伙伴采購整機硬件。如果配件損壞,我們需要找合作伙伴采購配件。如果技術(shù)問題無法解決,有時也需要通過外面合作伙伴的技術(shù)來幫忙解決。所以,我們必須合理規(guī)劃合作伙伴。確保這些合作伙伴的能力能夠覆蓋我們這150臺機器維保的要求。
二、第三方運維
如果是選擇第三方運維,自己就可以相對輕松一點。只需要對接管理好第三方運維公司即可。對接管理的工作包括:
①、溝通管理
我們既然是采用第三方運維,那么技術(shù)溝通就是非常頻繁的了。我們在合同開始之時,就要有針對性的進行溝通的規(guī)劃。比如:運維單位的項目組織架構(gòu)必須清楚,運維單位的報障方式,運維單位的應(yīng)急預(yù)案等等都需要清楚。同時,我們還需要列一個溝通矩陣。包括: 一件事發(fā)生,誰是直接負責(zé)人,誰是應(yīng)該知情人等等。
②、范圍管理
在運維過程中,我們要非常清楚第三方運維公司的服務(wù)范圍。也就是大家的工作界面,不然很容易出現(xiàn)問題的時候才來扯皮。非常被動,而且耗時耗力,還會延誤系統(tǒng)恢復(fù)時間。
③、變更管理
變更管理無論是自己運維還是第三方運維都是非常重要的。第三方運維要執(zhí)行變更,必須向我們使用單位申請匯報,由我們使用單位同意后才能進行。否者就不能執(zhí)行。因為,如果第三方運維隨意變更了配置項。很可能造成將來不可預(yù)料的問題。
④、安全管理
因為是第三方運維,我們必須要重視信息安全。因為運維人員通常需要較高的權(quán)限來修復(fù)系統(tǒng)故障。所以,我們在規(guī)劃第三方運維時,需要把安全管理考慮進來。比如:增加堡壘機來對運維人員進行審計,增加日志審計系統(tǒng)來對所有系統(tǒng)的日志進行審計。確保運維安全。
運維執(zhí)行有了計劃,我們就可以根據(jù)計劃來執(zhí)行運維過程。通常我們都需要執(zhí)行以下幾個步驟。
一、申請資源(預(yù)算)
無論是自己運維還是第三方運維,我們都需要申請公司的資金支持用于運維過程需要投入的資源。
二、按計劃執(zhí)行運維工作項
在資源到位后,我們就可以將全年的運維工作做一個工作分解。比如;將整個運維工作分解如下:
日常運維工作:每天查看監(jiān)控軟件,檢查是否有異常報警等。平時,對員工加強培訓(xùn)(包括使用培訓(xùn)、安全培訓(xùn)等)
定期巡檢:定期對系統(tǒng)執(zhí)行全面檢查,消除系統(tǒng)隱患;
故障處理:對于突發(fā)故障,我們走事件管理流程,并及時處理;
應(yīng)急響應(yīng);對于緊急的重大故障,我們需要啟動應(yīng)急流程;
備件管理:對于一些易損耗的備件,必須常備一些放在自己倉庫。其他的,和合作伙伴簽好備件合作協(xié)議,要求及時提供整機或備件作為考核指標。
文檔報告:任何運維處理過程都需要提供文檔報告,存檔以備將來核查,持續(xù)改進服務(wù)。
運維持續(xù)改進我們在運維周期內(nèi),除了執(zhí)行運維計劃外。我們還需要對做得好的繼續(xù)發(fā)揚,對做得不好的地方進行持續(xù)改進。
持續(xù)改進的方法,就是對運維過程的所有事件進行監(jiān)控。檢查是否存在不足,是否有優(yōu)化空間。如果有,則指定改進計劃,提交領(lǐng)導(dǎo)審批。領(lǐng)導(dǎo)審批通過后進行改進。
總結(jié)總之,無論是自己運維還是第三方運維都不可小視。因為運維這個工作,做好是本分,不會有嘉獎;做不好就大罪過,要處罰的。所以,我們要仔細規(guī)劃好再執(zhí)行。
我是數(shù)智風(fēng),以經(jīng)驗回答問題。如果幫到你歡迎關(guān)注我,如有不同看法歡迎評論交流。