大型互聯(lián)網(wǎng)公司該如何做好運(yùn)維管理?
瀉藥。
————————分割線————————
我認(rèn)為好的運(yùn)維管理分為內(nèi)外兩個板塊。對內(nèi),我們管理軟件的打包、發(fā)布、恢復(fù)、備份這幾個重要工作節(jié)點(diǎn);對外,我們要保持服務(wù)器的穩(wěn)定與出問題后的容災(zāi)方案。最后,要根據(jù)公司情況選擇相應(yīng)的管理工具,我分享下我們公司的整體運(yùn)維思路吧。(目前線上用戶有20萬左右,日活4萬左右,相比算小公司,但是,思路可以借鑒)。
本來想寫一些關(guān)于細(xì)節(jié)的東西,但是,這樣會顯得很片面,我曾今有幸和谷歌瑞士的技術(shù)總監(jiān)聊過關(guān)于運(yùn)維管理的方法,他告訴我說:“我給你說兩組數(shù)據(jù),只要我們能根據(jù)自身業(yè)務(wù)狀況滿足即可”。
這兩組數(shù)據(jù)分別是:
1.我們谷歌所有產(chǎn)品每年的發(fā)布量達(dá)到4000多萬次,但運(yùn)維工程師的工作量并不困難;
2.除了自然災(zāi)害和斷網(wǎng),我們的服務(wù)器永遠(yuǎn)不會崩。
順便說下我們公司用到的工具:
代碼管理工具GitLab、Jenkins、Rancher、zookeeper、kafka、釘釘(webhook通知),還有一些其他的工具就不一一介紹了。
希望能幫助你。