智能時代,運維工程師該談什么?
每家公司對于所謂運維團隊到底應(yīng)該做些什么,都有各自的看法。本文首先由阿里巴巴的運維團隊在整個阿里巴巴的業(yè)務(wù)里承擔(dān)的責(zé)任為切入點...
Quota 管理:比如我們會跟業(yè)務(wù)團隊做一些預(yù)算的管理,對于每個業(yè)務(wù)團隊首先需要有預(yù)算。只要你有預(yù)算,運維團隊一定會把資源交給你,沒有預(yù)算一切免談。
規(guī)劃:比如阿里每年的雙十一交易,業(yè)務(wù)團隊要給出下一年的交易額將做到多少,至于背后需要增加多少的機器量,業(yè)務(wù)團隊根本不關(guān)心。所以需要運維團隊來做從業(yè)務(wù)需求到資源的轉(zhuǎn)化和規(guī)劃,這對于公司來講非常重要,因為意味著最終我在基礎(chǔ)設(shè)施上要投多少錢,還有節(jié)奏的控制。
采購:當(dāng)規(guī)模大了以后,怎么樣合理規(guī)劃資源的數(shù)量和交付節(jié)奏是非常重要的,比如 5 月份采購這批機器和 6 月份采購這批機器,是完全不同的概念。還需要資源的采購,比如 SSD 采購緊張,供應(yīng)量不夠。通常大公司會有更多的渠道獲得更好的供應(yīng)量,小公司就會很困難。怎么做好供應(yīng)鏈控制是非常重要的。
資源調(diào)度:對于資源團隊來講,調(diào)度也很重要,我們交出去的機器是怎么樣的交法,怎么保證可用性、穩(wěn)定性, Bootstrap 等,每個業(yè)務(wù)都有自己的規(guī)劃,按照業(yè)務(wù)需求怎么把整個業(yè)務(wù)環(huán)境全部交給業(yè)務(wù)方。阿里目前就遇到了很大的挑戰(zhàn),比如在國際化的擴張上,我們可能這個月需要在這里建個點,下個月需要在另一個地方建個點,怎么快速的完成整個資源,不僅僅是機器資源的交付,還有軟件資源的交付,是非常重要的。我們現(xiàn)在在擴展東南亞的業(yè)務(wù),怎么樣在東南亞快速的完成整個軟件資源的交付,對于我們的競爭是非常重要的。
變更是運維不可避開的坑
對于運維團隊來講,變更也是經(jīng)常要做的部分,變更信息的收攏,做應(yīng)用層面的變更,基礎(chǔ)網(wǎng)絡(luò)的 IDC 等等。
監(jiān)控預(yù)測潛在的故障
監(jiān)控對于阿里來講主要分為基礎(chǔ)、業(yè)務(wù)、鏈路,在監(jiān)控的基礎(chǔ)上要去做一些報警等。
穩(wěn)定性是不少企業(yè)追求的目標(biāo)
穩(wěn)定性這個概念我們以前認(rèn)為針對的是大公司,因為它可能會影響到大眾的生活,會比較敏感。但是現(xiàn)在新型的互聯(lián)網(wǎng)公司,如外賣,ofo、摩拜等,它的穩(wěn)定性要求比以前很多創(chuàng)業(yè)型公司更高,因為它有在那個點必須能用,如果不能用,對用戶會有直接的影響。所以穩(wěn)定性可能在整個運維行業(yè)會得到越來越高的重視,但是對于很多中小型公司,穩(wěn)定性的投入相當(dāng)大的。
一鍵建站讓規(guī)模化有力保障
像阿里在穩(wěn)定性上主要會去做多活體系的建設(shè),然后故障的修復(fù)、故障定位,然后還有一套全鏈路的壓測。規(guī)模化是很多運維團隊很痛苦的事情,可能今年機器在這個機房,明年你的基礎(chǔ)設(shè)施團隊可能告訴你,這個機房不夠用了,我們要換個機房。反正在阿里巴巴,很多的運維人員都說了,我們每年的工作中有一項不用寫的工作就是搬遷。雖然基礎(chǔ)設(shè)施團隊會承諾說三年內(nèi)不會再搬,可是到了明年他會跟你說,由于某些原因我們還是再搬一下,搬完之后三年不會讓你再搬。但是從我們過去發(fā)展的三年,每年都在搬。未來我們確實相信阿里巴巴,可能在未來搬遷會相對更少一點,我們認(rèn)為不能讓搬遷成為阿里巴巴運維團隊的核心競爭力。
我們在規(guī)模化層面做了很多事情,比如說我們做了一鍵建站,對于阿里來講,我們對機器資源的交付時間,要求會越來越高。比如說雙十一,是提前一個月交付資源還是提前兩個月還是提前三個月,對我們來講付出的錢是完全不一樣,而且可能相差非常大。
所以,技術(shù)層面能不能更好的把這個時間縮短,是非常重要的。所以一鍵建站的重要目的就是這個,每年雙十一我們都會拓展出非常多個站點,通過一鍵建站快速完成整個過程。搬遷就是我說的,反正我們每年都要搬,那我們應(yīng)該把搬遷這套系統(tǒng)做得更好。還有騰挪,阿里很多時候因為需要做一些業(yè)務(wù)資源的復(fù)用,最好是有一個機柜,這個時候怎么更好完成挪的過程也是很麻煩。
我們還需要做一些單元的調(diào)整,因為對阿里的交易系統(tǒng)來講是有單元的概念的,我們怎么更好的控制一個單元內(nèi)機器的比率是非常重要的。一個單元的機器數(shù)可能是比較固定的,那如果比率搭配不好,就意味著瓶頸點會非常明顯。
以上,正是阿里巴巴的運維團隊所覆蓋的五個領(lǐng)域。整個運維體系的演進過程,差不多都是從最早的腳本到工具到自動化,到未來的智能化。
從工具化到自動化過關(guān)斬將

免責(zé)聲明:本文僅代表作者個人觀點,與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
我要收藏
個贊
- 相關(guān)閱讀
- 業(yè)務(wù)信息化
- 戰(zhàn)略規(guī)劃
- IT運維與治理