智能時代,運維工程師該談什么?
阿里巴巴智能化運維五步走
簡單講一下我們在各個領(lǐng)域目前在智能化這個領(lǐng)域,在運維這五個領(lǐng)域,對于我們講,智能化我們看到的一些可能性,包括我們正在做的事情。
資源的重點是成本
基礎(chǔ)設(shè)施選型
對于資源這一塊,整個公司層面最為關(guān)注的問題,就是成本。你交付的資源具不具備最低的成本,這個智能化確實可以給非常大的幫助。比如第一點,怎么更好的規(guī)劃這家公司機型、網(wǎng)絡(luò)和整個數(shù)據(jù)中心,這為什么要用智能化的手段在于,一個數(shù)據(jù)中心的選址來自非常多的因素,除了政府層面的政策因素之外,還有很多其他因素需要考慮,比如說氣候等等各種各樣的因素,都需要在這個階段去考慮。你需要通過大量數(shù)據(jù)的積累來分析,比如在中國,在海外,到底有那些地方是對你的業(yè)務(wù)發(fā)展策略來講最適合的,是在哪里,這要確定一個范圍,在一個范圍基礎(chǔ)上是進一步的人的建立。對于網(wǎng)絡(luò)、機型來講,目前我們認為最可以做的在于,可能因為阿里的模式跟有些公司不一樣,阿里更多的機器都來自同一個部門,基本上是同一個部門在教阿里巴巴所有的機器。這就有巨大的好處了,因為都在一個團隊。比如阿里巴巴在去年開始建設(shè)統(tǒng)一的調(diào)度系統(tǒng),更大的好處就來了,因為大家所有的資源都來自同一個地方,這個地方就收集了整個阿里巴巴的所有的資源需求、數(shù)據(jù),數(shù)據(jù)全部在它手上。
如果你結(jié)合這個數(shù)據(jù),以及它實際的運行情況,更好的就可以去推導(dǎo),比如說對于阿里巴巴來講最合適的機型是什么,這個阿里大概在去年就開始做嘗試。在去年以前所有的過程,阿里巴巴,比如說明年我的服務(wù)器的機型,所謂機型,這里講的機型的含義主要是比率問題,不是選擇下一代什么樣的 CPU,那是硬件發(fā)展決定的。但是比率因素,以前我們更多的是人腦拍,人肉智能。人肉智能在一定階段是更加高階的,過了那個階段之后人就比不過機器了。團隊說我們明年要買的機型里面的配置大概是這樣的,人算了一下,就這樣吧,就可以拍掉。去年開始我們引入了一套系統(tǒng),這套系統(tǒng)會分析所有的數(shù)據(jù)以及錢,最重要的是錢,然后分析一下整個過程,推演對我們來說最合算的是什么。所以適合的機型到底是什么。
如果有一套非常好的推演的系統(tǒng),來推演你的機型、網(wǎng)絡(luò)、IDC 未來應(yīng)該怎么規(guī)劃,這對于成本領(lǐng)域?qū)a(chǎn)生巨大的幫助。比如說網(wǎng)絡(luò),現(xiàn)在的發(fā)展,萬兆,25G、45G、100G,你認為對于你的公司來講最合適的是什么?多數(shù)公司八成就是人腦一拍就決定了,但是事實上可能不是這樣。
DC 大腦,讓控制更加智能化
DC 大腦,這個現(xiàn)在比較火,這個領(lǐng)域現(xiàn)在非常火爆,火爆的主要原因有可能是因為去年谷歌的一篇文章,谷歌去年發(fā)表了一篇文章,里面有一個消息透露了一下,他們通過更好的智能化,去控制整個機房的智能等等。比如說控制空調(diào)的出口,就是那個風(fēng)向往哪邊吹,控制這個,然后為谷歌節(jié)省了非常多的錢,非常可觀。所以對于很多數(shù)據(jù)中心團隊來講,現(xiàn)在都在研究這個領(lǐng)域。因為這個領(lǐng)域?qū)嵲谔″X了。
我們后來類比了一下,我們說其實大多數(shù)人,可能你很難感覺數(shù)據(jù)中心,但是你最容易感覺的是另外一個地方,你的辦公室。比如說我們以前說,阿里巴巴一到夏天的時候,辦公室實在是太冷了,比外面冷多了。如果能夠更好的控制溫度,對于我們來講就會有巨大的幫助,對公司來講可能會更加省錢。所以怎么樣做好這個非常重要。
彈性伸縮最大的前提是實現(xiàn)自動化
彈性伸縮,這是無數(shù)運維團隊都想做的事情,研發(fā)團隊說,業(yè)務(wù)團隊說,我要一百臺機器,你也不好反駁他,最后上線了一百臺,你發(fā)現(xiàn)他用十臺就夠了。但是你也很難跟他糾結(jié)這個問題,好像無數(shù)的運維團隊都在嘗試彈性伸縮。但是我說了,彈性伸縮最大的前提就是自動化,如果沒有自動化也沒有什么意義。
資源畫像讓資源更好搭配
資源怎么更好的搭配,阿里巴巴在嘗試做資源的畫像。對于所有的在線業(yè)務(wù)來講,它的趨勢比較好預(yù)測,多數(shù)在線業(yè)務(wù),只有少數(shù)的在線業(yè)務(wù)不大好預(yù)測。多數(shù)在線業(yè)務(wù)是一個模式,如果預(yù)測得非常好,讓資源有合理的搭配,對于這家公司的資源將會產(chǎn)生巨大的幫助。
可以下降 30% 由變更引起的故障

- 相關(guān)閱讀
- 業(yè)務(wù)信息化
- 戰(zhàn)略規(guī)劃
- IT運維與治理