智能時代,運維工程師該談什么?
后來我們發(fā)現(xiàn)運維系統(tǒng)有個最大的不同在于,運維系統(tǒng)對于成功率的追求比在線業(yè)務(wù)型系統(tǒng)更高一些。在線業(yè)務(wù)型系統(tǒng),比如說我在訪問后面一個地方有問題的時候,我們會選擇盡快把這個過程失敗掉,而不是把時間不斷的拖長以及不斷的試錯。在線系統(tǒng)會更加快的把錯誤往外拋。但是對于運維系統(tǒng)來講如果也這樣做,就意味著這個成功率非常難保障。所以運維系統(tǒng)要有更好的思考,怎么保障一次運維操作,這背后可能有幾十個系統(tǒng),而且多數(shù)是無數(shù)的團隊寫的,阿里以前碰到的情況就是無數(shù)個系統(tǒng),質(zhì)量層次不起,什么都有。怎么保證在這么復(fù)雜的環(huán)境下,保證對外的,對用戶層面這個成功率可以做到很高的。這是一個很大的問題。
規(guī)模帶來的挑戰(zhàn)也是不容小覷
隨著規(guī)模的不斷增長,所有開源類型的運維類的系統(tǒng),在規(guī)模化,當(dāng)你的機器規(guī)模等等其他規(guī)模上升到一個程度以后,通常來講都會面臨非常巨大的挑戰(zhàn)。阿里巴巴所有的這種類型的系統(tǒng),我們論證都是自己做是比較靠譜。最大的原因是規(guī)模,規(guī)模上去以后會遇到很多問題。像代碼托管、代碼編譯什么的,以前認為不會有太大的問題,事實證明規(guī)模上來以后這些里面全都是問題。我們也要投入非常大的精力去做規(guī)模方面的解決。
所以我覺得,阿里從以前的工具化走向更加自動化的過程中,我們探討的核心問題就是能不能有一個非常好的組織去完成這個過程。能讓運維的團隊更加轉(zhuǎn)型向 DevOps 這樣的方向。所以我們一直說,我們一直很糾結(jié)運維團隊到底應(yīng)該叫什么名字,我們一致認為,運維研發(fā)團隊,我們覺得不大對,你的主要的活其實是干研發(fā)而不是運維。但是叫研發(fā)運維又有點奇怪。后來阿里巴巴基本上是叫研發(fā)團隊。因為我們認為運維的研發(fā)團隊和在線業(yè)務(wù)的研發(fā)團隊沒有本質(zhì)區(qū)別,都是做研發(fā)的,只是一個在解決運維領(lǐng)域的業(yè)務(wù)問題。剛才講的五個層次,運維領(lǐng)域的業(yè)務(wù)問題,也是業(yè)務(wù),沒有什么區(qū)別。在線業(yè)務(wù),比如解決交易的問題,解決其他問題,這是完全一樣的。兩個研發(fā)團隊沒有本質(zhì)區(qū)別。
所以這個過程,阿里經(jīng)過過去這一年的組織調(diào)整以后,我們看到整個自動化層面,阿里有了很好的進展,但是離我們的期望還要更加努力繼續(xù)往前演進。
阿里巴巴在智能化領(lǐng)域的探尋之路
現(xiàn)在智能化這個話題特別火熱,就像我們說,AI 這個名字興起的時候,我們忽然發(fā)現(xiàn),阿里巴巴所有的業(yè)務(wù)都講 AI+ 自己的業(yè)務(wù),被所有人狂批一通。我們要想清楚,具不具備 AI 化的前提,可能前提都不具備就不斷探討這個名字。因為業(yè)界在不斷的炒熱非常多的名詞,讓大家去跟隨。
自動化是智能化的前提
對于我們來講,我們認為,比如說就像我對這個團隊,我自己的團隊講的一樣,我認為智能化最重要的前提是,一是自動化。如果你的系統(tǒng)還沒有完成自動化的過程,我認為就不要去做智能化,你還在前面的階段。智能化非常多的要求都是自動化,如果不夠自動化,意味著后邊看起來做了一個很好的智能化的算法等等,告訴別人我能給你很大的幫助,結(jié)果發(fā)現(xiàn)前面自動化過程還沒有做完全。
一個最典型的 case,阿里巴巴以前一直在講,我們認為資源的搭配上,其實可以做得更好。比如說你半夜流量比較小,白天流量比較大,你能不能更好的做一些彈性,把資源釋放出來去干點別的,然后白天再把它補起來。這從算法層面上并沒有那么復(fù)雜,從算法層面做到一個簡單的提升是很容易做的。所以,當(dāng)時我們就有很多團隊做了一個東西,可以做到這一點。結(jié)果等到落地的時候發(fā)現(xiàn),業(yè)務(wù)不能自動伸縮。如果你想,比如說有些機器上面負載特別高,有些機器特別低,我們希望負載能拉得更均衡,在線業(yè)務(wù)更加穩(wěn)定化,做一個算法,比如說背包,更好的去做組合,結(jié)果就是這個東西做完了,給出了建議說最好這個應(yīng)用調(diào)到那臺機器,那臺應(yīng)用調(diào)到這臺機器。給完之后業(yè)務(wù)團隊看了一眼,我們不干,因為干這些工作全部要手工干,你還每天給我建議,更不要干了,每天就來調(diào)機器了。
所以首先你要想明白你的前提,自動化,具不具備自動化的能力,不具備的話沒有必要在這方面做過多的投入。
數(shù)據(jù)結(jié)構(gòu)化是智能化的源動力
目前 AI 領(lǐng)域基本是靠暴力,暴力破解,未來可能有別的方向,但是目前的 AI 基本上是靠大量數(shù)據(jù)的積累去尋找一個東西出來,所以它一定需要有大量的數(shù)據(jù)積累,數(shù)據(jù)包括非常多的東西,對于運維來講,可能基礎(chǔ)層面的數(shù)據(jù),機器的數(shù)據(jù),運維變更的數(shù)據(jù),上面還有一些場景化的數(shù)據(jù),比如你解決故障,有沒有更好的結(jié)構(gòu)化的收集數(shù)據(jù),這是非常重要的。數(shù)據(jù)這個層面比較難做的在于, 在最開始階段,多數(shù)公司的運維數(shù)據(jù)都是不夠結(jié)構(gòu)化的,結(jié)構(gòu)化不會做得那么好,當(dāng)然會有結(jié)構(gòu)化,但是結(jié)構(gòu)化的因素不會足夠好。
就像阿里巴巴在講,我們在電商領(lǐng)域 AI 化,我們最大的優(yōu)勢就是不斷對外部講,我們擁有的是結(jié)構(gòu)化的商品數(shù)據(jù),其他公司最多從我們這里扒結(jié)構(gòu)化的商品數(shù)據(jù)。你扒過去之后還要自己分析,并且做商品結(jié)構(gòu)的調(diào)整,這非常困難。但是阿里巴巴自己天然,所有人都會幫你把結(jié)構(gòu)做得非常好。所以對運維來講也是一樣,如果你想在智能化上有更多的突破,數(shù)據(jù)怎么更好的做結(jié)構(gòu)化,是一個非常大的挑戰(zhàn)。你很難想清楚。這兩個地方是我覺得首先要想清楚的。
智能化最適合的運維場景
從目前來看,對于運維場景來講,智能化特別適合解決的問題就兩種,對于所有行業(yè)好像都差不多,第一是規(guī)模,第二是復(fù)雜。規(guī)模就意味著,我有很多的機器,在很多機器中我要尋找出一個機器的問題,這對于,因為規(guī)模太大了,這時候?qū)τ谟脗鹘y(tǒng)的方式,將非常難解決這個問題。或者你要投入非常大的人力等等,有點得不償失。規(guī)模上來以后怎么更好的解決規(guī)模的問題,智能化會帶來一些幫助。第二是復(fù)雜,比如說你的應(yīng)用從原來的一個應(yīng)用變成了幾千個、上萬個、幾十萬個,這時候你要尋找出其中哪個應(yīng)用的問題,將是非常復(fù)雜的問題。所以復(fù)雜度的問題是人類用人腦非常難推演的,但是機器相對來講是更容易做的。這是阿里有些團隊希望嘗試智能化的方向,通常我們會看是不是在前面的這些前提條件上都具備。如果都具備了,那可以去探索一下。所以我講,阿里其實目前處于整個智能化運維的探索階段,而不是全面展開階段。

- 相關(guān)閱讀
- 業(yè)務(wù)信息化
- 戰(zhàn)略規(guī)劃
- IT運維與治理