智能時代,運維工程師該談什么?
后來我們發現運維系統有個最大的不同在于,運維系統對于成功率的追求比在線業務型系統更高一些。在線業務型系統,比如說我在訪問后面一個地方有問題的時候,我們會選擇盡快把這個過程失敗掉,而不是把時間不斷的拖長以及不斷的試錯。在線系統會更加快的把錯誤往外拋。但是對于運維系統來講如果也這樣做,就意味著這個成功率非常難保障。所以運維系統要有更好的思考,怎么保障一次運維操作,這背后可能有幾十個系統,而且多數是無數的團隊寫的,阿里以前碰到的情況就是無數個系統,質量層次不起,什么都有。怎么保證在這么復雜的環境下,保證對外的,對用戶層面這個成功率可以做到很高的。這是一個很大的問題。
規模帶來的挑戰也是不容小覷
隨著規模的不斷增長,所有開源類型的運維類的系統,在規模化,當你的機器規模等等其他規模上升到一個程度以后,通常來講都會面臨非常巨大的挑戰。阿里巴巴所有的這種類型的系統,我們論證都是自己做是比較靠譜。最大的原因是規模,規模上去以后會遇到很多問題。像代碼托管、代碼編譯什么的,以前認為不會有太大的問題,事實證明規模上來以后這些里面全都是問題。我們也要投入非常大的精力去做規模方面的解決。
所以我覺得,阿里從以前的工具化走向更加自動化的過程中,我們探討的核心問題就是能不能有一個非常好的組織去完成這個過程。能讓運維的團隊更加轉型向 DevOps 這樣的方向。所以我們一直說,我們一直很糾結運維團隊到底應該叫什么名字,我們一致認為,運維研發團隊,我們覺得不大對,你的主要的活其實是干研發而不是運維。但是叫研發運維又有點奇怪。后來阿里巴巴基本上是叫研發團隊。因為我們認為運維的研發團隊和在線業務的研發團隊沒有本質區別,都是做研發的,只是一個在解決運維領域的業務問題。剛才講的五個層次,運維領域的業務問題,也是業務,沒有什么區別。在線業務,比如解決交易的問題,解決其他問題,這是完全一樣的。兩個研發團隊沒有本質區別。
所以這個過程,阿里經過過去這一年的組織調整以后,我們看到整個自動化層面,阿里有了很好的進展,但是離我們的期望還要更加努力繼續往前演進。
阿里巴巴在智能化領域的探尋之路
現在智能化這個話題特別火熱,就像我們說,AI 這個名字興起的時候,我們忽然發現,阿里巴巴所有的業務都講 AI+ 自己的業務,被所有人狂批一通。我們要想清楚,具不具備 AI 化的前提,可能前提都不具備就不斷探討這個名字。因為業界在不斷的炒熱非常多的名詞,讓大家去跟隨。
自動化是智能化的前提
對于我們來講,我們認為,比如說就像我對這個團隊,我自己的團隊講的一樣,我認為智能化最重要的前提是,一是自動化。如果你的系統還沒有完成自動化的過程,我認為就不要去做智能化,你還在前面的階段。智能化非常多的要求都是自動化,如果不夠自動化,意味著后邊看起來做了一個很好的智能化的算法等等,告訴別人我能給你很大的幫助,結果發現前面自動化過程還沒有做完全。
一個最典型的 case,阿里巴巴以前一直在講,我們認為資源的搭配上,其實可以做得更好。比如說你半夜流量比較小,白天流量比較大,你能不能更好的做一些彈性,把資源釋放出來去干點別的,然后白天再把它補起來。這從算法層面上并沒有那么復雜,從算法層面做到一個簡單的提升是很容易做的。所以,當時我們就有很多團隊做了一個東西,可以做到這一點。結果等到落地的時候發現,業務不能自動伸縮。如果你想,比如說有些機器上面負載特別高,有些機器特別低,我們希望負載能拉得更均衡,在線業務更加穩定化,做一個算法,比如說背包,更好的去做組合,結果就是這個東西做完了,給出了建議說最好這個應用調到那臺機器,那臺應用調到這臺機器。給完之后業務團隊看了一眼,我們不干,因為干這些工作全部要手工干,你還每天給我建議,更不要干了,每天就來調機器了。
所以首先你要想明白你的前提,自動化,具不具備自動化的能力,不具備的話沒有必要在這方面做過多的投入。
數據結構化是智能化的源動力
目前 AI 領域基本是靠暴力,暴力破解,未來可能有別的方向,但是目前的 AI 基本上是靠大量數據的積累去尋找一個東西出來,所以它一定需要有大量的數據積累,數據包括非常多的東西,對于運維來講,可能基礎層面的數據,機器的數據,運維變更的數據,上面還有一些場景化的數據,比如你解決故障,有沒有更好的結構化的收集數據,這是非常重要的。數據這個層面比較難做的在于, 在最開始階段,多數公司的運維數據都是不夠結構化的,結構化不會做得那么好,當然會有結構化,但是結構化的因素不會足夠好。
就像阿里巴巴在講,我們在電商領域 AI 化,我們最大的優勢就是不斷對外部講,我們擁有的是結構化的商品數據,其他公司最多從我們這里扒結構化的商品數據。你扒過去之后還要自己分析,并且做商品結構的調整,這非常困難。但是阿里巴巴自己天然,所有人都會幫你把結構做得非常好。所以對運維來講也是一樣,如果你想在智能化上有更多的突破,數據怎么更好的做結構化,是一個非常大的挑戰。你很難想清楚。這兩個地方是我覺得首先要想清楚的。
智能化最適合的運維場景
從目前來看,對于運維場景來講,智能化特別適合解決的問題就兩種,對于所有行業好像都差不多,第一是規模,第二是復雜。規模就意味著,我有很多的機器,在很多機器中我要尋找出一個機器的問題,這對于,因為規模太大了,這時候對于用傳統的方式,將非常難解決這個問題。或者你要投入非常大的人力等等,有點得不償失。規模上來以后怎么更好的解決規模的問題,智能化會帶來一些幫助。第二是復雜,比如說你的應用從原來的一個應用變成了幾千個、上萬個、幾十萬個,這時候你要尋找出其中哪個應用的問題,將是非常復雜的問題。所以復雜度的問題是人類用人腦非常難推演的,但是機器相對來講是更容易做的。這是阿里有些團隊希望嘗試智能化的方向,通常我們會看是不是在前面的這些前提條件上都具備。如果都具備了,那可以去探索一下。所以我講,阿里其實目前處于整個智能化運維的探索階段,而不是全面展開階段。
責任編輯:任我行
-
碳中和戰略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
國家發改委、國家能源局:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業
-
碳中和戰略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報告 | 基于分類監管與當量協同的碳市場框架設計方案
2020-07-21碳市場,碳排放,碳交易 -
碳市場讓重慶能源轉型與經濟發展并進
2020-07-21碳市場,碳排放,重慶
-
兩部門:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
國家發改委、國家能源局:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
2020年二季度福建省統調燃煤電廠節能減排信息披露
2020-07-21火電環保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國能源替代規范法律問題研究(上)
2019-10-31能源替代規范法律 -
區域鏈結構對于數據中心有什么影響?這個影響是好是壞呢!