智能時代,運維工程師該談什么?
每家公司對于所謂運維團隊到底應該做些什么,都有各自的看法。本文首先由阿里巴巴的運維團隊在整個阿里巴巴的業務里承擔的責任為切入點...
我們以前一直都認為定位這個問題不是個大問題,如果我能快速修復,定位,你慢慢定好了,定個兩天我也無所謂。但是現在阿里特別重視的原因在于,故障定位損耗了我們非常多的人力,耗費了我們非常大的團隊力量。所以我們認為需要有更智能化的方法,把故障定位出來,以助研發團隊更專注投入在其他事情上。比如現在故障一出來,研發查了半天,一看,跟它都沒有什么關系。所以就浪費了很多,這張圖是我們現在在做的一套系統,從一個異常,那里標一二三四五,當有一個異常出來之后,第一步發現,第二步不斷的分析,一直定位到最后到底是哪個地方出了問題,我們的目標是最后盡可能定位到代碼層面的問題,或者是網絡或者是基礎設施等等。
邊壓邊彈 做好規模化運維
目前對阿里來講最重要的問題還是效率問題。比如說我們在每年準備雙十一容量的時候,很多人都知道阿里有全鏈路壓測,一個最重要的目的就是調整容量,怎么把一個機房的容量調整成比率是最合適的,比如說 A 應用可能是瓶頸,但是事實上如果搭配得好,A 應用就不再是瓶頸。所以怎么樣讓一個固定機器數下做一個最好的搭配,我們以前是壓一輪調整一下,再壓一輪再調整一下,這非常耗費一堆人通宵的精力。我們認為這個過程需要提升,現在改成非常簡單的模式,流量過來以后不斷的自動調整容量比例,我們會有一個所謂邊壓邊彈,一邊壓測一邊調整比例。相信很多運維同學都干過這個事情,因為業務方給你一個指標,你是要算的,而且很難算的很精準。邊壓邊彈意味著你不需要算得很精準,粗略算一個數就可以了,后面靠這套系統自動給你調平衡。
阿里巴巴在這五個方面,在智能化方面做的探索,阿里認為我們還不足以所有的領域都去覆蓋。
未來運維領域需要突破的防線
無人化 讓夢想照進現實
我認為現在運維這個領域中最大的挑戰仍然是,能不能真正的走向無人化,整個過程中是完全沒有人的。
從目前來看,要做到無人化最重要的是質量問題,質量做得不夠好是沒有辦法無人化的。另外如果出問題了能不能自動修復等等,所以我們認為無人化對運維領域是最大的挑戰,能不能把這個落地變成現實,奠定了智能化的基礎。如果說智能化所有的動作要人介入,那基本就不用做了。
智能化 帶來效率上的質變
在智能化這一點上,第一點是有效性的問題,如果這個智能表現得比人的智力還差一些,這個慢慢就沒有人相信這個東西了。所以怎么樣把有效性提升上來,另外最重要的是要看到智能化給運維領域帶來效率上的質變。智能化投入非常大,要做大量的收集做大量的分析。所以最好帶來的是質變而不只是量變,如果只是量變可能投入都收不回來。對于所有公司而言,更少的人更低的成本是非常重要的。人最好投入在一些更重要的研發等等事情上。

免責聲明:本文僅代表作者個人觀點,與本站無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
我要收藏
個贊
-
區塊鏈跨域安全解決方案
-
2018年的五個網絡安全預測
2018-01-25網絡安全 -
中國公有云幸存者特質分析