智能時(shí)代,運(yùn)維工程師該談什么?
每家公司對(duì)于所謂運(yùn)維團(tuán)隊(duì)到底應(yīng)該做些什么,都有各自的看法。本文首先由阿里巴巴的運(yùn)維團(tuán)隊(duì)在整個(gè)阿里巴巴的業(yè)務(wù)里承擔(dān)的責(zé)任為切入點(diǎn)...
從工具化到自動(dòng)化這個(gè)層面,過程并沒有那么的容易,以及對(duì)整個(gè)行業(yè)來講,目前更多的工作仍然是在探尋自動(dòng)化,怎么樣讓自動(dòng)化真正的被實(shí)現(xiàn)得更好。
這個(gè)行業(yè)的發(fā)展跟其他傳統(tǒng)的軟件,標(biāo)準(zhǔn)的軟件研發(fā)行業(yè),我覺得很不一樣。比如說阿里從工具化到自動(dòng)化這個(gè)過程中,我們認(rèn)為工具化,其實(shí)挑戰(zhàn)相對(duì)小,即使傳統(tǒng)的運(yùn)維人員也很容易寫一些工具,比如用 Python 去寫更多的工具體系。但是如果你的工具最重要變成能夠到自動(dòng)化這個(gè)階段,就意味著對(duì)工具的要求會(huì)越來越高,比如說工具的質(zhì)量,如果你寫出來的工具經(jīng)常有問題,規(guī)模一大就扛不住,這個(gè)時(shí)候?qū)τ诖蠹襾碇v慢慢會(huì)越來越失去信任感。最后會(huì)很難完成這個(gè)過程。
運(yùn)維團(tuán)隊(duì)轉(zhuǎn)型研發(fā)團(tuán)隊(duì) 組織能力是最大的壁壘
阿里過去走這條路的過程中,我們覺得最大的挑戰(zhàn)是組織的能力問題。運(yùn)維團(tuán)隊(duì)怎么樣更好的完成朝研發(fā)團(tuán)隊(duì)的轉(zhuǎn)型,這個(gè)過程對(duì)于很多運(yùn)維團(tuán)隊(duì)來講都是巨大的挑戰(zhàn)。對(duì)于一個(gè)組織來講怎么完成這個(gè)過程也是非常重要的。
我想很多團(tuán)隊(duì)都有這個(gè)感受,工具研發(fā)的團(tuán)隊(duì)跟做運(yùn)維操作的團(tuán)隊(duì)之間,很容易產(chǎn)生一些沖突等等。所以阿里巴巴在走這個(gè)過程的時(shí)候,思考的核心就是怎么讓一個(gè)運(yùn)維團(tuán)隊(duì)真正從組織能力上,演變成我們所需要的更好的團(tuán)隊(duì)。
阿里在走這條路的時(shí)候,走了四個(gè)過程。這個(gè)過程阿里在不斷的摸索,最終到現(xiàn)在為止我們認(rèn)為阿里的方式相對(duì)來講還是不錯(cuò)的。我們最早跟大部分公司一樣,有一個(gè)專職的工具研發(fā)團(tuán)隊(duì)和一個(gè)專職的運(yùn)維團(tuán)隊(duì)。工具研發(fā)團(tuán)隊(duì)做工具,做出來給運(yùn)維團(tuán)隊(duì)用。這個(gè)過程中容易出現(xiàn)的最明顯的問題就是工具做完了,運(yùn)維團(tuán)隊(duì)說這個(gè)工具太難用了,不符合需求。要么就是運(yùn)維團(tuán)隊(duì)執(zhí)行的過程中,經(jīng)常出問題,出問題還要找工具研發(fā)團(tuán)隊(duì)來幫忙查問題在哪里。本來運(yùn)維幾行腳本全部能搞定的問題,結(jié)果還要依賴工具團(tuán)隊(duì)。慢慢這個(gè)局面越來越難突破,很難改變。
所以阿里后來做了一個(gè)嘗試,既然兩個(gè)團(tuán)隊(duì)很難做很好的結(jié)合,那有一種方式是工具研發(fā)團(tuán)隊(duì)做完工具以后,比如說做了一個(gè)發(fā)布,做完這個(gè)功能以后,這個(gè)運(yùn)維工作就徹底交給工具研發(fā)團(tuán)隊(duì),不讓運(yùn)維團(tuán)隊(duì)做了,運(yùn)維團(tuán)隊(duì)就可以做一些別的事情。這個(gè)模式看起來就是逐步接管的模式,讓工具研發(fā)團(tuán)隊(duì)逐步解耦。
這個(gè)做了一段時(shí)間,碰到的最大問題還是組織能力問題。對(duì)于運(yùn)維工具來講,質(zhì)量怎么做到很高,運(yùn)維好像很容易做的樣子,但是實(shí)際上運(yùn)維工具相當(dāng)難做,它的復(fù)雜度比在線業(yè)務(wù)更大,就是它不是邏輯上的復(fù)雜,更多的是環(huán)境層面的復(fù)雜。因?yàn)楸热鐣?huì)涉及網(wǎng)絡(luò)涉及服務(wù)器涉及機(jī)房等等,這跟業(yè)務(wù)完全不一樣。所以做了一段時(shí)間之后,我們覺得這還是一個(gè)問題。
將工具的研發(fā)和運(yùn)維融為一體 突破組織能力問題
后面我們做完這輪之后又開始做另外一個(gè)方向的嘗試,讓工具的研發(fā)團(tuán)隊(duì)和運(yùn)維團(tuán)隊(duì)做一個(gè)融合。所謂的融合就是把很多工具研發(fā)的人分派給運(yùn)維團(tuán)隊(duì),到運(yùn)維團(tuán)隊(duì)去做。我們期望通過工具研發(fā)的人帶動(dòng)整個(gè)運(yùn)維團(tuán)隊(duì)轉(zhuǎn)變成研發(fā)型團(tuán)隊(duì)。這是我們的思路。
阿里巴巴在走前面這三步的時(shí)候,大概花了近一年半左右,意味著這其中我們大概做了三輪組織結(jié)構(gòu)調(diào)整。因?yàn)槲覀冋J(rèn)為這些都是要有組織層面的保障才能被實(shí)現(xiàn)的。
DevOps是如何真正落地的
去年6月,我們做了一個(gè)最大的組織結(jié)構(gòu)調(diào)整,把日常的運(yùn)維工作交給研發(fā)做,研發(fā)自己會(huì)把日常的運(yùn)維工作都做掉。但并不是說所有運(yùn)維工作,現(xiàn)在仍然有一個(gè)做運(yùn)維的團(tuán)隊(duì),這個(gè)運(yùn)維團(tuán)隊(duì)相對(duì)來講更不一樣,跟以前有非常大的不同。
我們認(rèn)為這是DevOps真正的被徹底的執(zhí)行。因?yàn)檫@個(gè)好處是,日常的運(yùn)維工作交給了研發(fā),運(yùn)維團(tuán)隊(duì)轉(zhuǎn)變成研發(fā)團(tuán)隊(duì)這個(gè)過程非常困難,其實(shí)不完全是能力上的差距,更大的原因是,運(yùn)維團(tuán)隊(duì)要承擔(dān)非常多的日常雜活,尤其像集團(tuán)性的公司,不管是阿里、騰訊、百度都一樣,集團(tuán)性的公司多數(shù)支撐的 BU 都是無數(shù)個(gè)。你一個(gè)人支撐二十個(gè) BU 一個(gè) BU 里面一天有一個(gè)人找你,你一天就不用干別的活了,你一天就在跟他們不斷的聊天,做操作,嘴里又叫著這個(gè)團(tuán)隊(duì)要升級(jí),要做組織升級(jí),要轉(zhuǎn)變成研發(fā)團(tuán)隊(duì),實(shí)際上就是逼別人走向了一條死路。
所以我們認(rèn)為,谷歌的做法,谷歌在 SRE 那本書提到的是,會(huì)強(qiáng)制留 50% 的時(shí)間給研發(fā)團(tuán)隊(duì)做研發(fā)工作。這個(gè)說實(shí)話,在大多數(shù)公司很難執(zhí)行這個(gè)政策,除非運(yùn)維團(tuán)隊(duì)跟研發(fā)團(tuán)隊(duì)有非常強(qiáng)的話語權(quán)。但這個(gè)很難。所以阿里的做法我認(rèn)為更為徹底,阿里告訴研發(fā)團(tuán)隊(duì),以后日常運(yùn)維的工作不要找運(yùn)維團(tuán)隊(duì),自己干。這可能粗暴了一點(diǎn),在運(yùn)維體系還沒有準(zhǔn)備得很好的情況下做了這個(gè)事情,所以后面相對(duì)來講也導(dǎo)致了問題,比如說運(yùn)維工具四處建設(shè)、重復(fù)建設(shè)等等現(xiàn)象。但是從組織層面上來講,我們很欣慰的看到,在做完這輪組織調(diào)整過后的一年后,運(yùn)維團(tuán)隊(duì)的大多數(shù)人更多的時(shí)間是投入在研發(fā)工作上,而不是投入在日常的雜事上。我們看到了一個(gè)團(tuán)隊(duì)的能力,在經(jīng)過這一輪的調(diào)整得到了非常好的升級(jí)。而這對(duì)于組織來講是最大的利好。所以我們認(rèn)為,這種模式是阿里現(xiàn)在最為推崇也最為看好的一個(gè)方向,這樣整個(gè)運(yùn)維團(tuán)隊(duì)將專注在我剛才講的五個(gè)部分的系統(tǒng)層面的研發(fā)以及建設(shè)上,而不是雜活上。這是阿里從工具化到自動(dòng)化,最主要是這樣的一個(gè)過程。
成功率是衡量自動(dòng)化運(yùn)維的關(guān)鍵指標(biāo)
對(duì)于自動(dòng)化來講最重要的問題是成功率,比如我們看所有的運(yùn)維操作中,我們最關(guān)心的指標(biāo)是成功率。比如一個(gè)運(yùn)維系統(tǒng)里面的功能,在一個(gè)星期內(nèi),比如說會(huì)用幾十萬次,我們只關(guān)注成功率能不能做到 4 個(gè) 9 以上,否則算一下工單數(shù)就懂了,這個(gè)運(yùn)維團(tuán)隊(duì)得有多少人支持這件事情,這些人又沒有時(shí)間去干研發(fā)的活,又要投入大量的精力做支持性的工作。所以我們?cè)诔晒β噬弦龅椒浅8叩谋U希\(yùn)維系統(tǒng)我們以前看過是面臨最大的挑戰(zhàn),我以前的背景全部是做在線業(yè)務(wù)型的系統(tǒng),比如淘寶的交易等等。

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
- 相關(guān)閱讀
- 業(yè)務(wù)信息化
- 戰(zhàn)略規(guī)劃
- IT運(yùn)維與治理
-
從SCADA入手強(qiáng)化工控系統(tǒng)安全風(fēng)險(xiǎn)
-
展望2018 AI芯片領(lǐng)域:眾多廠商追隨深度學(xué)習(xí)
-
企業(yè)沒有專注于其最大的IT安全威脅的6個(gè)原因
-
展望2018 AI芯片領(lǐng)域:眾多廠商追隨深度學(xué)習(xí)
-
區(qū)塊鏈概念大熱的背后,真正的價(jià)值在這里
-
【觀點(diǎn)】區(qū)塊鏈的火熱,是不是一場(chǎng)錯(cuò)覺游戲