SAP公司宋一平:數(shù)據(jù)庫(kù)升級(jí)的風(fēng)險(xiǎn)和化解方法
工商銀行6 23事件讓人們更加關(guān)注核心系統(tǒng)的高可用性,從報(bào)道看,起因于數(shù)據(jù)庫(kù)系統(tǒng)升級(jí)。如何化解類似風(fēng)險(xiǎn)呢?從技術(shù)上看應(yīng)對(duì)是否得當(dāng)?…… 帶著這樣的問(wèn)題,我求教了SAP(73 02,-0 67,-0 91%)公司
工商銀行” 6.23事件”讓人們更加關(guān)注核心系統(tǒng)的高可用性,從報(bào)道看,起因于數(shù)據(jù)庫(kù)系統(tǒng)升級(jí)。如何化解類似風(fēng)險(xiǎn)呢?從技術(shù)上看應(yīng)對(duì)是否得當(dāng)?……
帶著這樣的問(wèn)題,我求教了SAP(73.02,-0.67,-0.91%)公司數(shù)據(jù)庫(kù)及技術(shù)平臺(tái)部售前總監(jiān)宋一平先生。宋先生從事數(shù)據(jù)庫(kù)多年,參與并領(lǐng)導(dǎo)了Sybase數(shù)據(jù)庫(kù)在金融、電信、政府、能源交通等主要行業(yè)的方案討論、系統(tǒng)論證、產(chǎn)品配置、技術(shù)答標(biāo)、評(píng)審、技術(shù)咨詢和項(xiàng)目鑒定等工作;主持過(guò)國(guó)內(nèi)重大行業(yè)事件故障調(diào)查工作,行業(yè)實(shí)戰(zhàn)經(jīng)驗(yàn)豐富。2010年8月Sybase公司被SAP公司收購(gòu)。
非軟件升級(jí)事故
就“6.23”事件而言,系統(tǒng)故障與軟件升級(jí)有關(guān),由軟件升級(jí)帶來(lái),但并不屬于軟件升級(jí)事故。故障是由軟件的Bug所造成的,按工行描述是由于 DB2 數(shù)據(jù)庫(kù)V10版本內(nèi)存清理機(jī)制存在缺陷所引發(fā)。從過(guò)程來(lái)看,升級(jí)已在前一天晚上順利完成。新數(shù)據(jù)庫(kù)版本投入使用,由于自身Bug,造成了系統(tǒng)的故障。這與 突發(fā)硬件故障在性質(zhì)上是完全一樣的。對(duì)于這種軟件的Bug并不是通過(guò)測(cè)試就可以完全解決的。
宋一平表示:“對(duì)于軟件,目前還沒(méi)有方法來(lái)驗(yàn)證其完全正確性,軟件行業(yè)有一句話,軟件總是有Bug,看你遇到遇不到。” 工商銀行很不幸,遇到了所謂“內(nèi)存清理機(jī)制”Bug。由于事發(fā)時(shí)間接近,很容易被認(rèn)為是一次軟件升級(jí)事故。試想一下,如果不是時(shí)間接近,還會(huì)有人將故障歸罪于軟件升級(jí)嗎?
“對(duì)于關(guān)鍵業(yè)務(wù)系統(tǒng),補(bǔ)丁不是隨便打的,需要進(jìn)行壓力測(cè)試。”宋一平說(shuō)。據(jù)他介紹系統(tǒng)升級(jí)通常需要進(jìn)行壓力測(cè)試,因此類似工商銀行業(yè)務(wù)處理的峰 值數(shù)據(jù)一定是測(cè)試過(guò),而且測(cè)試數(shù)據(jù)會(huì)更高一些,只有測(cè)試沒(méi)有問(wèn)題,才會(huì)對(duì)系統(tǒng)進(jìn)行升級(jí),而且升級(jí)需要制定詳細(xì)的預(yù)案,選擇最適合的時(shí)間進(jìn)行。
宋一平表示,首先升級(jí)容災(zāi)中心是一種較為穩(wěn)妥的方式,使用穩(wěn)定后,再投入生產(chǎn)中心使用,以求最大程度降低升級(jí)風(fēng)險(xiǎn)。但即使如此,生產(chǎn)中心實(shí)際環(huán)境畢竟還是存在著一定差別,因此無(wú)法完全避免類似事件的發(fā)生。
容災(zāi)中心切換之謎
宋一平也曾參加過(guò)一些突發(fā)事件的應(yīng)急處理。“對(duì)故障原因的查找會(huì)有一個(gè)時(shí)限,并不是無(wú)限期查找,通常也就是15分鐘,超過(guò)這個(gè)時(shí)限,就應(yīng)該切換容災(zāi)中心。”宋一平說(shuō)。
在“兩地三中心”進(jìn)行系統(tǒng)升級(jí)的策略上,宋一平的意見是首先測(cè)試容災(zāi)中心,然后升級(jí)生產(chǎn)中心。但也有意見認(rèn)為,容災(zāi)中心升級(jí)可以暫緩。不升級(jí)容災(zāi)中心,會(huì)有一段時(shí)間數(shù)據(jù)不同步,但借助RAID、快照、冗余等硬件技術(shù),以及數(shù)據(jù)庫(kù)日志等軟件手段,仍然可以防止數(shù)據(jù)丟失,業(yè)務(wù)風(fēng)險(xiǎn)性并不是太高。
對(duì)于事故處理,工行采取了系統(tǒng)回退的做法。宋一平表示,在實(shí)際升級(jí)的案例中,系統(tǒng)回退采用并不多,但在升級(jí)前一定要做好系統(tǒng)回退的預(yù)案。系統(tǒng)回 退由于需要靠人工來(lái)進(jìn)行恢復(fù),其所花費(fèi)的時(shí)間一定會(huì)長(zhǎng),它往往是升級(jí)失敗所采取的一種措施。針對(duì)類似“6.23事件”的偶發(fā)故障,如果不能在短時(shí)間內(nèi)解 決,最好還是切換到容災(zāi)中心。
目前很多用戶擔(dān)心切換的問(wèn)題,對(duì)切換容災(zāi)中心的把握不高。實(shí)際上,銀行每月都需要進(jìn)行切換的演練,應(yīng)該可以解決切換的問(wèn)題。
“集中、分布”老話重提
“6.23事件”造成廣泛影響是因?yàn)楣ば心壳安扇〈蠹心J?,類似于把雞蛋放在同一個(gè)籃子里,一旦發(fā)生災(zāi)難牽涉甚廣。如果采用分布式,也可以合理分擔(dān)風(fēng)險(xiǎn)。
所謂合久必分,分久必合。銀行大集中模式已經(jīng)實(shí)現(xiàn)了10多年,通過(guò)中央集權(quán)解決了權(quán)力分散所帶來(lái)的業(yè)務(wù)風(fēng)險(xiǎn),避免類似“巴林銀行倒閉事件”的發(fā)生。但業(yè)務(wù)大集中也帶來(lái)的系統(tǒng)風(fēng)險(xiǎn)的大集中。
以互聯(lián)網(wǎng)企業(yè)為代表,借助分布式集群以及總體框架設(shè)計(jì),有效降低故障風(fēng)險(xiǎn)的影響范圍,提供整體業(yè)務(wù)連續(xù)性。這種架構(gòu)設(shè)計(jì)會(huì)被銀行所采用嗎?
本質(zhì)上看,銀行是一個(gè)保守企業(yè)。另外,銀行有很多的傳統(tǒng),也是包袱。這就決定了銀行沒(méi)有辦法輕裝上陣。“銀行推倒從來(lái)的代價(jià)非常高,也決定他們不會(huì)輕易嘗試采用分布式集群技術(shù)。”宋一平說(shuō)。
哲學(xué)上講,曲折前進(jìn),從量變到質(zhì)變。類似“6.23”事件,銀行界已經(jīng)有很多事故發(fā)生,當(dāng)積累到一定程度,從新走向分布式也未可知。但當(dāng)務(wù)之急,還是需要在容災(zāi)中心建設(shè)使用中花功夫,不要讓容災(zāi)中心成為應(yīng)景的擺設(shè)。
帶著這樣的問(wèn)題,我求教了SAP(73.02,-0.67,-0.91%)公司數(shù)據(jù)庫(kù)及技術(shù)平臺(tái)部售前總監(jiān)宋一平先生。宋先生從事數(shù)據(jù)庫(kù)多年,參與并領(lǐng)導(dǎo)了Sybase數(shù)據(jù)庫(kù)在金融、電信、政府、能源交通等主要行業(yè)的方案討論、系統(tǒng)論證、產(chǎn)品配置、技術(shù)答標(biāo)、評(píng)審、技術(shù)咨詢和項(xiàng)目鑒定等工作;主持過(guò)國(guó)內(nèi)重大行業(yè)事件故障調(diào)查工作,行業(yè)實(shí)戰(zhàn)經(jīng)驗(yàn)豐富。2010年8月Sybase公司被SAP公司收購(gòu)。
非軟件升級(jí)事故
就“6.23”事件而言,系統(tǒng)故障與軟件升級(jí)有關(guān),由軟件升級(jí)帶來(lái),但并不屬于軟件升級(jí)事故。故障是由軟件的Bug所造成的,按工行描述是由于 DB2 數(shù)據(jù)庫(kù)V10版本內(nèi)存清理機(jī)制存在缺陷所引發(fā)。從過(guò)程來(lái)看,升級(jí)已在前一天晚上順利完成。新數(shù)據(jù)庫(kù)版本投入使用,由于自身Bug,造成了系統(tǒng)的故障。這與 突發(fā)硬件故障在性質(zhì)上是完全一樣的。對(duì)于這種軟件的Bug并不是通過(guò)測(cè)試就可以完全解決的。
宋一平表示:“對(duì)于軟件,目前還沒(méi)有方法來(lái)驗(yàn)證其完全正確性,軟件行業(yè)有一句話,軟件總是有Bug,看你遇到遇不到。” 工商銀行很不幸,遇到了所謂“內(nèi)存清理機(jī)制”Bug。由于事發(fā)時(shí)間接近,很容易被認(rèn)為是一次軟件升級(jí)事故。試想一下,如果不是時(shí)間接近,還會(huì)有人將故障歸罪于軟件升級(jí)嗎?
“對(duì)于關(guān)鍵業(yè)務(wù)系統(tǒng),補(bǔ)丁不是隨便打的,需要進(jìn)行壓力測(cè)試。”宋一平說(shuō)。據(jù)他介紹系統(tǒng)升級(jí)通常需要進(jìn)行壓力測(cè)試,因此類似工商銀行業(yè)務(wù)處理的峰 值數(shù)據(jù)一定是測(cè)試過(guò),而且測(cè)試數(shù)據(jù)會(huì)更高一些,只有測(cè)試沒(méi)有問(wèn)題,才會(huì)對(duì)系統(tǒng)進(jìn)行升級(jí),而且升級(jí)需要制定詳細(xì)的預(yù)案,選擇最適合的時(shí)間進(jìn)行。
宋一平表示,首先升級(jí)容災(zāi)中心是一種較為穩(wěn)妥的方式,使用穩(wěn)定后,再投入生產(chǎn)中心使用,以求最大程度降低升級(jí)風(fēng)險(xiǎn)。但即使如此,生產(chǎn)中心實(shí)際環(huán)境畢竟還是存在著一定差別,因此無(wú)法完全避免類似事件的發(fā)生。
容災(zāi)中心切換之謎
宋一平也曾參加過(guò)一些突發(fā)事件的應(yīng)急處理。“對(duì)故障原因的查找會(huì)有一個(gè)時(shí)限,并不是無(wú)限期查找,通常也就是15分鐘,超過(guò)這個(gè)時(shí)限,就應(yīng)該切換容災(zāi)中心。”宋一平說(shuō)。
在“兩地三中心”進(jìn)行系統(tǒng)升級(jí)的策略上,宋一平的意見是首先測(cè)試容災(zāi)中心,然后升級(jí)生產(chǎn)中心。但也有意見認(rèn)為,容災(zāi)中心升級(jí)可以暫緩。不升級(jí)容災(zāi)中心,會(huì)有一段時(shí)間數(shù)據(jù)不同步,但借助RAID、快照、冗余等硬件技術(shù),以及數(shù)據(jù)庫(kù)日志等軟件手段,仍然可以防止數(shù)據(jù)丟失,業(yè)務(wù)風(fēng)險(xiǎn)性并不是太高。
對(duì)于事故處理,工行采取了系統(tǒng)回退的做法。宋一平表示,在實(shí)際升級(jí)的案例中,系統(tǒng)回退采用并不多,但在升級(jí)前一定要做好系統(tǒng)回退的預(yù)案。系統(tǒng)回 退由于需要靠人工來(lái)進(jìn)行恢復(fù),其所花費(fèi)的時(shí)間一定會(huì)長(zhǎng),它往往是升級(jí)失敗所采取的一種措施。針對(duì)類似“6.23事件”的偶發(fā)故障,如果不能在短時(shí)間內(nèi)解 決,最好還是切換到容災(zāi)中心。
目前很多用戶擔(dān)心切換的問(wèn)題,對(duì)切換容災(zāi)中心的把握不高。實(shí)際上,銀行每月都需要進(jìn)行切換的演練,應(yīng)該可以解決切換的問(wèn)題。
“集中、分布”老話重提
“6.23事件”造成廣泛影響是因?yàn)楣ば心壳安扇〈蠹心J?,類似于把雞蛋放在同一個(gè)籃子里,一旦發(fā)生災(zāi)難牽涉甚廣。如果采用分布式,也可以合理分擔(dān)風(fēng)險(xiǎn)。
所謂合久必分,分久必合。銀行大集中模式已經(jīng)實(shí)現(xiàn)了10多年,通過(guò)中央集權(quán)解決了權(quán)力分散所帶來(lái)的業(yè)務(wù)風(fēng)險(xiǎn),避免類似“巴林銀行倒閉事件”的發(fā)生。但業(yè)務(wù)大集中也帶來(lái)的系統(tǒng)風(fēng)險(xiǎn)的大集中。
以互聯(lián)網(wǎng)企業(yè)為代表,借助分布式集群以及總體框架設(shè)計(jì),有效降低故障風(fēng)險(xiǎn)的影響范圍,提供整體業(yè)務(wù)連續(xù)性。這種架構(gòu)設(shè)計(jì)會(huì)被銀行所采用嗎?
本質(zhì)上看,銀行是一個(gè)保守企業(yè)。另外,銀行有很多的傳統(tǒng),也是包袱。這就決定了銀行沒(méi)有辦法輕裝上陣。“銀行推倒從來(lái)的代價(jià)非常高,也決定他們不會(huì)輕易嘗試采用分布式集群技術(shù)。”宋一平說(shuō)。
哲學(xué)上講,曲折前進(jìn),從量變到質(zhì)變。類似“6.23”事件,銀行界已經(jīng)有很多事故發(fā)生,當(dāng)積累到一定程度,從新走向分布式也未可知。但當(dāng)務(wù)之急,還是需要在容災(zāi)中心建設(shè)使用中花功夫,不要讓容災(zāi)中心成為應(yīng)景的擺設(shè)。
責(zé)任編輯:何健
免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
-
曹志剛:我們期待風(fēng)電成為中國(guó)的主力能源
2020-11-17風(fēng)電,能源,主力能源 -
張鈞:未來(lái)配電網(wǎng)內(nèi)涵特征與發(fā)展框架研究
-
習(xí)近平:持續(xù)增強(qiáng)電力裝備、新能源等領(lǐng)域的全產(chǎn)業(yè)鏈優(yōu)勢(shì)
2020-11-02電力裝備,新能源,通信設(shè)備
-
曹志剛:我們期待風(fēng)電成為中國(guó)的主力能源
2020-11-17風(fēng)電,能源,主力能源 -
張鈞:未來(lái)配電網(wǎng)內(nèi)涵特征與發(fā)展框架研究
-
杜祥琬:創(chuàng)新觀念,推動(dòng)能源高質(zhì)量發(fā)展
2020-09-28能源,創(chuàng)新,觀點(diǎn)