時空飛越千萬倍 內(nèi)存計算奇驚天
IDC發(fā)布《數(shù)字宇宙研究報告》稱:2011年全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量將達到1 8ZB,與2010年同期相比,上漲超過1ZB。如果按照全球人口總數(shù)70億換算,相當(dāng)于人手一塊容量為100GB的硬盤。報告預(yù)計到2015年,
如果從傳統(tǒng)數(shù)據(jù)庫中讀取海量數(shù)據(jù)需要數(shù)十分鐘的時間,那么從SAP HANA中讀取同樣的數(shù)據(jù)只需要不到一秒鐘的時間。
電力信息化用戶參考:內(nèi)存計算技術(shù)的存儲模式有哪些特點?
潘明惠:內(nèi)存計算技術(shù)采取行存儲和列存儲的混合模式。傳統(tǒng)關(guān)系型數(shù)據(jù)庫是按照行的方式存儲數(shù)據(jù)的,能夠為交易系統(tǒng)即OLTP應(yīng)用提供高效的支持。例如一個零售商每當(dāng)客戶購買產(chǎn)品時,需要在業(yè)務(wù)系統(tǒng)中創(chuàng)建一條數(shù)據(jù)記錄銷售的時間、地點、客戶、金額、地址等字段數(shù)據(jù),當(dāng)前端完成數(shù)據(jù)的錄入并提交后臺系統(tǒng)后,在數(shù)據(jù)庫中會在數(shù)據(jù)表中插入一行記錄,這條記錄中會包含本次銷售業(yè)務(wù)操作相關(guān)的數(shù)據(jù)。然而,基于行存儲的數(shù)據(jù)庫在支持數(shù)據(jù)分析應(yīng)用即OLAP應(yīng)用時則顯得低效和力不從心。 同樣的例子,假設(shè)這家零售公司在傳統(tǒng)數(shù)據(jù)庫中保存了3億條記錄,并且需要基于這些銷售記錄分析單筆銷售的平均金額,則需要首先讀取所有這3億條記錄,并取出其中的銷售金額這一個字段,然后再進行平均值計算。這意味著實際進行分析的數(shù)據(jù)(消費金額字段)只占總體數(shù)據(jù)的5%(假設(shè)每條數(shù)據(jù)20個字段)。顯然這是非常低效的方式。而在基于列存儲的機制中,這3億條記錄實際上是按照列進行存儲,即總共只有20條記錄(20個字段,每個字段一條記錄)。在進行同樣的分析時,只需要取出銷售金額這一列的記錄并計算平均值即可,與基于行存儲的機制相比,在這個示例的應(yīng)用場景下,數(shù)據(jù)處理的效率提高了50倍。
電力信息化用戶參考:在近年,硬件服務(wù)器的處理器主頻提升并不明顯,但是單臺服務(wù)器配置更多的CPU,并且每個CPU包含更多的內(nèi)核。提升并行處理的能力,才能夠在新的硬件發(fā)展趨勢下保證系統(tǒng)的性能能夠持續(xù)的提升。內(nèi)存計算在這一點上有何建樹?
潘明惠:SAP HANA支持多服務(wù)器、多處理器的高效并行處理,能夠最高效、充分的利用多處理器的并發(fā)能力。能夠拆解數(shù)據(jù)模型,分成可以并行執(zhí)行的步驟,也能夠?qū)?shù)據(jù)處理和運算拆分并部署到多個處理器。例如計算引擎可以將數(shù)據(jù)模型拆解,將一些SQL腳本拆分成可以并行執(zhí)行的步驟。這些操作將遞交給數(shù)據(jù)庫優(yōu)化器來決定最佳的訪問行存儲和列存儲的方案。
除此外,SAP HANA的基本機制是將數(shù)據(jù)全部存儲到內(nèi)存中,以進行高效的數(shù)據(jù)訪問和運算。雖然硬件包括內(nèi)存的價格日趨低廉,但相比磁盤而言,內(nèi)存仍是較貴的存儲設(shè)備。而在企業(yè)系統(tǒng)中數(shù)據(jù)增長迅速,達到數(shù)TB甚至數(shù)十TB的情況下,將所有數(shù)據(jù)原封不動的導(dǎo)入內(nèi)存仍將帶來較大的硬件投資。為了幫助企業(yè)節(jié)省這一部分投資,SAP HANA中采取了基于智能數(shù)據(jù)字典等高效的數(shù)據(jù)壓縮機制,能夠?qū)?shù)據(jù)壓縮5-20倍,從而充分節(jié)約硬件投資。
在SAP HANA中,將源數(shù)據(jù)導(dǎo)入內(nèi)存后,在HANA中的虛擬建模,一個屬性視圖可以被看作為一個數(shù)據(jù)立方體,屬性視圖不存儲任何數(shù)據(jù),數(shù)據(jù)存儲在列存儲表中 ,系統(tǒng)只保存這些數(shù)據(jù)模型內(nèi)表的構(gòu)際關(guān)系以及數(shù)據(jù)的運算邏輯,當(dāng)前端提交分析請求時,HANA會根據(jù)虛擬數(shù)據(jù)模型進行數(shù)據(jù)的計算并將結(jié)果提交給前段。這意味著HANA中不會存在冗余的數(shù)據(jù),從而大大節(jié)約的硬件的投資和維護成本。
另外,虛擬模型可以進行靈活的創(chuàng)建、修改、刪除,從而滿足業(yè)務(wù)的需求變化,而無需擔(dān)心對整體數(shù)據(jù)倉庫數(shù)據(jù)結(jié)構(gòu)的影響。在傳統(tǒng)數(shù)據(jù)倉庫中,通過ETL方式抽取數(shù)據(jù)并加載到數(shù)據(jù)模型中往往需要數(shù)小時甚至更長的時間,而在HANA的架構(gòu)下,后端數(shù)據(jù)處理和加載的時間將大大縮短,從而減少IT部門運維系統(tǒng)投入的時間和精力,并為前端數(shù)據(jù)處理提供更長的時間窗口,減少數(shù)據(jù)不一致性發(fā)生的可能。
電力信息化用戶參考:在數(shù)據(jù)庫層面進行數(shù)據(jù)密集型運算,似乎也是內(nèi)存計算所特有的優(yōu)勢?
潘明惠:是的。SAP HANA 除了提供完善的數(shù)據(jù)庫功能外,其內(nèi)置的計算引擎可以將原本在應(yīng)用層進行的運算轉(zhuǎn)移到數(shù)據(jù)庫層面進行處理,這在數(shù)據(jù)密集型運算的場景,能夠優(yōu)化應(yīng)用層和數(shù)據(jù)庫層之間的數(shù)據(jù)交互,從而從整體上提升系統(tǒng)的效率。傳統(tǒng)上,數(shù)據(jù)密集型運算包括計劃、預(yù)測、模擬等,在HANA中首先將計劃(Planning)
電力信息化用戶參考:內(nèi)存計算技術(shù)的存儲模式有哪些特點?
潘明惠:內(nèi)存計算技術(shù)采取行存儲和列存儲的混合模式。傳統(tǒng)關(guān)系型數(shù)據(jù)庫是按照行的方式存儲數(shù)據(jù)的,能夠為交易系統(tǒng)即OLTP應(yīng)用提供高效的支持。例如一個零售商每當(dāng)客戶購買產(chǎn)品時,需要在業(yè)務(wù)系統(tǒng)中創(chuàng)建一條數(shù)據(jù)記錄銷售的時間、地點、客戶、金額、地址等字段數(shù)據(jù),當(dāng)前端完成數(shù)據(jù)的錄入并提交后臺系統(tǒng)后,在數(shù)據(jù)庫中會在數(shù)據(jù)表中插入一行記錄,這條記錄中會包含本次銷售業(yè)務(wù)操作相關(guān)的數(shù)據(jù)。然而,基于行存儲的數(shù)據(jù)庫在支持數(shù)據(jù)分析應(yīng)用即OLAP應(yīng)用時則顯得低效和力不從心。 同樣的例子,假設(shè)這家零售公司在傳統(tǒng)數(shù)據(jù)庫中保存了3億條記錄,并且需要基于這些銷售記錄分析單筆銷售的平均金額,則需要首先讀取所有這3億條記錄,并取出其中的銷售金額這一個字段,然后再進行平均值計算。這意味著實際進行分析的數(shù)據(jù)(消費金額字段)只占總體數(shù)據(jù)的5%(假設(shè)每條數(shù)據(jù)20個字段)。顯然這是非常低效的方式。而在基于列存儲的機制中,這3億條記錄實際上是按照列進行存儲,即總共只有20條記錄(20個字段,每個字段一條記錄)。在進行同樣的分析時,只需要取出銷售金額這一列的記錄并計算平均值即可,與基于行存儲的機制相比,在這個示例的應(yīng)用場景下,數(shù)據(jù)處理的效率提高了50倍。
電力信息化用戶參考:在近年,硬件服務(wù)器的處理器主頻提升并不明顯,但是單臺服務(wù)器配置更多的CPU,并且每個CPU包含更多的內(nèi)核。提升并行處理的能力,才能夠在新的硬件發(fā)展趨勢下保證系統(tǒng)的性能能夠持續(xù)的提升。內(nèi)存計算在這一點上有何建樹?
潘明惠:SAP HANA支持多服務(wù)器、多處理器的高效并行處理,能夠最高效、充分的利用多處理器的并發(fā)能力。能夠拆解數(shù)據(jù)模型,分成可以并行執(zhí)行的步驟,也能夠?qū)?shù)據(jù)處理和運算拆分并部署到多個處理器。例如計算引擎可以將數(shù)據(jù)模型拆解,將一些SQL腳本拆分成可以并行執(zhí)行的步驟。這些操作將遞交給數(shù)據(jù)庫優(yōu)化器來決定最佳的訪問行存儲和列存儲的方案。
除此外,SAP HANA的基本機制是將數(shù)據(jù)全部存儲到內(nèi)存中,以進行高效的數(shù)據(jù)訪問和運算。雖然硬件包括內(nèi)存的價格日趨低廉,但相比磁盤而言,內(nèi)存仍是較貴的存儲設(shè)備。而在企業(yè)系統(tǒng)中數(shù)據(jù)增長迅速,達到數(shù)TB甚至數(shù)十TB的情況下,將所有數(shù)據(jù)原封不動的導(dǎo)入內(nèi)存仍將帶來較大的硬件投資。為了幫助企業(yè)節(jié)省這一部分投資,SAP HANA中采取了基于智能數(shù)據(jù)字典等高效的數(shù)據(jù)壓縮機制,能夠?qū)?shù)據(jù)壓縮5-20倍,從而充分節(jié)約硬件投資。
在SAP HANA中,將源數(shù)據(jù)導(dǎo)入內(nèi)存后,在HANA中的虛擬建模,一個屬性視圖可以被看作為一個數(shù)據(jù)立方體,屬性視圖不存儲任何數(shù)據(jù),數(shù)據(jù)存儲在列存儲表中 ,系統(tǒng)只保存這些數(shù)據(jù)模型內(nèi)表的構(gòu)際關(guān)系以及數(shù)據(jù)的運算邏輯,當(dāng)前端提交分析請求時,HANA會根據(jù)虛擬數(shù)據(jù)模型進行數(shù)據(jù)的計算并將結(jié)果提交給前段。這意味著HANA中不會存在冗余的數(shù)據(jù),從而大大節(jié)約的硬件的投資和維護成本。
另外,虛擬模型可以進行靈活的創(chuàng)建、修改、刪除,從而滿足業(yè)務(wù)的需求變化,而無需擔(dān)心對整體數(shù)據(jù)倉庫數(shù)據(jù)結(jié)構(gòu)的影響。在傳統(tǒng)數(shù)據(jù)倉庫中,通過ETL方式抽取數(shù)據(jù)并加載到數(shù)據(jù)模型中往往需要數(shù)小時甚至更長的時間,而在HANA的架構(gòu)下,后端數(shù)據(jù)處理和加載的時間將大大縮短,從而減少IT部門運維系統(tǒng)投入的時間和精力,并為前端數(shù)據(jù)處理提供更長的時間窗口,減少數(shù)據(jù)不一致性發(fā)生的可能。
電力信息化用戶參考:在數(shù)據(jù)庫層面進行數(shù)據(jù)密集型運算,似乎也是內(nèi)存計算所特有的優(yōu)勢?
潘明惠:是的。SAP HANA 除了提供完善的數(shù)據(jù)庫功能外,其內(nèi)置的計算引擎可以將原本在應(yīng)用層進行的運算轉(zhuǎn)移到數(shù)據(jù)庫層面進行處理,這在數(shù)據(jù)密集型運算的場景,能夠優(yōu)化應(yīng)用層和數(shù)據(jù)庫層之間的數(shù)據(jù)交互,從而從整體上提升系統(tǒng)的效率。傳統(tǒng)上,數(shù)據(jù)密集型運算包括計劃、預(yù)測、模擬等,在HANA中首先將計劃(Planning)

責(zé)任編輯:何健
免責(zé)聲明:本文僅代表作者個人觀點,與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
我要收藏
個贊
-
曹志剛:我們期待風(fēng)電成為中國的主力能源
2020-11-17風(fēng)電,能源,主力能源 -
張鈞:未來配電網(wǎng)內(nèi)涵特征與發(fā)展框架研究
-
習(xí)近平:持續(xù)增強電力裝備、新能源等領(lǐng)域的全產(chǎn)業(yè)鏈優(yōu)勢
2020-11-02電力裝備,新能源,通信設(shè)備
-
曹志剛:我們期待風(fēng)電成為中國的主力能源
2020-11-17風(fēng)電,能源,主力能源 -
張鈞:未來配電網(wǎng)內(nèi)涵特征與發(fā)展框架研究
-
杜祥琬:創(chuàng)新觀念,推動能源高質(zhì)量發(fā)展
2020-09-28能源,創(chuàng)新,觀點
-
PPT丨王繼業(yè):電力系統(tǒng)儲能發(fā)展與挑戰(zhàn)
2020-10-14儲能,電力儲能,儲能應(yīng)用 -
奮斗姿態(tài)書寫人生底色 銀隆儲能“小哥哥”的職場進擊姿勢
2020-10-12銀隆新能源,儲能,新能源汽車 -
鄒驥:通過發(fā)展清潔能源 提高中國公信力
2020-06-28鄒驥,清潔能源,綠色低碳能源