時空飛越千萬倍 內存計算奇驚天
IDC發布《數字宇宙研究報告》稱:2011年全球被創建和復制的數據總量將達到1 8ZB,與2010年同期相比,上漲超過1ZB。如果按照全球人口總數70億換算,相當于人手一塊容量為100GB的硬盤。報告預計到2015年,
如果從傳統數據庫中讀取海量數據需要數十分鐘的時間,那么從SAP HANA中讀取同樣的數據只需要不到一秒鐘的時間。
電力信息化用戶參考:內存計算技術的存儲模式有哪些特點?
潘明惠:內存計算技術采取行存儲和列存儲的混合模式。傳統關系型數據庫是按照行的方式存儲數據的,能夠為交易系統即OLTP應用提供高效的支持。例如一個零售商每當客戶購買產品時,需要在業務系統中創建一條數據記錄銷售的時間、地點、客戶、金額、地址等字段數據,當前端完成數據的錄入并提交后臺系統后,在數據庫中會在數據表中插入一行記錄,這條記錄中會包含本次銷售業務操作相關的數據。然而,基于行存儲的數據庫在支持數據分析應用即OLAP應用時則顯得低效和力不從心。 同樣的例子,假設這家零售公司在傳統數據庫中保存了3億條記錄,并且需要基于這些銷售記錄分析單筆銷售的平均金額,則需要首先讀取所有這3億條記錄,并取出其中的銷售金額這一個字段,然后再進行平均值計算。這意味著實際進行分析的數據(消費金額字段)只占總體數據的5%(假設每條數據20個字段)。顯然這是非常低效的方式。而在基于列存儲的機制中,這3億條記錄實際上是按照列進行存儲,即總共只有20條記錄(20個字段,每個字段一條記錄)。在進行同樣的分析時,只需要取出銷售金額這一列的記錄并計算平均值即可,與基于行存儲的機制相比,在這個示例的應用場景下,數據處理的效率提高了50倍。
電力信息化用戶參考:在近年,硬件服務器的處理器主頻提升并不明顯,但是單臺服務器配置更多的CPU,并且每個CPU包含更多的內核。提升并行處理的能力,才能夠在新的硬件發展趨勢下保證系統的性能能夠持續的提升。內存計算在這一點上有何建樹?
潘明惠:SAP HANA支持多服務器、多處理器的高效并行處理,能夠最高效、充分的利用多處理器的并發能力。能夠拆解數據模型,分成可以并行執行的步驟,也能夠將數據處理和運算拆分并部署到多個處理器。例如計算引擎可以將數據模型拆解,將一些SQL腳本拆分成可以并行執行的步驟。這些操作將遞交給數據庫優化器來決定最佳的訪問行存儲和列存儲的方案。
除此外,SAP HANA的基本機制是將數據全部存儲到內存中,以進行高效的數據訪問和運算。雖然硬件包括內存的價格日趨低廉,但相比磁盤而言,內存仍是較貴的存儲設備。而在企業系統中數據增長迅速,達到數TB甚至數十TB的情況下,將所有數據原封不動的導入內存仍將帶來較大的硬件投資。為了幫助企業節省這一部分投資,SAP HANA中采取了基于智能數據字典等高效的數據壓縮機制,能夠將數據壓縮5-20倍,從而充分節約硬件投資。
在SAP HANA中,將源數據導入內存后,在HANA中的虛擬建模,一個屬性視圖可以被看作為一個數據立方體,屬性視圖不存儲任何數據,數據存儲在列存儲表中 ,系統只保存這些數據模型內表的構際關系以及數據的運算邏輯,當前端提交分析請求時,HANA會根據虛擬數據模型進行數據的計算并將結果提交給前段。這意味著HANA中不會存在冗余的數據,從而大大節約的硬件的投資和維護成本。
另外,虛擬模型可以進行靈活的創建、修改、刪除,從而滿足業務的需求變化,而無需擔心對整體數據倉庫數據結構的影響。在傳統數據倉庫中,通過ETL方式抽取數據并加載到數據模型中往往需要數小時甚至更長的時間,而在HANA的架構下,后端數據處理和加載的時間將大大縮短,從而減少IT部門運維系統投入的時間和精力,并為前端數據處理提供更長的時間窗口,減少數據不一致性發生的可能。
電力信息化用戶參考:在數據庫層面進行數據密集型運算,似乎也是內存計算所特有的優勢?
潘明惠:是的。SAP HANA 除了提供完善的數據庫功能外,其內置的計算引擎可以將原本在應用層進行的運算轉移到數據庫層面進行處理,這在數據密集型運算的場景,能夠優化應用層和數據庫層之間的數據交互,從而從整體上提升系統的效率。傳統上,數據密集型運算包括計劃、預測、模擬等,在HANA中首先將計劃(Planning)
電力信息化用戶參考:內存計算技術的存儲模式有哪些特點?
潘明惠:內存計算技術采取行存儲和列存儲的混合模式。傳統關系型數據庫是按照行的方式存儲數據的,能夠為交易系統即OLTP應用提供高效的支持。例如一個零售商每當客戶購買產品時,需要在業務系統中創建一條數據記錄銷售的時間、地點、客戶、金額、地址等字段數據,當前端完成數據的錄入并提交后臺系統后,在數據庫中會在數據表中插入一行記錄,這條記錄中會包含本次銷售業務操作相關的數據。然而,基于行存儲的數據庫在支持數據分析應用即OLAP應用時則顯得低效和力不從心。 同樣的例子,假設這家零售公司在傳統數據庫中保存了3億條記錄,并且需要基于這些銷售記錄分析單筆銷售的平均金額,則需要首先讀取所有這3億條記錄,并取出其中的銷售金額這一個字段,然后再進行平均值計算。這意味著實際進行分析的數據(消費金額字段)只占總體數據的5%(假設每條數據20個字段)。顯然這是非常低效的方式。而在基于列存儲的機制中,這3億條記錄實際上是按照列進行存儲,即總共只有20條記錄(20個字段,每個字段一條記錄)。在進行同樣的分析時,只需要取出銷售金額這一列的記錄并計算平均值即可,與基于行存儲的機制相比,在這個示例的應用場景下,數據處理的效率提高了50倍。
電力信息化用戶參考:在近年,硬件服務器的處理器主頻提升并不明顯,但是單臺服務器配置更多的CPU,并且每個CPU包含更多的內核。提升并行處理的能力,才能夠在新的硬件發展趨勢下保證系統的性能能夠持續的提升。內存計算在這一點上有何建樹?
潘明惠:SAP HANA支持多服務器、多處理器的高效并行處理,能夠最高效、充分的利用多處理器的并發能力。能夠拆解數據模型,分成可以并行執行的步驟,也能夠將數據處理和運算拆分并部署到多個處理器。例如計算引擎可以將數據模型拆解,將一些SQL腳本拆分成可以并行執行的步驟。這些操作將遞交給數據庫優化器來決定最佳的訪問行存儲和列存儲的方案。
除此外,SAP HANA的基本機制是將數據全部存儲到內存中,以進行高效的數據訪問和運算。雖然硬件包括內存的價格日趨低廉,但相比磁盤而言,內存仍是較貴的存儲設備。而在企業系統中數據增長迅速,達到數TB甚至數十TB的情況下,將所有數據原封不動的導入內存仍將帶來較大的硬件投資。為了幫助企業節省這一部分投資,SAP HANA中采取了基于智能數據字典等高效的數據壓縮機制,能夠將數據壓縮5-20倍,從而充分節約硬件投資。
在SAP HANA中,將源數據導入內存后,在HANA中的虛擬建模,一個屬性視圖可以被看作為一個數據立方體,屬性視圖不存儲任何數據,數據存儲在列存儲表中 ,系統只保存這些數據模型內表的構際關系以及數據的運算邏輯,當前端提交分析請求時,HANA會根據虛擬數據模型進行數據的計算并將結果提交給前段。這意味著HANA中不會存在冗余的數據,從而大大節約的硬件的投資和維護成本。
另外,虛擬模型可以進行靈活的創建、修改、刪除,從而滿足業務的需求變化,而無需擔心對整體數據倉庫數據結構的影響。在傳統數據倉庫中,通過ETL方式抽取數據并加載到數據模型中往往需要數小時甚至更長的時間,而在HANA的架構下,后端數據處理和加載的時間將大大縮短,從而減少IT部門運維系統投入的時間和精力,并為前端數據處理提供更長的時間窗口,減少數據不一致性發生的可能。
電力信息化用戶參考:在數據庫層面進行數據密集型運算,似乎也是內存計算所特有的優勢?
潘明惠:是的。SAP HANA 除了提供完善的數據庫功能外,其內置的計算引擎可以將原本在應用層進行的運算轉移到數據庫層面進行處理,這在數據密集型運算的場景,能夠優化應用層和數據庫層之間的數據交互,從而從整體上提升系統的效率。傳統上,數據密集型運算包括計劃、預測、模擬等,在HANA中首先將計劃(Planning)

責任編輯:何健
免責聲明:本文僅代表作者個人觀點,與本站無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
我要收藏
個贊
-
曹志剛:我們期待風電成為中國的主力能源
2020-11-17風電,能源,主力能源 -
張鈞:未來配電網內涵特征與發展框架研究
2020-11-03配電網,智能配電網,智能配電網建設研討會 -
習近平:持續增強電力裝備、新能源等領域的全產業鏈優勢
2020-11-02電力裝備,新能源,通信設備
-
曹志剛:我們期待風電成為中國的主力能源
2020-11-17風電,能源,主力能源 -
張鈞:未來配電網內涵特征與發展框架研究
2020-11-03配電網,智能配電網,智能配電網建設研討會 -
杜祥琬:創新觀念,推動能源高質量發展
2020-09-28能源,創新,觀點
-
PPT丨王繼業:電力系統儲能發展與挑戰
2020-10-14儲能,電力儲能,儲能應用 -
奮斗姿態書寫人生底色 銀隆儲能“小哥哥”的職場進擊姿勢
2020-10-12銀隆新能源,儲能,新能源汽車 -
鄒驥:通過發展清潔能源 提高中國公信力
2020-06-28鄒驥,清潔能源,綠色低碳能源
-
習近平:持續增強電力裝備、新能源等領域的全產業鏈優勢
2020-11-02電力裝備,新能源,通信設備 -
重磅 | 發改委發文7月起電價降5%
2020-06-29國家發改委,企業,用電成本,電費 -
李克強:放寬配售電業務市場準入 推動建立市場決定能源價格機制
2019-10-12配售電業務市場準入