在大數據檔案中發現寶藏
在大數據的魅力等級中,生產應用和探索性數據科學沙箱得到了所有的關注。這就是為什么,如果你不是一個大數據專家,您可能已經忽略了數據管理和分析基礎設施的著陸區中大數據所起的關鍵作用。 大數
在大數據的“魅力等級”中,生產應用和探索性數據科學沙箱得到了所有的關注。這就是為什么,如果你不是一個大數據專家,您可能已經忽略了數據管理和分析基礎設施的“著陸區”中大數據所起的關鍵作用。
大數據“著陸區”的作用是刻意含糊不清的。它顯然不是生產的前端接入以及進行快速查詢、進行交互式探索以及建立預測模型并打分的沙箱層。也顯然不是存儲核心系統參考數據、管理元數據以及實施數據治理標準的生產樞紐層。
但在許多方面,大數據“著陸區”是這些生產和開發系統的基礎。
大數據“著陸區”起到了許多關鍵作用。它是將數據傳遞至下游的其他操作系統之前從操作系統獲得和收集數據的區域,也可能是將數據傳遞至集線器或前端集市前聚合、匹配、合并、清理、改造以及改進從資源中采集的數據的地方。或者,它可能是以歷史檔案的形式,存儲來自交易、分析或內容管理系統數據的地方。
深入檔案
讓我們專注于大數據存儲的檔案。即使某些數據不再支持核心生產應用,這些檔案仍對合規、電子取證、安全、診斷以及其他支持性應用程序有價值。
檔案的傳統定義是不再被應用程序需要的歷史數據倉庫。很明顯,依照這個定義許多檔案無情地演變成許多IT商店的大數據平臺。
實際上,當檔案館存儲來源于各式各樣來源的數據且其數據容量增長至拍字節時,檔案館可能是一個組織中第一個含有大數據的數據庫。事實上,檔案的目的是在需要時為檢索及分析保留歷史數據,這就意味著,它需要進行優化以便快速查詢、搜索和報表。
事實上,可查詢存檔已經好些時候成為“殺手級別”的大數據應用。電信運營商早已在大規模擴展的存檔平臺上進行呼叫詳細記錄分析。安全事故和事件的檢測,以及反欺詐應用程序通常需要龐大的數據庫以存儲和關聯從系統級安全性、標識以及其他系統獲取的事件數據。許多用于故障排除、診斷和優化的IT日志分析應用都運行在從低TB級別至PB級別的數據庫上。全面的顧客、庫存、物流及其他趨勢的時間序列分析都必須將大量存檔數據與從業務系統獲取的最新數據進行關聯。
完成工作的正確工具
顯然,對于如Hadoop這樣靜態數據平臺以及為特定類型數據存檔的規模與速度而架構的NoSQL平臺來說,可查詢存檔的作用是不言而喻的。同樣,別忘了用來存檔結構數據的RDBMS平臺。
根據不同的需求,可以針對不同的大數據集部署一個或多個含有已針對數據集優化的底層平臺的檔案。關鍵的標準是,已部署檔案的大數據平臺是否支持查詢檔案存儲及管理的數據且能夠快速執行所有預期類型的查詢。
大數據“著陸區”的作用是刻意含糊不清的。它顯然不是生產的前端接入以及進行快速查詢、進行交互式探索以及建立預測模型并打分的沙箱層。也顯然不是存儲核心系統參考數據、管理元數據以及實施數據治理標準的生產樞紐層。
但在許多方面,大數據“著陸區”是這些生產和開發系統的基礎。
大數據“著陸區”起到了許多關鍵作用。它是將數據傳遞至下游的其他操作系統之前從操作系統獲得和收集數據的區域,也可能是將數據傳遞至集線器或前端集市前聚合、匹配、合并、清理、改造以及改進從資源中采集的數據的地方。或者,它可能是以歷史檔案的形式,存儲來自交易、分析或內容管理系統數據的地方。
深入檔案
讓我們專注于大數據存儲的檔案。即使某些數據不再支持核心生產應用,這些檔案仍對合規、電子取證、安全、診斷以及其他支持性應用程序有價值。
檔案的傳統定義是不再被應用程序需要的歷史數據倉庫。很明顯,依照這個定義許多檔案無情地演變成許多IT商店的大數據平臺。
實際上,當檔案館存儲來源于各式各樣來源的數據且其數據容量增長至拍字節時,檔案館可能是一個組織中第一個含有大數據的數據庫。事實上,檔案的目的是在需要時為檢索及分析保留歷史數據,這就意味著,它需要進行優化以便快速查詢、搜索和報表。
事實上,可查詢存檔已經好些時候成為“殺手級別”的大數據應用。電信運營商早已在大規模擴展的存檔平臺上進行呼叫詳細記錄分析。安全事故和事件的檢測,以及反欺詐應用程序通常需要龐大的數據庫以存儲和關聯從系統級安全性、標識以及其他系統獲取的事件數據。許多用于故障排除、診斷和優化的IT日志分析應用都運行在從低TB級別至PB級別的數據庫上。全面的顧客、庫存、物流及其他趨勢的時間序列分析都必須將大量存檔數據與從業務系統獲取的最新數據進行關聯。
完成工作的正確工具
顯然,對于如Hadoop這樣靜態數據平臺以及為特定類型數據存檔的規模與速度而架構的NoSQL平臺來說,可查詢存檔的作用是不言而喻的。同樣,別忘了用來存檔結構數據的RDBMS平臺。
根據不同的需求,可以針對不同的大數據集部署一個或多個含有已針對數據集優化的底層平臺的檔案。關鍵的標準是,已部署檔案的大數據平臺是否支持查詢檔案存儲及管理的數據且能夠快速執行所有預期類型的查詢。

責任編輯:廖生玨
免責聲明:本文僅代表作者個人觀點,與本站無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
我要收藏
個贊
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市