一圖簡述大數據技術生態圈
下面是一張生態圖,主要的組件都是為了方便大家從底層的MapReduce模型中脫離出來,用高層語言來做分布式計算,下文將分別為你作簡述。
1、HBase
是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化數據集群。像Facebook,都拿它做大型實時應用。
2、Hive
Facebook領導的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計。像一些data scientist 就可以直接查詢,不需要學習其他編程接口。
3、Pig
Yahoo開發的,并行地執行數據流處理的引擎,它包含了一種腳本語言,稱為Pig Latin,用來描述這些數據流。Pig Latin本身提供了許多傳統的數據操作,同時允許用戶自己開發一些自定義函數用來讀取、處理和寫數據。在LinkedIn也是大量使用。
4、Cascading/Scalding
Cascading是Twitter收購的一個公司技術,主要是提供數據管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding。Coursera是用Scalding作為MapReduce的編程接口放在Amazon的EMR運行。
5、Zookeeper
一個分布式的,開放源碼的分布式應用程序協調服務,是Google的Chubby一個開源的實現。
6、Oozie、Hadoop
一個基于工作流引擎的開源框架。由Cloudera公司貢獻給Apache的,它能夠提供對MapReduce和Pig Jobs的任務調度與協調。
7、Azkaban
跟上面很像,Linkedin開源的面向Hadoop的開源工作流系統,提供了類似于cron 的管理任務。
8、Tez
Hortonworks主推的優化MapReduce執行引擎,與MapReduce相比較,Tez在性能方面更加出色。
責任編輯:滄海一笑
-
5大重點任務11個重點細分 河北加快構建省級能源大數據中心
-
能源互聯網注入數字經濟新動能 電力大數據實現更多價值
2020-07-21能源互聯網,電力大數據,電力企業 -
中國首個100%利用清潔能源運營的大數據產業園投運
2020-07-21清潔能源,清潔能源消納,青海
-
探索大數據 區塊鏈實現與能源互聯網良好契合
2020-06-09區塊鏈,電力行業,能源互聯網 -
基于區塊鏈的含安全約束分布式電力交易方法
-
區塊鏈在能源交易與協同調度的應用前景:提升電力交易的自由度和實時響應效率
2019-11-04區塊鏈在能源交易與協同
-
5大重點任務11個重點細分 河北加快構建省級能源大數據中心
-
中國首個100%利用清潔能源運營的大數據產業園投運
2020-07-21清潔能源,清潔能源消納,青海 -
大數據產業園四處開花
2019-03-05大數據產業園
-
能源互聯網注入數字經濟新動能 電力大數據實現更多價值
2020-07-21能源互聯網,電力大數據,電力企業 -
全國人大代表、貴州六盤水市市長李剛:借力大數據綜合試驗區 建設六盤水5G示范城
2020-05-27大數據,5G,電力,六盤水,物聯網 -
融媒體平臺建設及縣域融媒體平臺軟件系統
2019-04-03融媒體平臺