解讀大數據以及大數據的常用工具
大數據工具是什么?顧名思義,大數據工具就是用戶大數據工作的工具統稱,比如從事大數據開發工作會用到java、hadoop、spark、storm、es等,而從事大數據可視化工作需要很多的數據可視化工具,比如echarts、samrtbi、tableau、D3.js等,大數據工作人員利用這些工具來進行日常的大數據工作。
下面我們來介紹一些大數據工作中用到的工具。
1. Hivemall
Hivemall結合了面向Hive的多種機器學習算法。它包括諸多高度擴展性算法,可用于數據分類、遞歸、推薦、k最近鄰、異常檢測和特征哈希。
支持的操作系統:與操作系統無關。
Hivemall官網鏈接:https://github.com/myui/hivemall
2. Mahout
Mahout 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。Mahout包含許多實現,包括聚類、分類、推薦過濾、頻繁子項挖掘。此外,通過使用 Apache Hadoop 庫,Mahout 可以有效地擴展到云中。
Mahout官網地址:http://mahout.apache.org/
3. MapReduce
MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。概念"Map(映射)"和"Reduce(歸約)",是它們的主要思想,都是從函數式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統上。
MapReduce相關文檔:http://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html
4. Oozie
Oozie是一種Java Web應用程序,它運行在Java servlet容器——即Tomcat——中,并使用數據庫來存儲以下內容:
● 工作流定義
● 當前運行的工作流實例,包括實例的狀態和變量
Oozie官網地址:http://oozie.apache.org/
5. Pig
Pig是一種數據流語言和運行環境,用于檢索非常大的數據集。為大型數據集的處理提供了一個更高層次的抽象。Pig包括兩部分:一是用于描述數據流的語言,稱為Pig Latin;二是用于運行Pig Latin程序的執行環境。
Pig官網地址:http://pig.apache.org/
6. Sqoop
Sqoop(發音:skup)是一款開源的工具,主要用于在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞,可以將一個關系型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。
Sqoop官網地址:http://sqoop.apache.org/
Sqoop相關文檔:http://sqoop.apache.org/docs/1.4.5/index.html
7. Spark
Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。
Spark官網地址:http://spark.apache.org/
8. Tez
Tez建立在Apache Hadoop YARN的基礎上,這是“一種應用程序框架,允許為任務構建一種復雜的有向無環圖,以便處理數據。”它讓Hive和Pig可以簡化復雜的任務,而這些任務原本需要多個步驟才能完成。
支持的操作系統:Windows、Linux和OS X。
Tez官網鏈接:http://tez.apache.org
9. Zookeeper
ZooKeeper是一個分布式的,開放源碼的分布式應用程序協調服務,是Google的Chubby一個開源的實現,是Hadoop和Hbase的重要組件。它是一個為分布式應用提供一致性服務的軟件,提供的功能包括:配置維護、域名服務、分布式同步、組服務等。
Zookeeper官網:http://zookeeper.apache.org/
10.finndy+
finndy+是一個分布式的云采集工具,在全球有2000+高匿分布式節點,機器學習防屏蔽算法,自定義腳本引擎,首創單步調模式,一鍵API輸出。同時擁有海量免費采集規則和交易市場。
責任編輯:售電衡衡
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市