全球大數(shù)據(jù)領(lǐng)域開源工具匯總
一、hadoop相關(guān)工具
1.Hadoop
Apache的Hadoop項目已幾乎與大數(shù)據(jù)劃上了等號。它不斷壯大起來,已成為一個完整的生態(tài)系統(tǒng),眾多開源工具面向高度擴展的分布式計算。
支持的操作系統(tǒng):Windows、Linux和OSX。
2.Ambari
作為Hadoop生態(tài)系統(tǒng)的一部分,這個Apache項目提供了基于Web的直觀界面,可用于配置、管理和監(jiān)控Hadoop集群。有些開發(fā)人員想把Ambari的功能整合到自己的應(yīng)用程序當中,Ambari也為他們提供了充分利用REST(代表性狀態(tài)傳輸協(xié)議)的API。
支持的操作系統(tǒng):Windows、Linux和OSX。
3.Avro
這個Apache項目提供了數(shù)據(jù)序列化系統(tǒng),擁有豐富的數(shù)據(jù)結(jié)構(gòu)和緊湊格式。模式用JSON來定義,它很容易與動態(tài)語言整合起來。
4.Cascading
Cascading是一款基于Hadoop的應(yīng)用程序開發(fā)平臺。提供商業(yè)支持和培訓服務(wù)。
5.Chukwa
Chukwa基于Hadoop,可以收集來自大型分布式系統(tǒng)的數(shù)據(jù),用于監(jiān)控。它還含有用于分析和顯示數(shù)據(jù)的工具。
支持的操作系統(tǒng):Linux和OSX。
6.Flume
Flume可以從其他應(yīng)用程序收集日志數(shù)據(jù),然后將這些數(shù)據(jù)送入到Hadoop。官方網(wǎng)站聲稱:“它功能強大、具有容錯性,還擁有可以調(diào)整優(yōu)化的可靠性機制和許多故障切換及恢復機制。”
支持的操作系統(tǒng):Linux和OSX。
7.HBase
HBase是為有數(shù)十億行和數(shù)百萬列的超大表設(shè)計的,這是一種分布式數(shù)據(jù)庫,可以對大數(shù)據(jù)進行隨機性的實時讀取/寫入訪問。它有點類似谷歌的Bigtable,不過基于Hadoop和Hadoop分布式文件系統(tǒng)(HDFS)而建。
8.Hadoop分布式文件系統(tǒng)(HDFS)
HDFS是面向Hadoop的文件系統(tǒng),不過它也可以用作一種獨立的分布式文件系統(tǒng)。它基于Java,具有容錯性、高度擴展性和高度配置性。
支持的操作系統(tǒng):Windows、Linux和OSX。
9.Hive
ApacheHive是面向Hadoop生態(tài)系統(tǒng)的數(shù)據(jù)倉庫。它讓用戶可以使用HiveQL查詢和管理大數(shù)據(jù),這是一種類似SQL的語言。
10.Hivemall
Hivemall結(jié)合了面向Hive的多種機器學習算法。它包括諸多高度擴展性算法,可用于數(shù)據(jù)分類、遞歸、推薦、k最近鄰、異常檢測和特征哈希。
11.Mahout
據(jù)官方網(wǎng)站聲稱,Mahout項目的目的是“為迅速構(gòu)建可擴展、高性能的機器學習應(yīng)用程序打造一個環(huán)境。”它包括用于在HadoopMapReduce上進行數(shù)據(jù)挖掘的眾多算法,還包括一些面向Scala和Spark環(huán)境的新穎算法。
12.MapReduce
作為Hadoop一個不可或缺的部分,MapReduce這種編程模型為處理大型分布式數(shù)據(jù)集提供了一種方法。它最初是由谷歌開發(fā)的,但現(xiàn)在也被本文介紹的另外幾個大數(shù)據(jù)工具所使用,包括CouchDB、MongoDB和Riak。
13.Oozie
這種工作流程調(diào)度工具是為了管理Hadoop任務(wù)而專門設(shè)計的。它能夠按照時間或按照數(shù)據(jù)可用情況觸發(fā)任務(wù),并與MapReduce、Pig、Hive、Sqoop及其他許多相關(guān)工具整合起來。
支持的操作系統(tǒng):Linux和OSX。
14.Pig
ApachePig是一種面向分布式大數(shù)據(jù)分析的平臺。它依賴一種名為PigLatin的編程語言,擁有簡化的并行編程、優(yōu)化和可擴展性等優(yōu)點。
15.Sqoop
企業(yè)經(jīng)常需要在關(guān)系數(shù)據(jù)庫與Hadoop之間傳輸數(shù)據(jù),而Sqoop就是能完成這項任務(wù)的一款工具。它可以將數(shù)據(jù)導入到Hive或HBase,并從Hadoop導出到關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)。
16.Spark
作為MapReduce之外的一種選擇,Spark是一種數(shù)據(jù)處理引擎。它聲稱,用在內(nèi)存中時,其速度比MapReduce最多快100倍;用在磁盤上時,其速度比MapReduce最多快10倍。它可以與Hadoop和ApacheMesos一起使用,也可以獨立使用。
支持的操作系統(tǒng):Windows、Linux和OSX。
17.Tez
Tez建立在ApacheHadoopYARN的基礎(chǔ)上,這是“一種應(yīng)用程序框架,允許為任務(wù)構(gòu)建一種復雜的有向無環(huán)圖,以便處理數(shù)據(jù)。”它讓Hive和Pig可以簡化復雜的任務(wù),而這些任務(wù)原本需要多個步驟才能完成。
支持的操作系統(tǒng):Windows、Linux和OSX。
18.Zookeeper
這種大數(shù)據(jù)管理工具自稱是“一項集中式服務(wù),可用于維護配置信息、命名、提供分布式同步以及提供群組服務(wù)。”它讓Hadoop集群里面的節(jié)點可以彼此協(xié)調(diào)。
支持的操作系統(tǒng):Linux、Windows(只適合開發(fā)環(huán)境)和OSX(只適合開發(fā)環(huán)境)。
二、大數(shù)據(jù)分析平臺和工具
19.Disco
Disco最初由諾基亞開發(fā),這是一種分布式計算框架,與Hadoop一樣,它也基于MapReduce。它包括一種分布式文件系統(tǒng)以及支持數(shù)十億個鍵和值的數(shù)據(jù)庫。
支持的操作系統(tǒng):Linux和OSX。
20.HPCC
作為Hadoop之外的一種選擇,HPCC這種大數(shù)據(jù)平臺承諾速度非???,擴展性超強。除了免費社區(qū)版外,HPCCSystems還提供收費的企業(yè)版、收費模塊、培訓、咨詢及其他服務(wù)。
支持的操作系統(tǒng):Linux。
21.Lumify
Lumify歸Altamira科技公司(以國家安全技術(shù)而聞名)所有,這是一種開源大數(shù)據(jù)整合、分析和可視化平臺。你只要在Try.Lumify.io試一下演示版,就能看看它的實際效果。
支持的操作系統(tǒng):Linux。
22.Pandas
Pandas項目包括基于Python編程語言的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具。它讓企業(yè)組織可以將Python用作R之外的一種選擇,用于大數(shù)據(jù)分析項目。
支持的操作系統(tǒng):Windows、Linux和OSX。
23.Storm
Storm現(xiàn)在是一個Apache項目,它提供了實時處理大數(shù)據(jù)的功能(不像Hadoop只提供批任務(wù)處理)。其用戶包括推特、美國天氣頻道、WebMD、阿里巴巴、Yelp、雅虎日本、Spotify、Group、Flipboard及其他許多公司。
支持的操作系統(tǒng):Linux。
三、數(shù)據(jù)庫/數(shù)據(jù)倉庫
24.Blazegraph
Blazegraph之前名為“Bigdata”,這是一種高度擴展、高性能的數(shù)據(jù)庫。它既有使用開源許可證的版本,也有使用商業(yè)許可證的版本。
25.Cassandra
這種NoSQL數(shù)據(jù)庫最初由Facebook開發(fā),現(xiàn)已被1500多家企業(yè)組織使用,包括蘋果、歐洲原子核研究組織(CERN)、康卡斯特、電子港灣、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其他機構(gòu)。它能支持超大規(guī)模集群;比如說,蘋果部署的Cassandra系統(tǒng)就包括75000多個節(jié)點,擁有的數(shù)據(jù)量超過10PB。
26.CouchDB
CouchDB號稱是“一款完全擁抱互聯(lián)網(wǎng)的數(shù)據(jù)庫”,它將數(shù)據(jù)存儲在JSON文檔中,這種文檔可以通過Web瀏覽器來查詢,并且用Java來處理。它易于使用,在分布式上網(wǎng)絡(luò)上具有高可用性和高擴展性。
支持的操作系統(tǒng):Windows、Linux、OSX和安卓。
27.FlockDB
由推特開發(fā)的FlockDB是一種非??臁U展性非常好的圖形數(shù)據(jù)庫,擅長存儲社交網(wǎng)絡(luò)數(shù)據(jù)。雖然它仍可用于下載,但是這個項目的開源版已有一段時間沒有更新了。
28.Hibari
這個基于Erlang的項目自稱是“一種分布式有序鍵值存儲系統(tǒng),保證擁有很強的一致性”。它最初是由GeminiMobileTechnologies開發(fā)的,現(xiàn)在已被歐洲和亞洲的幾家電信運營商所使用。
29.Hypertable
Hypertable是一種與Hadoop兼容的大數(shù)據(jù)數(shù)據(jù)庫,承諾性能超高,其用戶包括電子港灣、百度、高朋、Yelp及另外許多互聯(lián)網(wǎng)公司。提供商業(yè)支持服務(wù)。
支持的操作系統(tǒng):Linux和OSX。
30.Impala
Cloudera聲稱,基于SQL的Impala數(shù)據(jù)庫是“面向ApacheHadoop的領(lǐng)先的開源分析數(shù)據(jù)庫”。它可以作為一款獨立產(chǎn)品來下載,又是Cloudera的商業(yè)大數(shù)據(jù)產(chǎn)品的一部分。
支持的操作系統(tǒng):Linux和OSX。
31.InfoBright社區(qū)版
InfoBright為數(shù)據(jù)分析而設(shè)計,這是一種面向列的數(shù)據(jù)庫,具有很高的壓縮比。InfoBright.com提供基于同一代碼的收費產(chǎn)品,提供支持服務(wù)。
支持的操作系統(tǒng):Windows和Linux。
32.MongoDB
mongoDB的下載量已超過1000萬人次,這是一種極其受歡迎的NoSQL數(shù)據(jù)庫。MongoDB.com上提供了企業(yè)版、支持、培訓及相關(guān)產(chǎn)品和服務(wù)。
支持的操作系統(tǒng):Windows、Linux、OSX和Solaris。

責任編輯:售電衡衡
- 相關(guān)閱讀
- 泛在電力物聯(lián)網(wǎng)
- 電動汽車
- 儲能技術(shù)
- 智能電網(wǎng)
- 電力通信
- 電力軟件
- 高壓技術(shù)
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計 -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計 -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市