大數(shù)據(jù)應(yīng)用:Hadoop沖鋒陷陣
如今,大數(shù)據(jù)已經(jīng)成為時(shí)代的主題,企業(yè)對(duì)大數(shù)據(jù)的應(yīng)用也愈加深入,隨著大數(shù)據(jù)的普及,有很多大數(shù)據(jù)的觀念需要被質(zhì)疑,首先一點(diǎn)就是人們普遍認(rèn)為你可以簡(jiǎn)單地利用Hadoop,并且Hadoop易于使用。
問(wèn)題是,Hadoop是一項(xiàng)技術(shù),而大數(shù)據(jù)和技術(shù)無(wú)關(guān)。大數(shù)據(jù)是和業(yè)務(wù)需求有關(guān)的。事實(shí)上,大數(shù)據(jù)應(yīng)該包括Hadoop和關(guān)系型數(shù)據(jù)庫(kù)以及任何其它適合于我們手頭任務(wù)的技術(shù)。
例如,在Hadoop中對(duì)一個(gè)數(shù)據(jù)集做廣泛并且探索性的分析是很有意義的,但關(guān)系型存儲(chǔ)對(duì)于那些尚未發(fā)現(xiàn)的東西進(jìn)行運(yùn)行分析則更好。Hadoop對(duì)于在一個(gè)數(shù)據(jù)集中尋找最低水平的細(xì)節(jié)也很好用,但關(guān)系型數(shù)據(jù)庫(kù)對(duì)于數(shù)據(jù)的存儲(chǔ)轉(zhuǎn)換和匯總則更有意義。因此底線是,對(duì)于你的任何需求,要使用正確的技術(shù)。
對(duì)于Hadoop如何組合和處理大數(shù)據(jù)的技巧和方法,數(shù)據(jù)專家Anoop曾經(jīng)在另一篇文章中提到過(guò),一般情況下,為了得到最終的結(jié)果,數(shù)據(jù)需要加入多個(gè)數(shù)據(jù)集一起被處理和聯(lián)合。Hadoop中有很多方法可以加入多個(gè)數(shù)據(jù)集。MapReduce提供了Map端和Reduce端的數(shù)據(jù)連接。這些連接是非平凡的連接,并且可能會(huì)是非常昂貴的操作。Pig和Hive也具有同等的能力來(lái)申請(qǐng)連接到多個(gè)數(shù)據(jù)集。Pig提供了復(fù)制連接,合并連接和傾斜連接(skewed join),并且Hive提供了map端的連接和完整外部連接來(lái)分析數(shù)據(jù)。
在大數(shù)據(jù)/Hadoop的世界,一些問(wèn)題可能并不復(fù)雜,并且解決方案也是直截了當(dāng)?shù)模媾R的挑戰(zhàn)是數(shù)據(jù)量。在這種情況下需要不同的解決辦法來(lái)解決問(wèn)題。一些分析任務(wù)是從日志文件中統(tǒng)計(jì)明確的ID的數(shù)目、在特定的日期范圍內(nèi)改造存儲(chǔ)的數(shù)據(jù)、以及網(wǎng)友排名等。所有這些任務(wù)都可以通過(guò)Hadoop中的多種工具和技術(shù)如MapReduce、Hive、Pig、Giraph和Mahout等來(lái)解決。這些工具在自定義例程的幫助下可以靈活地?cái)U(kuò)展它們的能力。
Hadoop是一個(gè)框架,不是一個(gè)解決方案,在解決大數(shù)據(jù)分析的問(wèn)題上人們誤認(rèn)為Hadoop可以立即有效工作,而實(shí)際上對(duì)于簡(jiǎn)單的查詢,它是可以的。但對(duì)于難一些的分析問(wèn)題,Hadoop會(huì)迅速敗下陣來(lái),因?yàn)樾枰阒苯娱_(kāi)發(fā)Map/Reduce代碼。出于這個(gè)原因,Hadoop更像是J2EE編程環(huán)境而不是商業(yè)分析解決方案。”所謂框架意味著你一定要在之上做個(gè)性化和業(yè)務(wù)相關(guān)的開(kāi)發(fā)和實(shí)現(xiàn),而這些都需要成本。
Hadoop是一個(gè)用來(lái)做一些非常復(fù)雜的數(shù)據(jù)分析的杰出工具。但是具有諷刺意味的是,它也是需要大量的編程工作才能得到這些問(wèn)題的答案。 這一點(diǎn)不止在數(shù)據(jù)分析應(yīng)用方面,它其實(shí)反映了目前使用開(kāi)源框架時(shí)候不得不面對(duì)的選型平衡問(wèn)題。當(dāng)你在選型開(kāi)源框架或代碼的時(shí)候,既要考慮清楚它能夠幫到你多少,節(jié)省多少時(shí)間和成本,提高多少效率。也要知道由此而產(chǎn)生多少新增的成本,比如工程師的學(xué)習(xí)成本、開(kāi)發(fā)和維護(hù)成本,以及未來(lái)的擴(kuò)展性,包括如果使用的框架升級(jí)了,你和你的團(tuán)隊(duì)是否要做相應(yīng)的升級(jí);甚至還要有安全性方面的考慮,畢竟開(kāi)源框架的漏洞也是眾所周知的。

責(zé)任編輯:小沈
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵(lì)“光儲(chǔ)充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國(guó)自主研制的“人造太陽(yáng)”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實(shí)踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進(jìn)這個(gè)行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動(dòng)化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵(lì)“光儲(chǔ)充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國(guó)自主研制的“人造太陽(yáng)”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長(zhǎng)期助力儲(chǔ)能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市
-
山西省首座電力與通信共享電力鐵塔試點(diǎn)成功
-
中國(guó)電建公司公共資源交易服務(wù)平臺(tái)摘得電力創(chuàng)新大獎(jiǎng)
-
電力系統(tǒng)對(duì)UPS的技術(shù)要求