大數(shù)據(jù)和云計(jì)算是天作之合
亞馬遜云計(jì)算AWS首席數(shù)據(jù)科學(xué)家Matt Wood認(rèn)為,大數(shù)據(jù)和云計(jì)算是天作之合,云計(jì)算平臺(tái)的海量低成本的數(shù)據(jù)存儲(chǔ)與處理資源為大數(shù)據(jù)分享提供了可能。
Matt Wood一天的工作不僅僅是幫亞馬遜員工完成數(shù)據(jù)淘金工作,他還需要設(shè)法取悅亞馬遜的客戶(hù)。Wood幫助AWS的用戶(hù)利用亞馬遜云計(jì)算資源搭建大數(shù)據(jù)架構(gòu),然后根據(jù)客戶(hù)需求設(shè)計(jì)產(chǎn)品,例如數(shù)據(jù)管道服務(wù)(Data Pipeline Service)和Redshift數(shù)據(jù)倉(cāng)庫(kù)服務(wù)。
關(guān)于基于云計(jì)算的大數(shù)據(jù)服務(wù)的發(fā)展趨勢(shì),記者采訪了Matt Wood,會(huì)談的亮點(diǎn)摘錄如下:
從資源優(yōu)先到業(yè)務(wù)優(yōu)先
不久前,計(jì)算機(jī)科學(xué)家已經(jīng)掌握了今日之所謂數(shù)據(jù)科學(xué)的理論和概念,但當(dāng)時(shí)的資源有限,能夠進(jìn)行的數(shù)據(jù)分析類(lèi)型也很有限。
如今,數(shù)據(jù)存儲(chǔ)和處理資源已經(jīng)極大豐富和廉價(jià),這使得大數(shù)據(jù)的概念成為可能。而云計(jì)算則進(jìn)一步降低了數(shù)據(jù)存儲(chǔ)和處理資源的成本,容量也更大。這意味著數(shù)據(jù)分析的觀念正在經(jīng)歷一次重大的范型轉(zhuǎn)移,從過(guò)去資源優(yōu)先轉(zhuǎn)向以企業(yè)需求為先。
如果他們能夠突破傳統(tǒng)的數(shù)據(jù)采樣和處理模式,一個(gè)人就能專(zhuān)注于要做的事情,因?yàn)橘Y源太多了。例如,點(diǎn)評(píng)網(wǎng)站Yelp允許開(kāi)發(fā)者無(wú)限制使用Elastic MapReduce,這樣開(kāi)發(fā)者就不必為了測(cè)試某個(gè)瘋狂想法而走繁瑣的資源申請(qǐng)流程。Yelp能夠在一年前發(fā)現(xiàn)網(wǎng)站流量的移動(dòng)化趨勢(shì)并及時(shí)開(kāi)展移動(dòng)業(yè)務(wù)都得益于此。
數(shù)據(jù)的問(wèn)題不都是規(guī)模
總的來(lái)說(shuō),客戶(hù)的數(shù)據(jù)問(wèn)題并不都是如何更低的成本存儲(chǔ)更多的數(shù)據(jù),你不一定需要1PB的數(shù)據(jù)才能分析出誰(shuí)是你社交游戲的用戶(hù)。
實(shí)際上,能夠無(wú)限制的存儲(chǔ)和處理數(shù)據(jù)本身會(huì)產(chǎn)生新的問(wèn)題。公司希望能夠保存所有產(chǎn)生的數(shù)據(jù),這會(huì)導(dǎo)致復(fù)雜性增加。從亞馬遜的S3和DynamoDB服務(wù)到企業(yè)數(shù)據(jù)中心的物理服務(wù)器,當(dāng)數(shù)據(jù)在所有的庫(kù)中都堆積如山時(shí),數(shù)據(jù)轉(zhuǎn)移和復(fù)用的難度也會(huì)變得很大。
AWS新推出的數(shù)據(jù)管道服務(wù)(Data Pipeline Service)就是為了解決這個(gè)問(wèn)題。管道非常復(fù)雜,從運(yùn)行一個(gè)簡(jiǎn)單的數(shù)據(jù)業(yè)務(wù)邏輯到在Elastic MapReduce上運(yùn)行所有的批任務(wù),數(shù)據(jù)管道服務(wù)的目的就是將數(shù)據(jù)的移動(dòng)和處理自動(dòng)化,用戶(hù)無(wú)需自己建立這些工作流程并手動(dòng)運(yùn)行。
把大數(shù)據(jù)快遞給云計(jì)算
人們有時(shí)候會(huì)質(zhì)疑云計(jì)算與大數(shù)據(jù)任務(wù)之間的相關(guān)度,因?yàn)槿绻麑⑵髽I(yè)內(nèi)部系統(tǒng)產(chǎn)生的數(shù)據(jù)都上傳到云端,由于受到網(wǎng)速限制,數(shù)據(jù)規(guī)模越大,上傳的時(shí)間就越長(zhǎng)。為了解決這個(gè)問(wèn)題,亞馬遜想盡各種辦法,包括與Aspera合作,甚至與那些研究在互聯(lián)網(wǎng)上快速轉(zhuǎn)移大文件(Wood說(shuō)見(jiàn)過(guò)700MB/秒的技術(shù))的開(kāi)源項(xiàng)目合作。此外,亞馬遜還取消了傳入數(shù)據(jù)的收費(fèi),并開(kāi)啟了并行上傳功能。此外亞馬遜還與數(shù)據(jù)中心運(yùn)營(yíng)者合作啟動(dòng)了直連項(xiàng)目(Direct Connect Program),為亞馬遜AWS設(shè)施提供專(zhuān)線連接。
最后,如果客戶(hù)的數(shù)據(jù)量實(shí)在太大,網(wǎng)速又不夠快,還可以直接將存有數(shù)據(jù)的硬盤(pán)快遞給亞馬遜。
協(xié)作是未來(lái)趨勢(shì)
當(dāng)數(shù)據(jù)遷移到云端后,就開(kāi)啟了一種全興的協(xié)作方式,研究人員,乃至整個(gè)行業(yè)都能訪問(wèn)和分享這些過(guò)去因體量太大而無(wú)法移動(dòng)的數(shù)據(jù)。一些產(chǎn)生海量數(shù)據(jù)的行業(yè)已經(jīng)開(kāi)始在云端分享數(shù)據(jù),例如AWS上已經(jīng)托管的1000個(gè)基因組項(xiàng)目。
遺傳學(xué)項(xiàng)目從云計(jì)算中受益匪淺,雖然AWS上的1000個(gè)基因組項(xiàng)目的數(shù)據(jù)庫(kù)只有200TB,但是單個(gè)項(xiàng)目很少有足夠的預(yù)算存儲(chǔ)這么多數(shù)據(jù)并與同事分享。即使在資金充裕的醫(yī)藥領(lǐng)域,亞馬遜CTO Werner Vogels曾說(shuō)過(guò),醫(yī)藥企業(yè)正在使用云計(jì)算分享數(shù)據(jù),企業(yè)們也無(wú)需花費(fèi)時(shí)間和金錢(qián)"重新發(fā)明車(chē)輪"。
不再需要超級(jí)計(jì)算機(jī)?
Wood對(duì)亞馬遜高性能計(jì)算客戶(hù)在AWS平臺(tái)上的工作印象深刻——這些工作過(guò)去必須依賴(lài)超級(jí)計(jì)算機(jī)才能完成。這要感謝AWS的合作伙伴Cycle Computing,維斯康辛大學(xué)如今在AWS上能夠一周內(nèi)完成過(guò)去需要116年的計(jì)算任務(wù)。AWS正在不斷增加實(shí)例的配置和性能,從最大的250GB內(nèi)存到GPU集群計(jì)算實(shí)例,AWS都將提供。出于成本的考慮,AWS目前僅在一部分市場(chǎng)提供集群計(jì)算實(shí)例和Elastic MapReduce。
如今很多運(yùn)行數(shù)據(jù)密集型工作負(fù)載的企業(yè)都開(kāi)始將目光投向云計(jì)算。大數(shù)據(jù)(尤其是Hadoop)和云計(jì)算年紀(jì)相仿,相輔相成,可謂天作之合。
責(zé)任編輯:小沈
-
權(quán)威發(fā)布 | 新能源汽車(chē)產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵(lì)“光儲(chǔ)充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車(chē),產(chǎn)業(yè),設(shè)計(jì) -
中國(guó)自主研制的“人造太陽(yáng)”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實(shí)踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進(jìn)這個(gè)行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車(chē)駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動(dòng)化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車(chē)產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵(lì)“光儲(chǔ)充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車(chē),產(chǎn)業(yè),設(shè)計(jì) -
中國(guó)自主研制的“人造太陽(yáng)”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長(zhǎng)期助力儲(chǔ)能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市
-
山西省首座電力與通信共享電力鐵塔試點(diǎn)成功
-
中國(guó)電建公司公共資源交易服務(wù)平臺(tái)摘得電力創(chuàng)新大獎(jiǎng)
-
電力系統(tǒng)對(duì)UPS的技術(shù)要求