大數(shù)據(jù)和云計算是天作之合
亞馬遜云計算AWS首席數(shù)據(jù)科學家Matt Wood認為,大數(shù)據(jù)和云計算是天作之合,云計算平臺的海量低成本的數(shù)據(jù)存儲與處理資源為大數(shù)據(jù)分享提供了可能。
Matt Wood一天的工作不僅僅是幫亞馬遜員工完成數(shù)據(jù)淘金工作,他還需要設法取悅亞馬遜的客戶。Wood幫助AWS的用戶利用亞馬遜云計算資源搭建大數(shù)據(jù)架構,然后根據(jù)客戶需求設計產品,例如數(shù)據(jù)管道服務(Data Pipeline Service)和Redshift數(shù)據(jù)倉庫服務。
關于基于云計算的大數(shù)據(jù)服務的發(fā)展趨勢,記者采訪了Matt Wood,會談的亮點摘錄如下:
從資源優(yōu)先到業(yè)務優(yōu)先
不久前,計算機科學家已經掌握了今日之所謂數(shù)據(jù)科學的理論和概念,但當時的資源有限,能夠進行的數(shù)據(jù)分析類型也很有限。
如今,數(shù)據(jù)存儲和處理資源已經極大豐富和廉價,這使得大數(shù)據(jù)的概念成為可能。而云計算則進一步降低了數(shù)據(jù)存儲和處理資源的成本,容量也更大。這意味著數(shù)據(jù)分析的觀念正在經歷一次重大的范型轉移,從過去資源優(yōu)先轉向以企業(yè)需求為先。
如果他們能夠突破傳統(tǒng)的數(shù)據(jù)采樣和處理模式,一個人就能專注于要做的事情,因為資源太多了。例如,點評網站Yelp允許開發(fā)者無限制使用Elastic MapReduce,這樣開發(fā)者就不必為了測試某個瘋狂想法而走繁瑣的資源申請流程。Yelp能夠在一年前發(fā)現(xiàn)網站流量的移動化趨勢并及時開展移動業(yè)務都得益于此。
數(shù)據(jù)的問題不都是規(guī)模
總的來說,客戶的數(shù)據(jù)問題并不都是如何更低的成本存儲更多的數(shù)據(jù),你不一定需要1PB的數(shù)據(jù)才能分析出誰是你社交游戲的用戶。
實際上,能夠無限制的存儲和處理數(shù)據(jù)本身會產生新的問題。公司希望能夠保存所有產生的數(shù)據(jù),這會導致復雜性增加。從亞馬遜的S3和DynamoDB服務到企業(yè)數(shù)據(jù)中心的物理服務器,當數(shù)據(jù)在所有的庫中都堆積如山時,數(shù)據(jù)轉移和復用的難度也會變得很大。
AWS新推出的數(shù)據(jù)管道服務(Data Pipeline Service)就是為了解決這個問題。管道非常復雜,從運行一個簡單的數(shù)據(jù)業(yè)務邏輯到在Elastic MapReduce上運行所有的批任務,數(shù)據(jù)管道服務的目的就是將數(shù)據(jù)的移動和處理自動化,用戶無需自己建立這些工作流程并手動運行。
把大數(shù)據(jù)快遞給云計算
人們有時候會質疑云計算與大數(shù)據(jù)任務之間的相關度,因為如果將企業(yè)內部系統(tǒng)產生的數(shù)據(jù)都上傳到云端,由于受到網速限制,數(shù)據(jù)規(guī)模越大,上傳的時間就越長。為了解決這個問題,亞馬遜想盡各種辦法,包括與Aspera合作,甚至與那些研究在互聯(lián)網上快速轉移大文件(Wood說見過700MB/秒的技術)的開源項目合作。此外,亞馬遜還取消了傳入數(shù)據(jù)的收費,并開啟了并行上傳功能。此外亞馬遜還與數(shù)據(jù)中心運營者合作啟動了直連項目(Direct Connect Program),為亞馬遜AWS設施提供專線連接。
最后,如果客戶的數(shù)據(jù)量實在太大,網速又不夠快,還可以直接將存有數(shù)據(jù)的硬盤快遞給亞馬遜。
協(xié)作是未來趨勢
當數(shù)據(jù)遷移到云端后,就開啟了一種全興的協(xié)作方式,研究人員,乃至整個行業(yè)都能訪問和分享這些過去因體量太大而無法移動的數(shù)據(jù)。一些產生海量數(shù)據(jù)的行業(yè)已經開始在云端分享數(shù)據(jù),例如AWS上已經托管的1000個基因組項目。
遺傳學項目從云計算中受益匪淺,雖然AWS上的1000個基因組項目的數(shù)據(jù)庫只有200TB,但是單個項目很少有足夠的預算存儲這么多數(shù)據(jù)并與同事分享。即使在資金充裕的醫(yī)藥領域,亞馬遜CTO Werner Vogels曾說過,醫(yī)藥企業(yè)正在使用云計算分享數(shù)據(jù),企業(yè)們也無需花費時間和金錢"重新發(fā)明車輪"。
不再需要超級計算機?
Wood對亞馬遜高性能計算客戶在AWS平臺上的工作印象深刻——這些工作過去必須依賴超級計算機才能完成。這要感謝AWS的合作伙伴Cycle Computing,維斯康辛大學如今在AWS上能夠一周內完成過去需要116年的計算任務。AWS正在不斷增加實例的配置和性能,從最大的250GB內存到GPU集群計算實例,AWS都將提供。出于成本的考慮,AWS目前僅在一部分市場提供集群計算實例和Elastic MapReduce。
如今很多運行數(shù)據(jù)密集型工作負載的企業(yè)都開始將目光投向云計算。大數(shù)據(jù)(尤其是Hadoop)和云計算年紀相仿,相輔相成,可謂天作之合。

責任編輯:小沈
-
權威發(fā)布 | 新能源汽車產業(yè)頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業(yè),設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網
-
新基建助推 數(shù)據(jù)中心建設將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網,電力新基建 -
泛在電力物聯(lián)網建設下看電網企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網 -
泛在電力物聯(lián)網建設典型實踐案例
2019-10-15泛在電力物聯(lián)網案例
-
新基建之充電樁“火”了 想進這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎設施,電力新基建 -
燃料電池汽車駛入尋常百姓家還要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調”充電樁配套節(jié)奏
-
權威發(fā)布 | 新能源汽車產業(yè)頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業(yè),設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網 -
5G新基建助力智能電網發(fā)展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市