鄔賀銓:大數(shù)據(jù)時代的發(fā)展趨勢
以從大數(shù)據(jù)中挖掘大價值為主題的第二屆中國大數(shù)據(jù)應(yīng)用論壇于2013年7月21日在北京大學(xué)英杰交流中心陽光大廳隆重舉辦。本次活動由北京大學(xué)信息化與信息管理研究中心和北京大學(xué)CIO班教務(wù)辦公室主辦,北達(dá)軟
中心化,這個圖是全世界用戶互聯(lián)網(wǎng)帶寬,國際互聯(lián)網(wǎng)帶寬是增加的,但是比例是下降的。左上角的圖就是美國全球各個州到美國的國際互聯(lián)網(wǎng)的流量,除了上面的線是拉丁美洲,下來之后略有回升,其他的亞洲、歐洲、美國互聯(lián)網(wǎng)國際流量比例是下降的,也就是說絕對值增加、相對值下降,這是因為很多東西只需要就近訪問,并不需要跨洋越境了。
第四,大數(shù)據(jù)挖掘的挑戰(zhàn)。大數(shù)據(jù)技術(shù)涉及到數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)挖掘、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)安全等,涉及到很多環(huán)節(jié)。比如說挖掘就需要對數(shù)據(jù)進(jìn)行清洗,進(jìn)行合并、壓縮,要轉(zhuǎn)換格式,然后進(jìn)行統(tǒng)計分析,知識發(fā)現(xiàn)以及可視化處理。然后找出它的關(guān)聯(lián)規(guī)則,分類、聚類,排序列,優(yōu)化路徑。這里涉及到一大批的數(shù)據(jù)挖掘的軟件,簡單來說,首先是MapReducers,左邊的圖上很多數(shù)據(jù),不同顏色表示不同類型,首先通過Map把這些數(shù)據(jù)進(jìn)行分類,不同業(yè)務(wù)類型的數(shù)據(jù)分到不同的存儲服務(wù)器里頭,這樣就是為了簡化運算,在分類過程當(dāng)中數(shù)據(jù)是要加標(biāo)簽的,同時要把重復(fù)的去掉,這是進(jìn)行大數(shù)據(jù)的預(yù)分析前的一些操作。另外,大數(shù)據(jù)需要有很多服務(wù)器。曾經(jīng)有人認(rèn)為買高端服務(wù)器才可靠,后來Google首創(chuàng)利用低端的服務(wù)器,它認(rèn)為沒必要用高端,只要用低端服務(wù)器就夠了,而低端服務(wù)器可靠性不好,怎么辦呢?冗余配置。就是把一個數(shù)據(jù)拷到三個服務(wù)器里頭,三個低端服務(wù)器的價格仍然比一個高端的服務(wù)器便宜,這樣一來既提高可靠性又降低了成本。所以大數(shù)據(jù)的分析需要分布存儲和冗余備份。還有Map Reducers要通過映射、調(diào)度,最后把結(jié)果歸納起來得出我們要得結(jié)果。大數(shù)據(jù)跟過去的分析不一樣,過去的數(shù)據(jù)都是存下來,存到靜止的數(shù)據(jù)庫里頭,然后再分析。而大數(shù)據(jù)每時每刻都有,比如說幾毫秒就要送一個數(shù)據(jù)出來,飛機(jī)引擎也是不斷的送數(shù)據(jù)出來,數(shù)據(jù)根本沒有停止的時候,我們不可能等數(shù)據(jù)停下來再來分析,我們必須一邊走一邊分析,怎么辦呢?過去的分析是靜止的,叫做“帶數(shù)據(jù)進(jìn)程序”,現(xiàn)在的分析是在活動的,也就是“帶程序進(jìn)數(shù)據(jù)”。所以大數(shù)據(jù)分析也會帶來很大的挑戰(zhàn)。
另外,更難的挑戰(zhàn)是非結(jié)構(gòu)化的數(shù)據(jù)。所謂結(jié)構(gòu)化就是說可以用文本表格等方式來表達(dá),即便文本表格表達(dá)從語意理解還是比較難的。比如地震的時候,網(wǎng)絡(luò)上為了監(jiān)控輿情,看看究竟是正面的評論多還是負(fù)面的評論多,有一條信息說“當(dāng)他發(fā)現(xiàn)他兒子還活著的時候,他抱頭痛哭。”按照分析,“痛哭”肯定是負(fù)面的。但實際上這是正面的。這是因為什么呢?要讓計算機(jī)懂得人的感情,這就難了。文字的分析況且這么難,那么對照片的分析就更難了,要通過OCR掃描出里面的文字,把文字作為標(biāo)簽加到照片上。照片還好說一點,而視頻分析就更難了,你怎么找這個人?去年1月份周克華在南京殺了人,當(dāng)時攝像頭把他拍下來的,南京市調(diào)出幾十萬個攝像頭視頻,拍多長就要看多長,沒有分析的辦法就靠人看,所以這是很慢的。因此大數(shù)據(jù)互換智能化的處理、智能化的分析。
另外,大數(shù)據(jù)需要虛擬化和可視化。舉個例子,上海江蘇路,路上有很多攝像頭,每個攝像頭背后連一個電視屏幕,在交通管理中心的一面墻上放了很多屏。當(dāng)然了,再大的墻壁也放不下全上海這么多交通攝像頭,所以只能10秒鐘顯示一條馬路的攝像頭,這些都是分離的,一個一個看很難看出問題。我們希望通過軟件把這條馬路的攝像頭合成一個視頻,只要看這個視頻就知道全馬路攝像頭的狀況了。當(dāng)然只有一條馬路還不夠,我們還要把它合成全上海一幅圖,就像上海市領(lǐng)導(dǎo)坐著直升機(jī)俯視上海一樣,看到上海市整個城市里頭,在東京北緯某個緯度,在某個時刻段,哪段路交通堵塞。大數(shù)據(jù),無論數(shù)據(jù)有多大,無論是PB還是TB,最重要結(jié)果都應(yīng)該非常直觀的一幅圖。
Gartner公司在發(fā)布2012-2016的IT發(fā)展趨勢,有五點:大數(shù)據(jù)、云存儲、移動應(yīng)用、社交網(wǎng)絡(luò)、網(wǎng)絡(luò)安全。我們可以看到其中最主要的是大數(shù)據(jù)。大數(shù)據(jù)推動ICT發(fā)展的時代,云計算、移動互聯(lián)網(wǎng)、下一代互聯(lián)網(wǎng)、大數(shù)據(jù)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò),我叫做“大智移云”,你可以看到這些新的信息技術(shù)適應(yīng)大數(shù)據(jù)新一代發(fā)展。
第四,大數(shù)據(jù)挖掘的挑戰(zhàn)。大數(shù)據(jù)技術(shù)涉及到數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)挖掘、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)安全等,涉及到很多環(huán)節(jié)。比如說挖掘就需要對數(shù)據(jù)進(jìn)行清洗,進(jìn)行合并、壓縮,要轉(zhuǎn)換格式,然后進(jìn)行統(tǒng)計分析,知識發(fā)現(xiàn)以及可視化處理。然后找出它的關(guān)聯(lián)規(guī)則,分類、聚類,排序列,優(yōu)化路徑。這里涉及到一大批的數(shù)據(jù)挖掘的軟件,簡單來說,首先是MapReducers,左邊的圖上很多數(shù)據(jù),不同顏色表示不同類型,首先通過Map把這些數(shù)據(jù)進(jìn)行分類,不同業(yè)務(wù)類型的數(shù)據(jù)分到不同的存儲服務(wù)器里頭,這樣就是為了簡化運算,在分類過程當(dāng)中數(shù)據(jù)是要加標(biāo)簽的,同時要把重復(fù)的去掉,這是進(jìn)行大數(shù)據(jù)的預(yù)分析前的一些操作。另外,大數(shù)據(jù)需要有很多服務(wù)器。曾經(jīng)有人認(rèn)為買高端服務(wù)器才可靠,后來Google首創(chuàng)利用低端的服務(wù)器,它認(rèn)為沒必要用高端,只要用低端服務(wù)器就夠了,而低端服務(wù)器可靠性不好,怎么辦呢?冗余配置。就是把一個數(shù)據(jù)拷到三個服務(wù)器里頭,三個低端服務(wù)器的價格仍然比一個高端的服務(wù)器便宜,這樣一來既提高可靠性又降低了成本。所以大數(shù)據(jù)的分析需要分布存儲和冗余備份。還有Map Reducers要通過映射、調(diào)度,最后把結(jié)果歸納起來得出我們要得結(jié)果。大數(shù)據(jù)跟過去的分析不一樣,過去的數(shù)據(jù)都是存下來,存到靜止的數(shù)據(jù)庫里頭,然后再分析。而大數(shù)據(jù)每時每刻都有,比如說幾毫秒就要送一個數(shù)據(jù)出來,飛機(jī)引擎也是不斷的送數(shù)據(jù)出來,數(shù)據(jù)根本沒有停止的時候,我們不可能等數(shù)據(jù)停下來再來分析,我們必須一邊走一邊分析,怎么辦呢?過去的分析是靜止的,叫做“帶數(shù)據(jù)進(jìn)程序”,現(xiàn)在的分析是在活動的,也就是“帶程序進(jìn)數(shù)據(jù)”。所以大數(shù)據(jù)分析也會帶來很大的挑戰(zhàn)。
另外,更難的挑戰(zhàn)是非結(jié)構(gòu)化的數(shù)據(jù)。所謂結(jié)構(gòu)化就是說可以用文本表格等方式來表達(dá),即便文本表格表達(dá)從語意理解還是比較難的。比如地震的時候,網(wǎng)絡(luò)上為了監(jiān)控輿情,看看究竟是正面的評論多還是負(fù)面的評論多,有一條信息說“當(dāng)他發(fā)現(xiàn)他兒子還活著的時候,他抱頭痛哭。”按照分析,“痛哭”肯定是負(fù)面的。但實際上這是正面的。這是因為什么呢?要讓計算機(jī)懂得人的感情,這就難了。文字的分析況且這么難,那么對照片的分析就更難了,要通過OCR掃描出里面的文字,把文字作為標(biāo)簽加到照片上。照片還好說一點,而視頻分析就更難了,你怎么找這個人?去年1月份周克華在南京殺了人,當(dāng)時攝像頭把他拍下來的,南京市調(diào)出幾十萬個攝像頭視頻,拍多長就要看多長,沒有分析的辦法就靠人看,所以這是很慢的。因此大數(shù)據(jù)互換智能化的處理、智能化的分析。
另外,大數(shù)據(jù)需要虛擬化和可視化。舉個例子,上海江蘇路,路上有很多攝像頭,每個攝像頭背后連一個電視屏幕,在交通管理中心的一面墻上放了很多屏。當(dāng)然了,再大的墻壁也放不下全上海這么多交通攝像頭,所以只能10秒鐘顯示一條馬路的攝像頭,這些都是分離的,一個一個看很難看出問題。我們希望通過軟件把這條馬路的攝像頭合成一個視頻,只要看這個視頻就知道全馬路攝像頭的狀況了。當(dāng)然只有一條馬路還不夠,我們還要把它合成全上海一幅圖,就像上海市領(lǐng)導(dǎo)坐著直升機(jī)俯視上海一樣,看到上海市整個城市里頭,在東京北緯某個緯度,在某個時刻段,哪段路交通堵塞。大數(shù)據(jù),無論數(shù)據(jù)有多大,無論是PB還是TB,最重要結(jié)果都應(yīng)該非常直觀的一幅圖。
Gartner公司在發(fā)布2012-2016的IT發(fā)展趨勢,有五點:大數(shù)據(jù)、云存儲、移動應(yīng)用、社交網(wǎng)絡(luò)、網(wǎng)絡(luò)安全。我們可以看到其中最主要的是大數(shù)據(jù)。大數(shù)據(jù)推動ICT發(fā)展的時代,云計算、移動互聯(lián)網(wǎng)、下一代互聯(lián)網(wǎng)、大數(shù)據(jù)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò),我叫做“大智移云”,你可以看到這些新的信息技術(shù)適應(yīng)大數(shù)據(jù)新一代發(fā)展。

責(zé)任編輯:何健
免責(zé)聲明:本文僅代表作者個人觀點,與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
我要收藏
個贊
-
曹志剛:我們期待風(fēng)電成為中國的主力能源
2020-11-17風(fēng)電,能源,主力能源 -
張鈞:未來配電網(wǎng)內(nèi)涵特征與發(fā)展框架研究
-
習(xí)近平:持續(xù)增強(qiáng)電力裝備、新能源等領(lǐng)域的全產(chǎn)業(yè)鏈優(yōu)勢
2020-11-02電力裝備,新能源,通信設(shè)備
-
曹志剛:我們期待風(fēng)電成為中國的主力能源
2020-11-17風(fēng)電,能源,主力能源 -
張鈞:未來配電網(wǎng)內(nèi)涵特征與發(fā)展框架研究
-
杜祥琬:創(chuàng)新觀念,推動能源高質(zhì)量發(fā)展
2020-09-28能源,創(chuàng)新,觀點