論大數據分析的正確方法 應理智對待
據統計,從人類文明開始到2003年,人類共創造了5TB(兆億字節)的信息?,F在,同樣的數據量僅需兩天就能夠被創造出來,且速度仍在加快。如此龐大的數據量使數據分析復雜化,而大數據中的非結構化數據將加深這種復雜度。
這種情況下,我們需要清楚:什么樣的數據應被保存。如果從整體性出發,數據采集和存貯算不上大數據,對海量數據進行分析計算之后的結果才有實際價值。這亦是大數據的價值所在。
關于大數據數量,業內一種較為激進的觀點認為,“大數據”的叫法存在問題,因為數據只有“大”是沒有用處的。雖然數據無處不在,但唯有復用性強和可轉化成有用抽象信息的數據才更有價值。
即使我們的數據搜集、處理能力逐漸增強,仍然要堅持“不是任何數據都重要”這一準則。對企業來講,具體需遵循兩點,一是堅持數據廣泛性,對內掌握企業內部分析數據,對外摸準用戶喜好和習慣;二是堅持數據關鍵性,從最重要處著手,把握數據復用性,達到最大價值又使成本最優化。
《哈佛商業評論》近期發表了一篇題為“更大的數據會導致更好的決策嗎?”的文章,這篇文章提出警告,把重點放在量的方面將導致大錯誤。如今很多企業試圖通過龐大的數據量獲得利益,但只有少數企業真正取得成功,這是過分注重數據“量”帶來的弊端。
大數據分析之數據質量與數據分享
我們知道,要保證分析結果的準確性,必須確保被分析數據真實有效,至少絕大部分數據樣本要有質量保證。但在大量數據從數據源匯聚而來的過程中,難免有以次充好的數據混入。
在淘寶網購時,賣家信用等級是買家購買與否的重要參考。為了提高產品銷售量,刷信用等級成了業內公開的秘密,伴隨著部分賣家弄虛作假、違規提高信用等級的過程,將產生大量失真數據,在欺騙消費者的同時,也會直接影響后期數據分析結果。
其次,中國互聯網產業中,“數據割據”現象較嚴重,即掌握大量核心數據的幾大互聯網巨頭各自為戰,不愿分享。如掌握搜索數據的百度,掌握社交數據的騰訊,掌握消費數據的阿里巴巴,他們都意識到數據對于未來企業競爭力的重要性,因此不會將自己手中的數據籌碼輕易示人。
仍舊以百度、騰訊、阿里巴巴為例,按照目前他們在中國互聯網的流行程度,我們可以大體估計同時使用這三種應用的用戶個體占互聯網總用戶數的比率,保守估計,達到50%不成問題。因此,這三方數據一旦實現共享,將能拼湊出一幅完整的網絡信息圖譜。反之,“數據割據”造成大數據斷層和片面性,使其利用價值大打折扣。
CMIC認為,在大數據洪流洶涌襲來的當下,信息的流動才是重中之重,互聯網巨頭們的數據割據思維嚴重阻礙著整個產業的發展。尤其對于那些擁有大數據分析技術卻無大數據源的中下游企業來說,面臨“巧婦難為無米之炊”的窘境。
責任編輯:小沈
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市