大數據,沒有看起來那么美
大數據現在非常熱,美國白宮任命的委員會近日發布大數據政府報告,而中國央視在兩會中有大數據的專題,網絡中的大數據分析報告也比比皆是,從百度遷徙看東莞挺住,到馬年春晚的大數據分析。大數據正在從一種理論
大數據現在非常熱,美國白宮任命的委員會近日發布大數據政府報告,而中國央視在兩會中有大數據的專題,網絡中的大數據分析報告也比比皆是,從百度遷徙看“東莞挺住”,到馬年春晚的大數據分析。大數據正在從一種理論思考,演變成跨越社會各領域的實踐行為。
但大數據真的這么美嗎?如何讓數據說真話?當一切美好的討論需向現實兌現,大數據背后的 ,將成新的困惑。大數據目前存在五個大問題。
數據真實性。官員要政績、學界要交差、商界要名利。注水性數據導致硬數據軟化。基尼系數、博主粉絲量、復興指數,為何一直在被質疑?凡數據造假能獲利,則數據極可能有假。越來越多的軟件自動發布信息,使得大數據也是真假難辨。數據背后的細節,數據源的真實、全面以及處理過程的科學,是大數據走向權威和可信的重要保障。
樣本代表性。我們不可能搜集到全數據,而與大數據相關的形容詞往往是大規模、精準、細化,在調用如此“完美”的數據時,如何注意情景和樣本的適用性。正如網絡民意與現實民意的討論,微博不代表網絡,網絡不代表社會,朋友圈也是小圈子,跳出圈子看世界不容易,切勿陷入相同的悖論。在選樣、測量、誤差校正不盡如人意時,好數據將劣化,大數據將虛化。
相關性誤差。利用大數據,基于一定算法和模型對變量元素進行相關性分析,在要素構成簡單的情景中可以,在復雜系統中,僅有相關性解釋還不夠,易走偏。比如一個明顯不對的結論:一個城市的網頁數越高,其網絡形象就越好。雖然,數據統計證實了網頁數和網絡形象存在一般的正相關,但忽略了負面事件帶來的網頁量爆發等,結論也是不科學的。相關性要真正體現在數據之間、數據與真實事件影射的現象之間、真實事件的客觀聯系上。
故事化。大數據的概念沖擊、視覺盛宴,看上去不錯,但要警惕割裂傳統信息管理系統和大數據的關系,營造一個概念化、全新的東西。比如開發商大肆搞房地產,大數據要建數據中心,圈地成必然,又如做科研項目,思路和和內容要新穎,不少人拉大旗借用大數據。大數據只有與實際接軌,工具化、服務化和實用化,能解決具體問題的大數據,才能打破泡沫,見證數據真正之美。
隱私侵犯。大數據中包含每個人的小數據,這些數據經過進一步分析既能知道你的愛好,也能知道你的下意識行為傾向,如果據些來判斷一個人的未來,是否會重演大片“少數派報告”的場景,我們現在還不得而知。
當然,新事物多要經歷陣痛、廣受褒貶,才能逐漸練就為成熟的應用。大數據之路,要加強對真假數據的清洗,有好的矯正鑒別模型;商業中的大數據挖掘,應推動資金互開放模式;政府可推動數據開放平臺的接口,建立更好的溝通渠道,加大數據造假的懲治力度。樣本代表性問題,如果無法做到全數據,應盡量考慮大數據分析的適用范圍和結論邊界。大數據分析也要有直觀體驗,明顯與實際不符的結論最好有多個來源證實,多實地視察,加強生活中人性化溝通、交流,通過人際體驗獲得第一手材料。對涉及個人隱私的數據,需要加快立法,予以規范,避免為技術所異化。
但大數據真的這么美嗎?如何讓數據說真話?當一切美好的討論需向現實兌現,大數據背后的 ,將成新的困惑。大數據目前存在五個大問題。
數據真實性。官員要政績、學界要交差、商界要名利。注水性數據導致硬數據軟化。基尼系數、博主粉絲量、復興指數,為何一直在被質疑?凡數據造假能獲利,則數據極可能有假。越來越多的軟件自動發布信息,使得大數據也是真假難辨。數據背后的細節,數據源的真實、全面以及處理過程的科學,是大數據走向權威和可信的重要保障。
樣本代表性。我們不可能搜集到全數據,而與大數據相關的形容詞往往是大規模、精準、細化,在調用如此“完美”的數據時,如何注意情景和樣本的適用性。正如網絡民意與現實民意的討論,微博不代表網絡,網絡不代表社會,朋友圈也是小圈子,跳出圈子看世界不容易,切勿陷入相同的悖論。在選樣、測量、誤差校正不盡如人意時,好數據將劣化,大數據將虛化。
相關性誤差。利用大數據,基于一定算法和模型對變量元素進行相關性分析,在要素構成簡單的情景中可以,在復雜系統中,僅有相關性解釋還不夠,易走偏。比如一個明顯不對的結論:一個城市的網頁數越高,其網絡形象就越好。雖然,數據統計證實了網頁數和網絡形象存在一般的正相關,但忽略了負面事件帶來的網頁量爆發等,結論也是不科學的。相關性要真正體現在數據之間、數據與真實事件影射的現象之間、真實事件的客觀聯系上。
故事化。大數據的概念沖擊、視覺盛宴,看上去不錯,但要警惕割裂傳統信息管理系統和大數據的關系,營造一個概念化、全新的東西。比如開發商大肆搞房地產,大數據要建數據中心,圈地成必然,又如做科研項目,思路和和內容要新穎,不少人拉大旗借用大數據。大數據只有與實際接軌,工具化、服務化和實用化,能解決具體問題的大數據,才能打破泡沫,見證數據真正之美。
隱私侵犯。大數據中包含每個人的小數據,這些數據經過進一步分析既能知道你的愛好,也能知道你的下意識行為傾向,如果據些來判斷一個人的未來,是否會重演大片“少數派報告”的場景,我們現在還不得而知。
當然,新事物多要經歷陣痛、廣受褒貶,才能逐漸練就為成熟的應用。大數據之路,要加強對真假數據的清洗,有好的矯正鑒別模型;商業中的大數據挖掘,應推動資金互開放模式;政府可推動數據開放平臺的接口,建立更好的溝通渠道,加大數據造假的懲治力度。樣本代表性問題,如果無法做到全數據,應盡量考慮大數據分析的適用范圍和結論邊界。大數據分析也要有直觀體驗,明顯與實際不符的結論最好有多個來源證實,多實地視察,加強生活中人性化溝通、交流,通過人際體驗獲得第一手材料。對涉及個人隱私的數據,需要加快立法,予以規范,避免為技術所異化。
責任編輯:葉雨田
免責聲明:本文僅代表作者個人觀點,與本站無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
我要收藏
個贊
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市