政府開放共享大數據 才能關聯聚合產生更大價值
中科院院士、數學家徐宗本演講。 南都記者 馬強 攝
“大家以為數學家都像陳景潤一樣,邊走路邊思考數學問題,然后撞電線桿上了,其實不是。”2月8日下午,中國科學院院士、數學家徐宗本出席南都報系2017年總結表彰會暨南都大數據研究院揭牌儀式,現場分享了題為《再論大數據》的主題演講。
“畫面中看似混雜無序的小碎片,經過成倍數據的疊加,最后形成一張大象的圖像。當數據達到量變和質變的臨界點時,人們可以清晰看到數據背后的故事,這就是大數據。而數據如果不相關聯和分析,就無法創造更大的價值,好比有人只看到大象的鼻子,有人只琢磨大象的尾巴,但是怎么也看不到大象的整體。”圍繞大數據原理,與其它信息技術的關系及盈利模式等問題,徐宗本借形象比喻與案例,將原本深奧的內容生動化。在他看來,目前國內大數據產業鏈條存在缺乏健壯性、完整性的問題。在國家大數據戰略推動下,各地建立數據中心的積極性非常高。但在大數據產業價值鏈上,存儲只是一部分,如果缺乏分析挖掘能力,并形成數據產品,就好比只買米不做飯。
徐宗本總結,做大數據首先要明確目標,“數據是基礎,平臺是支撐,分析是核心,賺錢是王道。于大數據產業而言,數據就是基本的生產資料,而平臺為收集存儲數據提供支撐,最為核心的是分析,通過對數據的具體加工解決實際問題,進而變現創造價值。”
◎談大數據產業
國內大數據產業處在初步階段 紅利未得到充分釋放
南都:人們常有一個疑惑,多少數量級的數據才能被定義為“大數據”?
徐宗本:大數據需要有很大空間才能存儲,如果這樣理解大數據,就是比較低級的認識。首先,我們需要認清幾個概念。資料是指記錄日常生活、經營、管理、生產過程的載體,比如一張報告,一份視頻等。如果這些資料放在計算機上,那就是數據。數據是資料的數字化,以編碼形成存在的信息載體。大數據則是大而復雜的數據,具有海量性、時變性、異構性、分布性的特征。數據從量變到質變會產生一個臨界點,嚴格上超過這個臨界點才達到“大”的含義,所以大數據是個相對概念,與特定的決策問題相關聯。
南都:在你看來,目前國內大數據產業發展處于什么階段?
徐宗本:與國外相比,我認為基本處于同一水平。現在大數據上升為國家戰略,政府在積極推動,這是一個制度優勢。同時,我們還有一個天然優勢,就是人多市場大,數據資源豐富,而且目前國內互聯網發展也走在前頭。但總體而言,大數據產業還處在初步階段。產業鏈條缺乏健壯性和完整性,未支持形成穩定的價值鏈。數據開放共享發展也較為落后,大數據的紅利未得到充分釋放。此外,地方政府還只滿足于規劃和戰略層面,尚未具體落實。更重要的是對需求的認知模糊。企業的大數據盈利模式并不清晰,核心技術也有待突破。最后一些政策法規跟進不及時,數據壟斷、數據安全事件多發。對于大數據產業,人們在觀望,也存在盲目性。
◎談大數據價值
數據只存儲不分析變不了現 創造價值關鍵在于模式
南都:為什么大數據能產生價值?
徐宗本:我認為與四個大數據原理有關。首先是量變質變原理,積累的數據量足夠充分后,可以解決具體問題。第二個是關聯聚合原理,比如研究大象,如果一個人只盯著大象的鼻子、尾巴,你觀察20年,積累再多數據,也不能反映原來的面貌。數據只有聚合才能產生價值,共享則能放大價值。另外還有“分析出價值”原理,目前各地建立了太多數據中心,甚至出現產能過剩的問題。如果數據只存儲不加以分析,則變不了現。最后,數據本身擁有的可復制、可重用、可加工的特點,使得數據的價值能夠隨著擴散的范圍而增大。這就是效用倍增原理。
南都:你曾提到大數據如果只存儲不分析,就好比只買米不做飯,是這樣嗎?
徐宗本:是的。大數據產業的本質在于分析數據。很多人不知道,這個比喻其實出自南方報業記者一篇報道。當時,我在廣東參加一場活動,分享關于大數據的一些看法,記者用這個比喻做標題,解讀得非常準確。這也是為什么你們一邀請我來參加活動,我就來了。因為我相信你們的水平。
南都:大數據的盈利模式有哪些?
徐宗本:很多人很關心大數據怎么賺錢。大數據產業鏈上,包括數據資源獲取與管理;數據傳輸、存儲和處理;數據分析、挖掘與理解;結合領域的大數據應用。基于價值鏈條的不同,可分為全鏈條模式和節點聚焦模式兩種。前者關注聚焦全部環節,后者是做精中間產品,專注于某一環。第三種模式是垂直行業的合作共建模式,行業公司和技術公司合資成立公司,這樣既可以保護數據源,又能增強服務。第四種模式是產研共生,一個公司和一個研究院合作,可保證產品質量的可持續性。最后是推動產業的平臺模式,這種更適用于政府,由政府搭建平臺提供公共服務,企業在其中孵化產品。其實大數據可以做很多事情,關鍵在于模式要對。
◎談大數據應用
大數據帶來思維的改變 利用不同數據能提高效率服務
南都:現在人工智能、物聯網等技術發展迅速,人工智能的核心是大數據的分析,物聯網的發展也離不開大數據。如何看待大數據的應用問題?
徐宗本:現在大數據的實際應用案例已經不少,比如對醫療數據的應用,通過對大量的影像和病例數據分析,進而作出醫療診斷,有些技術水平已經達到能與醫生相匹敵的程度。當然,目前大數據的應用水平仍處于低位水平,數據開放共享進展滯后,大數據的活力還未得到充分釋放。現在80%的數據掌握在政府手中,很多人在呼吁政府開放共享數據,這樣才能讓數據產生關聯聚合產生更大的價值。
南都:在大數據應用過程中,一些企業有時并不知道自身需要什么樣的數據,并且拿到數據后,也可能不清楚這個數據可實現多大價值。這是為什么?
徐宗本:我覺得是缺乏大數據思維的原因。在我看來,大數據帶來的是思維的改變,能夠為我們提供社會科學方法論。現在企業做商業分析更多的還是基于業內數據分析。舉個例子,比如我開了一家火鍋店,目的是提高營業額。大數據怎么來幫忙呢?如果只是分析一天有多少顧客量,點了什么菜,消費額多少,這并不足為奇。需要注意的是,人們吃火鍋跟天氣、地域、小區周圍有關。如果你收集和分析了天氣數據、人口分布數據等,你就可以知道天馬上冷了,人們想吃火鍋了,哪里的人最喜歡吃麻辣火鍋,店鋪周圍的小區住戶是什么人,這樣利用不同數據能夠提高我們的效率和服務。
◎談數據安全
必須采用技術手段保護用戶隱私
南都:數據流通才能創造價值。但數據流通過程中,可能涉及個人隱私和數據安全的問題?
徐宗本:掌握大數據的政府部門、企業都負有不可推卸的責任,那就是必須采用技術手段,保護用戶的隱私。比如將數據抽象化,進行脫敏和匿名化處理,同時還要承諾不能泄露和非法買賣數據。
可以看到,現在公眾對于個人隱私尤為關注。但另一方面,數據不流通不使用就無法創造價值,不要認為我所有的數據都不能讓別人知道。舉個例子,你的病例信息,誰來看比較好?如果大家都不提供病例信息,醫生就無法通過大量醫療數據,發現疾病規律和作出預測。而且,在數據分析過程中,醫生并不需要知道甲乙丙丁具體是誰。另外,還涉及到承諾和默契的問題。比如遇上婦產科醫生是男的,產婦讓不讓他接生?所以,我認為企業應該主動擔起保護責任,通過用戶協議、隱私政策等方式,告訴用戶是怎么收集和使用數據的,作出相應的承諾。
南都:當被掌握的信息越來越多,一個直觀的感受是針對你的營銷越來越精準。如果有一天機器比你更了解你自己,這是一件值得擔心的事嗎?
徐宗本:互聯網或大數據來了以后,改變最大的是客戶關系,客戶在生產地位不一樣,過去用戶是上帝,現在叫做生產資料的一部分。隨著數據的積累,機器對你的行為習慣、購買力、價值觀愛好等,作出的預測當然會越來越精準,但不可能做到百分百。因為一旦意識到某個問題,人可以突然改變主意,就讓你預測不出來。人和機器的不同在于,人可以產生意識、情感和頓悟。我認為不用擔心,機器代替不了人。
責任編輯:馬麗芳