數據分析與挖掘VS數據整理
談到數據分析與挖掘,很多人都會提到啤酒與尿布的經典案例,盡管這個案例可以說已經非常陳舊了,你怎么看待這一點? 劉德寰:一個尿布與啤酒,還有一個現代汽車,是數據分析領域的兩個非常經典
談到數據分析與挖掘,很多人都會提到啤酒與尿布的經典案例,盡管這個案例可以說已經非常陳舊了,你怎么看待這一點?
劉德寰:一個尿布與啤酒,還有一個現代汽車,是數據分析領域的兩個非常經典案例。但是這兩個案例都發生在20年前,數據挖掘已經談了五十年,但卻再沒有第三個、第四個經典案例出現。這是因為現有的數據挖掘技術不能給商業決策者帶來真正的洞察。其實,這更應該叫做數據整理。數據整理是什么?就如瞎子摸象,數據整理并沒有摸清楚事物背后真正的規律,只是基于局部數據、某種行為監測整理出來的一個模型,這個模型甚至不能回答這個人想干什么,喜歡什么,這個人是怎樣的人這些問題。
所以,要做數據分析與挖掘,首先就要把規律弄明白,把分析方法弄明白。
CIOI:大數據時代的數據挖掘應該怎么做,才能得出隱藏在無數假規律后面的真實結論?
劉德寰:上面已經提到,現在所說的大數據主要指的是互聯網領域的大數據。互聯網用戶的基本特征、消費行為、上網行為、渠道偏好、行為喜好、生活軌跡與位置等,都反映用戶的基本行為規律。體系完整是所有分析性工作的第一步,完整的框架甚至勝過高深的模型。
歷程——族群——規律——驗證,這是我認為比較好的數據分析與挖掘的框架。先要走歷程,看整個事態發展的歷程,找尋這個歷程當中各個族群的規律,然后把這種規律,用抽樣的方式找完之后,放置到大數據當中去不斷地重新彌合。亞馬遜從開始到現在一直是這樣的思路,這也是亞馬遜的廣告推薦能夠做到精準的原因,原因就在于其不是就大數據談大數據,而是就人來談大數據。
這也是數據挖掘的基本邏輯。數據挖掘的商業本質、結論,一定要極其簡單,但是挖掘的過程一定要復雜復雜再復雜。如果反過來,數據挖掘過程很簡單,一抓取,一排列,得出的結論五花八門,這是大數據時代面臨的巨大風險。
CIOI:要做好數據挖掘,還需要關注哪些呢?
劉德寰:舉個例子說明。有一個女性,突然一改以往的習慣,開始購買無香型乳液,同時購買某種維他命,微量元素中的鋅和鎂。這三種行為改變結合在一起說明,這個女性懷孕了。在這個過程中,我們有最基本的人的行為跟蹤以及最基本的社會公共衛生知識的了解,這時候商家開始對其進行分析和營銷,計算她的預產期,然后推薦各種嬰兒產品廣告。但是,商家一定要明白,如果這個人知道商家知道她懷孕了,她可能會非常的焦慮,因為她很可能不想被人發現她懷孕了。這時候,如果商家將嬰兒床的廣告放在稻草機的廣告邊上,然后一起給她,她的焦慮就會大幅降低。
這樣才能真正做好數據挖掘。首先,生活變,行為才會變,要將關注點放在變化上。另外,非常重要的一點是,要關注人性,了解人性,要充分表現出對人的關懷。
CIOI:這也就是你一直說純IT人員無法做好數據挖掘的原因吧?
劉德寰:對,要做好數據挖掘,必須要有市場研究人員、IT人員以及營銷人員通力合作。數據建模首先要理解消費者,然后才能建立符合中國人的數據模型,要做到這些IT人員需要市場研究人員及營銷人員的幫助。
CIOI:對于CIO們真正認識大數據,你有什么建議?
劉德寰:現實互聯網領域被幾本關于大數據的書籍所累,觀念十分混亂,實際上,人類積累的數據經驗是一切分析的基礎,包括所謂的海量數據,這幾本書的方法論橫空出世,同時又沒有落地,沒有實際操作經驗積累,誤導性太強。要在認識的過程中,多向自己和他人提出問題,在思想碰撞與交流中促進思索,實現更深層次的認知。
劉德寰:一個尿布與啤酒,還有一個現代汽車,是數據分析領域的兩個非常經典案例。但是這兩個案例都發生在20年前,數據挖掘已經談了五十年,但卻再沒有第三個、第四個經典案例出現。這是因為現有的數據挖掘技術不能給商業決策者帶來真正的洞察。其實,這更應該叫做數據整理。數據整理是什么?就如瞎子摸象,數據整理并沒有摸清楚事物背后真正的規律,只是基于局部數據、某種行為監測整理出來的一個模型,這個模型甚至不能回答這個人想干什么,喜歡什么,這個人是怎樣的人這些問題。
所以,要做數據分析與挖掘,首先就要把規律弄明白,把分析方法弄明白。
CIOI:大數據時代的數據挖掘應該怎么做,才能得出隱藏在無數假規律后面的真實結論?
劉德寰:上面已經提到,現在所說的大數據主要指的是互聯網領域的大數據。互聯網用戶的基本特征、消費行為、上網行為、渠道偏好、行為喜好、生活軌跡與位置等,都反映用戶的基本行為規律。體系完整是所有分析性工作的第一步,完整的框架甚至勝過高深的模型。
歷程——族群——規律——驗證,這是我認為比較好的數據分析與挖掘的框架。先要走歷程,看整個事態發展的歷程,找尋這個歷程當中各個族群的規律,然后把這種規律,用抽樣的方式找完之后,放置到大數據當中去不斷地重新彌合。亞馬遜從開始到現在一直是這樣的思路,這也是亞馬遜的廣告推薦能夠做到精準的原因,原因就在于其不是就大數據談大數據,而是就人來談大數據。
這也是數據挖掘的基本邏輯。數據挖掘的商業本質、結論,一定要極其簡單,但是挖掘的過程一定要復雜復雜再復雜。如果反過來,數據挖掘過程很簡單,一抓取,一排列,得出的結論五花八門,這是大數據時代面臨的巨大風險。
CIOI:要做好數據挖掘,還需要關注哪些呢?
劉德寰:舉個例子說明。有一個女性,突然一改以往的習慣,開始購買無香型乳液,同時購買某種維他命,微量元素中的鋅和鎂。這三種行為改變結合在一起說明,這個女性懷孕了。在這個過程中,我們有最基本的人的行為跟蹤以及最基本的社會公共衛生知識的了解,這時候商家開始對其進行分析和營銷,計算她的預產期,然后推薦各種嬰兒產品廣告。但是,商家一定要明白,如果這個人知道商家知道她懷孕了,她可能會非常的焦慮,因為她很可能不想被人發現她懷孕了。這時候,如果商家將嬰兒床的廣告放在稻草機的廣告邊上,然后一起給她,她的焦慮就會大幅降低。
這樣才能真正做好數據挖掘。首先,生活變,行為才會變,要將關注點放在變化上。另外,非常重要的一點是,要關注人性,了解人性,要充分表現出對人的關懷。
CIOI:這也就是你一直說純IT人員無法做好數據挖掘的原因吧?
劉德寰:對,要做好數據挖掘,必須要有市場研究人員、IT人員以及營銷人員通力合作。數據建模首先要理解消費者,然后才能建立符合中國人的數據模型,要做到這些IT人員需要市場研究人員及營銷人員的幫助。
CIOI:對于CIO們真正認識大數據,你有什么建議?
劉德寰:現實互聯網領域被幾本關于大數據的書籍所累,觀念十分混亂,實際上,人類積累的數據經驗是一切分析的基礎,包括所謂的海量數據,這幾本書的方法論橫空出世,同時又沒有落地,沒有實際操作經驗積累,誤導性太強。要在認識的過程中,多向自己和他人提出問題,在思想碰撞與交流中促進思索,實現更深層次的認知。

責任編輯:廖生玨
免責聲明:本文僅代表作者個人觀點,與本站無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
我要收藏
個贊
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市