大云網(wǎng) 大數(shù)據(jù)大數(shù)據(jù)產(chǎn)業(yè)園正文

周濤：一小時(shí)掌握大數(shù)據(jù)思維的秘訣

2018-12-17 16:20:23 數(shù)之聯(lián)大數(shù)據(jù)　點(diǎn)擊量：評(píng)論 (0)

一個(gè)人有沒有大數(shù)據(jù) 思維主要體現(xiàn)在兩個(gè)方面：第一他是不是具有定量化的思維方式;第二個(gè)需要我們在某種程度上相信機(jī)器、相信數(shù)據(jù)勝過相信自己，這往往是很難接受的。

什么是大數(shù)據(jù)思維和大數(shù)據(jù)創(chuàng)新的精髓？

一個(gè)人有沒有大數(shù)據(jù)思維主要體現(xiàn)在兩個(gè)方面：第一他是不是具有定量化的思維方式：

就是我們現(xiàn)在看很多問題習(xí)慣從經(jīng)驗(yàn)、定性地角度看問題，不習(xí)慣所有的決策都用定量化的方式來進(jìn)行描述。例如我們經(jīng)常說一個(gè)人漂亮，說一個(gè)人好，但是我們不習(xí)慣用一套圖像識(shí)別的算法來真正計(jì)算這個(gè)人漂亮到什么程度，好到什么程度。

什么是定量化？

一個(gè)簡單的例子，比如一個(gè)新的廣告營銷，新的算法比舊的算法好，不是說大概好在哪三個(gè)方面，而是我們要把所有的人群無偏地劃成兩個(gè)部分。第一部分用就算發(fā)，第二部分用新算法來進(jìn)行推送，最終發(fā)現(xiàn)新算法帶來的點(diǎn)擊率、銷售好于舊算法，我們才能說新的算法確實(shí)比舊算法好。這是一種典型的定量化思考方式。

第二個(gè)點(diǎn)是大數(shù)據(jù)思維需要我們在某種程度上相信機(jī)器、相信數(shù)據(jù)勝過相信自己，這往往是很難接受的。

因?yàn)槿俗呦律駢埃瑫?huì)覺得自己的智力是凌駕于計(jì)算機(jī)之上的，他也覺得一個(gè)算法如果做得好，我們是應(yīng)該是完全理解他的。其實(shí)，機(jī)器學(xué)習(xí)、人工智能它吃進(jìn)去的是大量的數(shù)據(jù)，吐出來的是結(jié)果，在這些數(shù)據(jù)和結(jié)果之間的連接并不是我們想象的完全能夠被人理解的，因?yàn)樗赡苁怯脦装偃f甚至幾億的特征來得到更好的分類，更好的預(yù)測，它處理和思考問題的方式和人不一樣，人是能夠更快、更好的把握幾個(gè)重要的特征，但是精確度卻遠(yuǎn)不如計(jì)算機(jī)。很多時(shí)候我們覺得但凡是不可理解的就是不可相信的，這種觀點(diǎn)一定要拋棄。

所以，如果你能夠?qū)W會(huì)用定量化的去處理我們的世界，去評(píng)判所有政策的好壞，又能敢于放棄一點(diǎn)點(diǎn)的尊嚴(yán)去相信計(jì)算機(jī)的結(jié)果，這是初步具備了走進(jìn)大數(shù)據(jù)時(shí)代的思維的基礎(chǔ)。數(shù)據(jù)化時(shí)代帶給我們哪些顛覆性的變化？

數(shù)據(jù)時(shí)代往后走，它的目標(biāo)是要把我們帶入某種智能時(shí)代。

大數(shù)據(jù)時(shí)代的核心精髓有兩個(gè)組成部分：

一個(gè)是數(shù)據(jù)的外部化，

就是說，我們進(jìn)到了數(shù)據(jù)時(shí)代，一組數(shù)據(jù)不僅僅產(chǎn)生它的地方被人用過，而是在很多地方被使用，這叫數(shù)據(jù)的外部化。因?yàn)樗牧魍截悗缀醪挥眯碌拇鷥r(jià)

第二個(gè)就是人工智能，

通過人工智能得到一些簡單統(tǒng)計(jì)得不到的深刻洞見，這才是大數(shù)據(jù)，不然就是商務(wù)智能在更多數(shù)據(jù)集上的應(yīng)用。

數(shù)據(jù)時(shí)代是智能時(shí)代的引領(lǐng)，數(shù)據(jù)時(shí)代給我們帶來更多的決策支撐，通過這些深刻洞見使我們的決策更準(zhǔn)確、更高效。但是，未來顛覆性的變化，就是在整個(gè)的決策環(huán)境中，原材料就是數(shù)據(jù)，而大腦就是計(jì)算機(jī)，人類要被踢出這個(gè)決策環(huán)境，這是顛覆性的變化。在這個(gè)時(shí)候，我們整個(gè)社會(huì)的經(jīng)濟(jì)乃至整個(gè)勞動(dòng)力結(jié)構(gòu)都會(huì)發(fā)生絕大的變化變化，很多人可能會(huì)面臨未來不適應(yīng)這種變化，也沒有辦法發(fā)揮他的社會(huì)價(jià)值，留下來的勞動(dòng)力幾乎只有幾類，一類是從事創(chuàng)造型的勞動(dòng)，通過密集的智力勞動(dòng)創(chuàng)造新的科技知識(shí)，創(chuàng)造新的意識(shí)作品等等。第二類是情感類的勞動(dòng)，通過接觸使得能遠(yuǎn)離恐懼、痛苦，感到安穩(wěn)，感到幸福快樂。其它的勞動(dòng)很多都會(huì)被替代掉。

如何接觸大數(shù)據(jù)創(chuàng)新產(chǎn)品？大數(shù)據(jù)創(chuàng)新產(chǎn)品長什么樣子？怎么判斷？

大數(shù)據(jù)創(chuàng)新和偽大數(shù)據(jù)創(chuàng)新的區(qū)別：第一就是有沒有原始的大規(guī)模數(shù)據(jù)源，第二有沒有好的分析方法。

不管是算法，還是新建的特定的科學(xué)模型，得到原來得不到的深刻的洞見，這兩者加到一起就能判斷有沒有大數(shù)據(jù)創(chuàng)新。

如何看待隱私及倫理？隱私和倫理是兩個(gè)不同的問題，前者要簡單一下，后者要復(fù)雜一些。

首先，從個(gè)人來講，沒有義務(wù)也沒有能力去保護(hù)自己的隱私。就像面對(duì)假酒，我們消費(fèi)者是沒有去分辨什么是甲醇什么事乙醇，但是判刑是判的做假酒的人。

沒有能力是指現(xiàn)代的互聯(lián)網(wǎng)科技水平非常高，我們鍵盤敲擊的記錄主機(jī)上都能記錄下來，所以除非自絕于這個(gè)社會(huì)，不然是不可能真正保護(hù)自己的隱私，因?yàn)槟阕咴诼飞希€有天網(wǎng)照著你呢，你去看病、買房、買車都會(huì)留下記錄，銀行取錢也要留下記錄。從這個(gè)角度講，很難耶沒有能力去保護(hù)自己的隱私。

反過來講，我們要通過從企業(yè)端進(jìn)行嚴(yán)厲懲處，能夠去清潔市場環(huán)境或者生態(tài)環(huán)境。一個(gè)企業(yè)如果非法獲取個(gè)人數(shù)據(jù)及隱私并且還用它做了嚴(yán)重傷害人的事情，那我們一定要予以重處。在這種情況，一方面要靠立法，但又不能光靠立法，因?yàn)榱⒎ㄒ獙?shí)施要通過技術(shù)而不是一紙空文。我們既要通過技術(shù)去鎖定核心隱私數(shù)據(jù)在全管理流程中到底是什么人、用什么權(quán)限、在什么時(shí)間點(diǎn)、從哪個(gè)設(shè)備上下載操作數(shù)據(jù)，我們一定要打上水印，能夠追蹤。一旦隱私泄露能追蹤到這個(gè)人。

第二我們要給能處理隱私數(shù)據(jù)的企業(yè)要有個(gè)資質(zhì)

隱私還是要從企業(yè)端來抓，不能從個(gè)體能力，教個(gè)人保護(hù)隱私，價(jià)值往往比較小。

倫理的問題是說，未來我們對(duì)人工智能越來越依賴，會(huì)發(fā)生我們想象不到的，對(duì)我們當(dāng)前社會(huì)蒹葭及機(jī)制的影響。

第一個(gè)點(diǎn)是通過數(shù)據(jù)和算法，機(jī)器預(yù)測你將以很大概率犯罪，從而在你還沒有實(shí)施犯罪行為時(shí)，你就已經(jīng)實(shí)質(zhì)上受到了懲罰。比如說通過一些面部掃描、名字的分析、旅行軌跡的分析，

都會(huì)判定是不是恐怖分子，因?yàn)檫@些原因每次在機(jī)場都會(huì)被勒留很長時(shí)間，本質(zhì)上收到了一些不公正的待遇，但是這件事總體來說降低了恐怖主義可能帶來的巨大風(fēng)險(xiǎn)，這個(gè)事兒應(yīng)不應(yīng)該做，能不能這樣做都是問題。

第二是算法本身的設(shè)計(jì)者在設(shè)計(jì)算法時(shí)會(huì)有不公平。設(shè)計(jì)者本人會(huì)把他潛在的種族歧視、性別歧視等等放在算法里面，故意或者不故意，我們很難去甄別，因?yàn)榇a很長。

第三個(gè)是算法本身的原因。比如說，美國現(xiàn)在步態(tài)和人臉識(shí)別對(duì)于有色人種的識(shí)別精確度要高于白種人，那就意味著有色人種犯罪或者其他違法行為被機(jī)器抓住的可能性可能要更大一下。

第四個(gè)問題，當(dāng)因?yàn)樗惴ǘa(chǎn)生了重大事故到底誰來承擔(dān)這個(gè)責(zé)任，比如說自動(dòng)駕駛，當(dāng)然還有更多的問題，不是人產(chǎn)生的這個(gè)結(jié)果，而是機(jī)器智能產(chǎn)生的這個(gè)結(jié)果，那是應(yīng)該由寫人工智能算法的人來負(fù)責(zé)還是由設(shè)計(jì)這個(gè)體系的，還是應(yīng)該沒有人負(fù)責(zé)，公共社會(huì)承擔(dān)這個(gè)責(zé)任。

這些問題都是現(xiàn)在還沒有切身體會(huì)，但是未來可能會(huì)涉及。當(dāng)我們的醫(yī)生診療、法院的判決、甚至是自動(dòng)無人駕駛的汽車都變成常態(tài)的時(shí)候，這些都會(huì)變成非常大的問題。

怎樣培養(yǎng)大數(shù)據(jù)思維的能力？

關(guān)鍵有兩類東西：一類是統(tǒng)計(jì)學(xué)，建立統(tǒng)計(jì)學(xué)的理念，第二是機(jī)器學(xué)習(xí)，要有機(jī)器學(xué)習(xí)的思維方式……

責(zé)任編輯：滄海一笑

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

我要收藏

個(gè)贊