www涩-www黄网站-www黄色-www黄色com-国产免费拍拍视频在线观看网站-国产免费怕怕免费视频观看

深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)

2014-10-08 13:24:38 大云網(wǎng)  點(diǎn)擊量: 評(píng)論 (0)
大家晚上好,我是吳甘沙,來自英特爾中國(guó)研究院。其實(shí)今年在大數(shù)據(jù)的技術(shù)研發(fā)上花的時(shí)間不多,華平硬要我來分享一下,所以認(rèn)識(shí)上有過時(shí)或不確切之處,還請(qǐng)?jiān)?。因?yàn)楣ぷ鞣泵?,就偷了個(gè)懶,我今天分享的內(nèi)容主要
大家晚上好,我是吳甘沙,來自英特爾中國(guó)研究院。其實(shí)今年在大數(shù)據(jù)的技術(shù)研發(fā)上花的時(shí)間不多,華平硬要我來分享一下,所以認(rèn)識(shí)上有過時(shí)或不確切之處,還請(qǐng)?jiān)?。因?yàn)楣ぷ鞣泵?,就偷了個(gè)懶,我今天分享的內(nèi)容主要是我昨天在大數(shù)據(jù)國(guó)際峰會(huì)上的講話(基本上是從速記中拷過來的),關(guān)于大數(shù)據(jù)的開放式創(chuàng)新,其它大家感興趣的內(nèi)容可以在交互中討論。

深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)
▲吳甘沙

  我做了4-5年的移動(dòng)架構(gòu)和Java虛擬機(jī),4-5年的眾核架構(gòu)和并行編程系統(tǒng),最近4-5年在追時(shí)髦,先是搞物聯(lián)網(wǎng),最近幾年一直在做大數(shù)據(jù)。我們大數(shù)據(jù)的研究軌跡如下圖所示:前面2-3年主要是關(guān)注數(shù)據(jù)和機(jī)器的關(guān)系,水平擴(kuò)展、容錯(cuò)、一致性、軟硬件協(xié)同設(shè)計(jì),還有就是厘清各種計(jì)算模式,從批處理(MapReduce)到流處理、Big SQL/ad hoc query、圖計(jì)算和機(jī)器學(xué)習(xí)。事實(shí)上我的團(tuán)隊(duì)只是英特爾大數(shù)據(jù)研發(fā)力量的一部分,上海的團(tuán)隊(duì)是英特爾Hadoop發(fā)行版的主力軍,因?yàn)橛⑻貭柍闪薈loudera的最大股東,自己不做發(fā)行版了,但是平臺(tái)優(yōu)化、開源支持和垂直領(lǐng)域的解決方案仍然是英特爾大數(shù)據(jù)研發(fā)的重心

  2013年開始看數(shù)據(jù)與人的關(guān)系,對(duì)于數(shù)據(jù)科學(xué)家怎么做好分布式機(jī)器學(xué)習(xí)、特征工程與非監(jiān)督學(xué)習(xí),對(duì)于領(lǐng)域?qū)<襾碚f怎么做好交互式分析工具,對(duì)于終端用戶怎么做好交互式可視化工具。英特爾研究院在美國(guó)CMU支持的科研中心做了GraphLab、Stale Synchronous Parallelism,在MIT的科研中心做了交互式可視化(真正做這個(gè)工作的教授在UW)和SciDB上的大數(shù)據(jù)分析,我們中國(guó)周邊主要做了Spark SQL和MLlib(機(jī)器學(xué)習(xí)庫(kù))。現(xiàn)在也有涉及深度學(xué)習(xí)算法和基礎(chǔ)設(shè)施。

  2014年開始看數(shù)據(jù)和數(shù)據(jù)的關(guān)系。

深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)

  為什么要琢磨數(shù)據(jù)和數(shù)據(jù)的關(guān)系呢?我們?cè)瓉淼墓ぷ髦匦氖情_源,后來發(fā)現(xiàn)開源只是開放式創(chuàng)新的一個(gè)部分,做大數(shù)據(jù)的開放式創(chuàng)新還要做數(shù)據(jù)的開放,大數(shù)據(jù)基礎(chǔ)設(shè)施的開放,以及價(jià)值提取能力的開放。

  這是一張非常有意思的圖,黃色部分是化石級(jí)的、還沒有聯(lián)網(wǎng)、或者沒有數(shù)字化的數(shù)據(jù),而絕大多數(shù)的數(shù)據(jù)是在這么一個(gè)海里面。只有海平面的這些數(shù)據(jù)(有的把它稱為Surface Web),才是真正大家能訪問到的數(shù)據(jù),爬蟲能爬到、搜索引擎能檢索的數(shù)據(jù),而絕大多數(shù)的數(shù)據(jù)是在暗黑之海里面(相應(yīng)地叫做Dark Web,據(jù)說占數(shù)據(jù)總量的85%以上),在一些孤島里面,在一些企業(yè)、政府里面躺在地板上睡大覺。

深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)

  數(shù)據(jù)之于數(shù)據(jù)社會(huì),就如同水之于城市或者血液之于身體。城市因?yàn)楹恿鞫Q生,也受其滋養(yǎng),血液一旦流動(dòng)停滯了,身體就有危險(xiǎn)。所以,對(duì)于號(hào)稱數(shù)據(jù)化生存的社會(huì)來說,我們一定要讓數(shù)據(jù)流動(dòng)起來,不然這個(gè)社會(huì)將會(huì)失去很多功能。

  所以,我們希望數(shù)據(jù)能夠像“金風(fēng)玉露一相逢,便產(chǎn)生化學(xué)作用”。馬化騰先生提出了一個(gè)internet+,internet可以幫助各行各業(yè),我們也杜撰了一個(gè)大數(shù)據(jù)X,大數(shù)據(jù)乘以各行各業(yè)。如下圖所示,乘法效應(yīng)之外,數(shù)據(jù)有個(gè)非常奇妙的效應(yīng)叫做外部效應(yīng)(externality),比如這個(gè)數(shù)據(jù)對(duì)我沒用但對(duì)TA很有用,所謂我之毒藥彼之蜜糖。張家的數(shù)據(jù)和趙家的數(shù)據(jù)各自都沒啥活性,一碰到一起就發(fā)生化學(xué)作用。

  在這張膠片上列出了一些數(shù)據(jù)跨行業(yè)融合的案例。比如說:

  金融數(shù)據(jù)跟電商數(shù)據(jù)碰撞在一起,就產(chǎn)生了像小微貸款那樣的互聯(lián)網(wǎng)金融;

  電信數(shù)據(jù)跟政府?dāng)?shù)據(jù)碰在一起,可以產(chǎn)生人口統(tǒng)計(jì)學(xué)方面的價(jià)值,幫助城市規(guī)劃人們居住、工作、娛樂的場(chǎng)所;

  金融數(shù)據(jù)跟醫(yī)學(xué)數(shù)據(jù)碰在一起,麥肯錫列舉了很多應(yīng)用,比如說可以發(fā)現(xiàn)騙保;

  物流數(shù)據(jù)和電商數(shù)據(jù)湊一塊,可以了解各個(gè)經(jīng)濟(jì)子領(lǐng)域的運(yùn)行情況;

  物流數(shù)據(jù)跟金融數(shù)據(jù)放在一起,就產(chǎn)生了供應(yīng)鏈金融;

  金融數(shù)據(jù)跟農(nóng)業(yè)數(shù)據(jù)也能夠發(fā)生一些化學(xué)作用,Google analytics出來的幾個(gè)人,利用美國(guó)開放氣象數(shù)據(jù),能夠在每一塊農(nóng)田上面建立微氣象模型,預(yù)測(cè)災(zāi)害,幫助農(nóng)民保險(xiǎn)和理賠。

深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)

  所以,要走數(shù)據(jù)開放之路,讓不同領(lǐng)域的數(shù)據(jù)真正流動(dòng)起來、融合起來,才能釋放大數(shù)據(jù)的價(jià)值。

  先來看狹義的數(shù)據(jù)開放(下一張slide)。數(shù)據(jù)開放的主體首先是政府和科研機(jī)構(gòu),把非涉密的政府?dāng)?shù)據(jù),以及國(guó)家拿納稅人的錢做的一些科研數(shù)據(jù)開放出來?,F(xiàn)在也有一些企業(yè)愿意開放數(shù)據(jù),像Netflix、一些電信運(yùn)營(yíng)商,來幫助他們的數(shù)據(jù)價(jià)值化,建構(gòu)生態(tài)系統(tǒng)。

  數(shù)據(jù)開放不等于信息公開。首先,數(shù)據(jù)不等于信息,信息是從數(shù)據(jù)里面提煉出來的東西。我們希望,首先要開放原始的數(shù)據(jù)(raw data)。其次,它是一種主動(dòng)和免費(fèi)的開放,我們現(xiàn)在經(jīng)常聽說要申請(qǐng)信息公開,那是被動(dòng)的開放。

  Tim Berners Lee提出了數(shù)據(jù)開放的五星標(biāo)準(zhǔn),以保證數(shù)據(jù)質(zhì)量:一星是開放授權(quán)的格式,比如說PDF;其次是結(jié)構(gòu)化,把數(shù)據(jù)從文件變成了像excel這樣的表;三星是開放格式,如CSV;四星是能夠通過URI找到每一個(gè)數(shù)據(jù)項(xiàng);五星,能夠跟其它數(shù)據(jù)鏈接,形成一個(gè)開放的數(shù)據(jù)圖譜。

深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)

  下面這張slide講數(shù)據(jù)開放的形態(tài)。現(xiàn)在主流的數(shù)據(jù)開放門戶,像data.dov或data.gov.uk,都基于開源軟件。Data.gov用WordPress做數(shù)據(jù)內(nèi)容呈現(xiàn),用CKAN做數(shù)據(jù)目錄,甚至data.gov自身也在github開源了。

  英特爾在MIT的大數(shù)據(jù)科研中心也做了一種形態(tài),叫Datahub,你看它的吉祥物很有趣,一半是大象,代表數(shù)據(jù)庫(kù)技術(shù),一般是章魚,取自github的吉祥物章魚貓。它提供更多的功能,如:

  1.   易管理性,可以容易地檢索、合并和清洗數(shù)據(jù);

  2.   像數(shù)據(jù)庫(kù)那樣的結(jié)構(gòu)化數(shù)據(jù)服務(wù);

  3.   安全方面,提供訪問控制,對(duì)數(shù)據(jù)共享進(jìn)行管理;

  4.   最后,它可以在原地(in-situ)做可視化和分析,現(xiàn)在一般要把數(shù)據(jù)從開放門戶下載下來,然后在另外一個(gè)系統(tǒng)里做可視化和分析,這個(gè)能在原地做。

  5. 深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)

  數(shù)據(jù)開放當(dāng)中會(huì)碰到很多問題(下圖),首先是數(shù)據(jù)權(quán)屬的問題,這個(gè)數(shù)據(jù)屬于誰?屬于采集人,還是屬于生產(chǎn)人,還是屬于被觀察的客體?如果發(fā)生一些特別情況的話,它的擁有權(quán)是不是會(huì)出現(xiàn)一些分割或者轉(zhuǎn)移?比如說離婚了,比如說人死了,這樣數(shù)據(jù)資產(chǎn)怎么轉(zhuǎn)移?

  另外就是敏感數(shù)據(jù)的界定,數(shù)據(jù)里面有很多敏感的部分,比如說歐洲GPS位置信息的數(shù)據(jù)是屬于敏感數(shù)據(jù),在日本又不屬于敏感數(shù)據(jù)。所以,這需要一個(gè)法律的界定。

  針對(duì)這些敏感數(shù)據(jù)要做數(shù)據(jù)的脫敏,脫敏最初級(jí)的一種做法就是去標(biāo)識(shí)化,但是去標(biāo)識(shí)化一定要去的徹底。美國(guó)做過一個(gè)研究,如果把名字、地址什么都拿掉,但你只要剩下三個(gè)信息:郵政編碼、性別、生日,只要根據(jù)這三個(gè)信息,你還是有60-90%的可能性,把人還原出來。

  當(dāng)然,你即使是去標(biāo)識(shí)去的很徹底,你還是要防止重新標(biāo)識(shí)化(re-identification),比如你可以通過多數(shù)據(jù)源來重新進(jìn)行標(biāo)識(shí)。美國(guó)在線曾經(jīng)開放了匿名的搜索信息,但是有人把這個(gè)信息跟美國(guó)的選舉人登記信息一匹配,就把人找出來了。Netflix也是一樣,他開放了匿名的評(píng)論以及打分的信息,但是有人把它跟國(guó)際電影數(shù)據(jù)庫(kù)IMDB匹配,結(jié)果把一個(gè)有同性戀傾向的人識(shí)別了出來,被告了。另外一種重新標(biāo)識(shí)的可能性是基于統(tǒng)計(jì),比如根據(jù)兩個(gè)打分再加上一定的時(shí)間范圍,還是有接近70%的可能性能夠把這個(gè)人找出來。

  防止隱私攻擊的匿名化技術(shù),比較典型的如k-anonymity和L-diversity等等,但還是有隱私攻擊的可能,特別在敏感屬性不夠多樣化,或攻擊者具有背景知識(shí)時(shí)。最好的一種技術(shù)叫差分隱私(differential privacy),把噪聲加入到數(shù)據(jù)集中、但仍保持它的一些統(tǒng)計(jì)屬性,英特爾支持普林斯頓大學(xué)做了這樣的研究,現(xiàn)在試圖在運(yùn)營(yíng)商開放數(shù)據(jù)中應(yīng)用。

深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)

  以上是狹義的數(shù)據(jù)開放,廣義的數(shù)據(jù)開放還有數(shù)據(jù)的共享及交易(下圖),比如點(diǎn)對(duì)點(diǎn)進(jìn)行數(shù)據(jù)共享或在多邊平臺(tái)上做數(shù)據(jù)交易。

  馬克思說生產(chǎn)資料所有制是經(jīng)濟(jì)的基礎(chǔ),但是現(xiàn)在大家可以發(fā)現(xiàn),生產(chǎn)資料的租賃制變成了一種主流(參考《Lean Startup》),在數(shù)據(jù)的場(chǎng)景下,我不一定擁有數(shù)據(jù),甚至不用整個(gè)數(shù)據(jù)集,但可以租賃。租賃的過程中要保證數(shù)據(jù)的權(quán)利。

  首先,我可以做到數(shù)據(jù)給你用,但不可以給你看見。姚期智老先生82年提了個(gè)“millionaires’ dilemma”問題,兩個(gè)百萬富翁比富,但誰都不愿意說出自己有多少錢。這就是典型的“可用但不可見”場(chǎng)景。在實(shí)際生活中的例子很多,我一直用的一個(gè)例子是:美國(guó)國(guó)土安全部有恐怖分子名單(數(shù)據(jù)1),航空公司有乘客飛行記錄(數(shù)據(jù)2),國(guó)土安全部去問航空公司要乘客飛行記錄,航空公司不給,因?yàn)殡[私,他反過來問國(guó)土安全部要恐怖分子名單,也不行,因?yàn)槭菄?guó)家機(jī)密。雙方都有發(fā)現(xiàn)恐怖分子的意愿,但都不一樣給出數(shù)據(jù),有沒有辦法讓數(shù)據(jù)1和數(shù)據(jù)2放一起掃一下,但又保障數(shù)據(jù)安全呢?

  其次,在數(shù)據(jù)使用過程中要有審計(jì)。萬一那個(gè)掃描程序偷偷把數(shù)據(jù)藏起來送回去怎么辦?

  再者,需要數(shù)據(jù)定價(jià)機(jī)制,雙方數(shù)據(jù)的價(jià)值一定不對(duì)等,產(chǎn)生的洞察對(duì)各方的用途也不一樣,因此要有個(gè)定價(jià)機(jī)制,比大鍋飯式的數(shù)據(jù)共享更有激勵(lì)性。

  從點(diǎn)對(duì)點(diǎn)的共享,最后要走到多邊的數(shù)據(jù)交易,從一對(duì)多的數(shù)據(jù)服務(wù)到多對(duì)多的數(shù)據(jù)市場(chǎng),再到數(shù)據(jù)交易所,如果說現(xiàn)在的數(shù)據(jù)市場(chǎng)更多是對(duì)數(shù)據(jù)集進(jìn)行買賣的話,而這個(gè)數(shù)據(jù)交易所是一個(gè)基于市場(chǎng)進(jìn)行價(jià)值發(fā)現(xiàn)和定價(jià)的,像股票交易所那樣的、小批量、高頻率的數(shù)據(jù)交易。

深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)

  我們支持了不少研究來實(shí)現(xiàn)剛才說的這些功能,比如說可用而不可見。案例一是通過加密數(shù)據(jù)庫(kù)CryptDB/Monomi(下圖),這也是我們支持麻省理工學(xué)院做的一個(gè)技術(shù)。在數(shù)據(jù)擁有方甲方這邊的數(shù)據(jù)庫(kù)是完全加密的,這事實(shí)上也防止了現(xiàn)在出現(xiàn)的很多數(shù)據(jù)泄露問題,大家已經(jīng)聽到,比如說某互聯(lián)網(wǎng)服務(wù)提供商的員工偷偷把數(shù)據(jù)拿出來賣,你的數(shù)據(jù)一旦加密了他拿出來也沒用。其次,這個(gè)加密數(shù)據(jù)庫(kù)可以運(yùn)行乙方的普通SQL程序。因?yàn)樗捎昧送瑧B(tài)加密技術(shù)和洋蔥加密法,SQL的一些語義在密文上也可以執(zhí)行。

深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)

  針對(duì)類似百萬富翁窘境,我們針對(duì)此做了另一種可用但不可見的技術(shù),叫做數(shù)據(jù)咖啡館(下圖)。大家知道咖啡館是讓人和人進(jìn)行思想碰撞的地方(順便推薦Steven Johnson的TED演講, where good ideas come from),我們這個(gè)數(shù)據(jù)咖啡館就是讓數(shù)據(jù)和數(shù)據(jù)能夠碰撞,產(chǎn)生新的價(jià)值。

  比如兩個(gè)電商一個(gè)是賣衣服的一個(gè)是賣化妝品的,他們對(duì)于客戶的洞察都是相對(duì)有限的,如果說兩邊的數(shù)據(jù)放在一起做一次分析,那么就能夠獲得全面的用戶畫像。再如,癌癥研究,癌癥是一類長(zhǎng)尾病癥,有太多的基因突變,每一個(gè)研究機(jī)構(gòu)的基因組樣本都相對(duì)有限,這在某種程度上解釋了為什么過去50年癌癥的治愈率僅僅提升了8%。那么,多個(gè)研究機(jī)構(gòu)的數(shù)據(jù)在咖啡館碰一碰,也能夠加速癌癥的研究。

  在咖啡館的底層是一個(gè)多方安全計(jì)算的技術(shù),基于英特爾跟伯克利的一個(gè)聯(lián)合研究。在上面是安全、可信的Spark,基于“data lineage”的使用審計(jì),還有就是根據(jù)各方數(shù)據(jù)對(duì)結(jié)果的貢獻(xiàn)進(jìn)行定價(jià)。有可能一家電商是新的,他還沒有太多的數(shù)據(jù),這就碰到一個(gè)機(jī)器學(xué)習(xí)冷啟動(dòng)的問題,那么我可以運(yùn)用另外一家電商數(shù)據(jù),做所謂的transfer learning,幫助他解決這個(gè)冷啟動(dòng)的問題。很顯然,另外那家電商的數(shù)據(jù)價(jià)值就應(yīng)該更高。

深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)

  把數(shù)據(jù)定價(jià)拔高一點(diǎn)。我們數(shù)據(jù)社會(huì)的經(jīng)濟(jì)基礎(chǔ)是什么?一定要有一些基本規(guī)律。大家知道,互聯(lián)網(wǎng)經(jīng)濟(jì)有個(gè)基本規(guī)律叫Metcalf定律,應(yīng)該是Gilder提出的,為致敬以太網(wǎng)發(fā)明人Metcalf而命名。它是說一個(gè)網(wǎng)絡(luò)的價(jià)值是跟你的節(jié)點(diǎn)數(shù)平方成正比。它的另一種表述是網(wǎng)絡(luò)效應(yīng)或網(wǎng)絡(luò)外部性:隨著網(wǎng)絡(luò)使用者的不斷增多,每一個(gè)使用者從中獲得的價(jià)值不斷增加,但使用費(fèi)用則不斷下降。這奠定了互聯(lián)網(wǎng)的需求方規(guī)模經(jīng)濟(jì)的商業(yè)模式,后面的所謂“邊際成本趨向于零”、“邊際效益遞增”、“正向反饋”、“馬太效應(yīng)”和“贏家通吃”等皆由此衍生而出。而如今互聯(lián)網(wǎng)公司的通用估值方法,股票價(jià)值折現(xiàn)分析法或DEVA估值法,也是90年代一些分析師基于此提出的:一個(gè)網(wǎng)絡(luò)公司的價(jià)值是跟他的用戶數(shù)平方成正比的。這種巴菲特不能理解、但又符合規(guī)律的估值方法幫助年年虧損的互聯(lián)網(wǎng)公司融到了大筆資金,也解釋了Facebook上市前能夠估值千億美元,不是因?yàn)樗臓I(yíng)業(yè)額(40多億)或利潤(rùn)(不到10億),而是因?yàn)樗?億用戶量。Google有個(gè)首席經(jīng)濟(jì)學(xué)家Hal Varian,這哥們?cè)?0年代末寫了一本書,名字大致是信息時(shí)代的規(guī)則,當(dāng)時(shí)賣得比KK的《新經(jīng)濟(jì)、新規(guī)則》好很多(現(xiàn)在KK的這本書賣得很好了,不同時(shí)代的口味是不一樣)。Varian的團(tuán)隊(duì)專門研究互聯(lián)網(wǎng)和經(jīng)濟(jì)的交叉學(xué)科。

  那么,大數(shù)據(jù)時(shí)代的Metcalf定律是什么呢?

  我們也不知道,一來從實(shí)踐中摸索,二來有意識(shí)地跟經(jīng)濟(jì)界做思想碰撞。

深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)

  比如(下圖),數(shù)據(jù)在公開市場(chǎng)交易的時(shí)候,該怎么定價(jià)?是根據(jù)市場(chǎng)價(jià)值發(fā)現(xiàn)機(jī)制來定價(jià)?還是根據(jù)數(shù)據(jù)的種類來定價(jià)?還是根據(jù)數(shù)據(jù)訪問API的調(diào)用次數(shù)來定價(jià)?

  在點(diǎn)對(duì)點(diǎn)的時(shí)候,各方的數(shù)據(jù)對(duì)于智慧產(chǎn)生的貢獻(xiàn)不一樣,也需要定價(jià)。

  現(xiàn)在企業(yè)的資產(chǎn)中有一部分無形資產(chǎn)是數(shù)據(jù)資產(chǎn)。那么,這怎么來提升我們企業(yè)的估值?這部分?jǐn)?shù)據(jù)資產(chǎn)價(jià)值幾何?現(xiàn)在也有一些很好的研究,比如consumption based model。

  個(gè)人數(shù)據(jù)也需要定價(jià),大家知道現(xiàn)在個(gè)人數(shù)據(jù)幾乎是免費(fèi)的,我們?yōu)榱双@得互聯(lián)網(wǎng)服務(wù)提供商的免費(fèi)服務(wù),把數(shù)據(jù)免費(fèi)給了服務(wù)提供商。但是,現(xiàn)在國(guó)外對(duì)于小數(shù)據(jù)、對(duì)于個(gè)人數(shù)據(jù)有價(jià),已經(jīng)開始覺醒了。有一個(gè)初創(chuàng)公司愿意給消費(fèi)者一部分錢,你把你的Facebook數(shù)據(jù)、推特?cái)?shù)據(jù)、銀行交易數(shù)據(jù)給這家公司,他來價(jià)值化(比如找廣告商)。現(xiàn)在的定價(jià)很簡(jiǎn)單,女性一個(gè)月14美金(女性的消費(fèi)能力強(qiáng)啊),男性一個(gè)月8美金,未來該怎么定價(jià)也是個(gè)很有意思的話題。

  在共享交易當(dāng)中也注意偽造的數(shù)據(jù)或劣質(zhì)的數(shù)據(jù),有人在共享的時(shí)候把一些假的數(shù)據(jù)、雜質(zhì)數(shù)據(jù)放進(jìn)去怎么辦?這也是很有意思的問題,而且很現(xiàn)實(shí)。Snowdon的文件解釋英國(guó)情報(bào)機(jī)構(gòu)GCHQ就很善于在網(wǎng)絡(luò)數(shù)據(jù)中摻假,改變網(wǎng)絡(luò)民意或熱點(diǎn),創(chuàng)造虛假流量。

深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)

  前面說的是數(shù)據(jù)的開放,下面很快說一下另外兩種開放。

  一是大數(shù)據(jù)基礎(chǔ)設(shè)施的開放(下圖),現(xiàn)在有的是有大數(shù)據(jù)思維的人,但他們很捉急,玩不起、玩不會(huì)大數(shù)據(jù),他不懂怎么去存儲(chǔ)、怎么處理這些大數(shù)據(jù),這就需要云計(jì)算。如果說數(shù)據(jù)開放是Data as a Service,基礎(chǔ)設(shè)施的開放還是傳統(tǒng)的Platform as a Service,比如Amazon AWS里有MapReduce,Google有Big Query。這些大數(shù)據(jù)的基礎(chǔ)處理和分析平臺(tái)可以來降低數(shù)據(jù)思維者的門檻,來釋放他們的創(chuàng)造力。

  比如decide.com,每天爬幾十萬的數(shù)據(jù),對(duì)價(jià)格信息(結(jié)構(gòu)化的和非結(jié)構(gòu)化的)進(jìn)行分析,然后告訴你買什么牌子、什么時(shí)候買最好。只有四個(gè)PhD搞算法,其他的靠AWS。

  另一家公司Prismatic,也利用了AWS,這是一家做個(gè)性化閱讀推薦的,我專門研究過它的計(jì)算圖、存儲(chǔ)和高性能庫(kù),用LISP的一個(gè)變種Clojure寫的,非常漂亮,真正做技術(shù)的只有三個(gè)學(xué)生。

  所以當(dāng)這些基礎(chǔ)設(shè)施社會(huì)化以后,大數(shù)據(jù)思維者的春天很快就要到來。

深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)

  最后一種開放是價(jià)值提取能力的開放(下圖)。現(xiàn)在的模式一般是一大一小或一對(duì)多。比如Tesco和Dunnhumby,后者剛開始是很小的公司,傍上了Tesco,給它做客戶忠誠(chéng)度計(jì)劃,一做就做了幾十年,這樣的長(zhǎng)期的戰(zhàn)略合作優(yōu)于短期的數(shù)據(jù)分析服務(wù),決策更注重長(zhǎng)期性。當(dāng)然,Dunnhumby現(xiàn)在已經(jīng)不是小公司了,Tesco控股,也為其他大公司提供數(shù)據(jù)分析服務(wù)。沃爾瑪跟另外一家小公司合作做數(shù)據(jù)分析,最后他把這家小公司買下來了,成了它的Walmart Labs。

  一對(duì)多的模式,典型的是Palantir,Peter Thiel和斯坦福的幾個(gè)教授搞的公司,目前還是私有的,但估值近百億了,它很擅長(zhǎng)給各類政府和金融機(jī)構(gòu)提供數(shù)據(jù)價(jià)值提取服務(wù)。

  真正把這種能力開放的是Kaggle,它的雙邊,一邊是10萬多的分析師,另一邊是需求方企業(yè),企業(yè)在Kaggle上發(fā)標(biāo),分析師競(jìng)標(biāo),獲得業(yè)務(wù)。這可能是真正解決長(zhǎng)尾公司價(jià)值提取能力的辦法。這個(gè)如果跟我們的數(shù)據(jù)咖啡館結(jié)合,那就更好了。

深度:英特爾中國(guó)研究院吳甘沙談大數(shù)據(jù)

  好,今天就講到這,謝謝大家!

大云網(wǎng)官方微信售電那點(diǎn)事兒

責(zé)任編輯:葉雨田

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
?
主站蜘蛛池模板: 精品久久久久久久久久久 | 日韩中文字幕精品一区在线 | 97国产精品欧美一区二区三区 | 亚洲欧美日韩另类精品一区二区三区 | 91亚洲自偷手机在线观看 | 国产呦系列呦交 | 免费日韩一级片 | 高清不卡日本v在线二区 | www.亚洲综合 | 亚洲综合日韩欧美一区二区三 | 99久久久久国产精品免费 | 成人欧美精品大91在线 | 欧美日韩精品乱国产538 | 国产自在自线午夜精品视频 | 午夜性片| 美女张开腿让男人桶的动态图 | 日韩欧美视频一区二区 | 亚洲网址在线观看 | 国产小视频在线高清播放 | 欧美大片一级毛片 | 国产三级在线观看视频 | 国产精品无码久久久久 | 国产三级在线视频观看 | 日韩 国产 欧美视频一区二区三区 | 国产情侣久久精品 | 国产成人盗摄精品 | 欧美大片一区二区三区 | 日韩 欧美 中文 亚洲 高清 在线 | 国产成人三级经典中文 | 深夜福利视频在线观看 | 亚洲精品亚洲人成毛片不卡 | 久久久久免费 | 成人免费xxxxx在线视频 | 亚洲人成免费网站 | free性丰满白嫩白嫩的hd | 日本aaaa片毛片免费观看 | 欧美成年黄网站色视频 | 国产欧美日韩亚洲 | 在线观看的黄网 | 男女视频在线观看免费高清观看 | 深爱激情五月网 |