借數(shù)據(jù)造就新一代搜索
“作為搜索公司來講,最主要的就是大數(shù)據(jù),把這些數(shù)據(jù)放到數(shù)據(jù)庫里面。目前我們的數(shù)據(jù)存儲能力已經(jīng)是2000PB,網(wǎng)頁是千億到萬億,更新量是十億到百億每天,還有廣告,還有用戶產(chǎn)生的內(nèi)容UGC,大概就是這樣的情況。”百度技術委員會理事長陳尚義說道。
正如陳尚義講的,百度的數(shù)據(jù)非常多,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)大量并存,小到一個詞匯,大到一部電影,他們對于數(shù)據(jù)的要求也是不一樣的。在日常中,百度需要的面對的是客戶24小時隨時隨地的需求,業(yè)務對于數(shù)據(jù)儲存提出了極高的要求。“高可用、高可靠、高通量、高實效是我們對于自身服務的要求。我們有大數(shù)據(jù)平臺,有專門的隊伍來做數(shù)據(jù)這塊,以支持百度貼吧、知道和百科等平臺的正常運行。”陳尚義在提到百度服務的標準時提到。作為國內(nèi)搜索界的領軍人物,百度的數(shù)據(jù)增長量是非常驚人的,這樣的情況使得百度對于自身系統(tǒng)的可靠性要求也更高。
精準為王
當我們在使用百度的時候,最關心的就是搜索結(jié)果的精準性、全面性、搜索模式和交互體驗。而具備這四個特性的搜索方式被稱之為新一代搜索。
舉個簡單的例子,在沒有利用大數(shù)據(jù)的時候,當我們在網(wǎng)上搜索一個疾病的名稱,出現(xiàn)的可能更多的是醫(yī)院的信息,疾病的一些基本情況。當大數(shù)據(jù)被利用起來時,我們在搜索會獲得疾病的情況,其他差不多的疾病有哪些,用什么藥品。而當你選擇一個相關的醫(yī)生時,網(wǎng)絡上就出現(xiàn)醫(yī)生的專業(yè),擅長的領域。這樣的一個轉(zhuǎn)變,是更加智能的交互體驗當我們輸入一個東西,搜索引擎就已經(jīng)知道我們想干什么了。而百度正在利用大數(shù)據(jù)向這個方向發(fā)展。
全面為佳
現(xiàn)在,百度不僅僅有文字搜索,還有語音搜索、圖片搜索。你搜“國際會議中心”這幾個字的時候,會呈現(xiàn)出國際會議中心相關的圖片,但是現(xiàn)在相反了,你可以輸入一個圖片。根據(jù)你的圖片可以找到跟它相關的或者相同的圖片,叫以圖搜圖,這個方面我們?nèi)ツ杲?jīng)過一年的努力之后,取得了非常巨大的進展。”陳尚義介紹了一種叫做隱文搜圖的新式搜索。不難看出,這樣的一種搜索改進,背后對于大數(shù)據(jù)的要求比文字搜索圖片的要求要高很多。
這樣一來,更多的信息就變得完整全面起來。當我們出行去外地,搜索一個景點時,除了獲得這個景點的信息,更有景點內(nèi)部相關的資料。周邊的景點、景點的特色是什么都會推送給用戶。這一切都需要大數(shù)據(jù)在背后做支持。
當我們輸入姚明的身高時,會出現(xiàn)姚明的信息。實際上這個概念叫做三元組。像這樣的三元組,百度已經(jīng)做了上億條數(shù)據(jù)實體。所有這些都是從上千億網(wǎng)頁找到的。幾千萬個數(shù)據(jù)的實行,相當于上千萬個名詞的搜索,這超過任何一本書記和任何一本資料。——百度技術委員會理事長 陳尚義
“新一代搜索下,當我們輸入姚明的身高時,會出現(xiàn)姚明的信息。實際上這個概念叫做三元組。像這樣的三元組,我們百度已經(jīng)做了上億條數(shù)據(jù)實體。所有這些東西都是從上千億網(wǎng)頁找到的。幾千萬個數(shù)據(jù)的實行,就相當于上千萬個名詞的搜索,這超過任何一本書記和任何一本資料,然后進一步找到這些實體之間的關系。” 陳尚義講的這個例子最好的證明了搜索的改進是大數(shù)據(jù)做支撐的。
2012年,百度引進了一項技術叫深度學習,百度用GPU的訓練系統(tǒng)來實現(xiàn)深度神經(jīng)網(wǎng)絡,這項技術被投用在商業(yè)領域里,百度是首家應用的幾個較少的公司中的一個。“在萬兆網(wǎng)卡基礎上使用128個GPU。訓練100億樣本的數(shù)據(jù),訓練時間從數(shù)月縮短到一個月星期,圖片錯誤率降低三分之一。”被問及百度在豐富信息上還利用大數(shù)據(jù)做了什么時,陳尚義如是說。
民生關鍵
很多企業(yè)利用大數(shù)據(jù)是為了更好的服務于客戶,從而讓最終用戶獲得更加完善的服務。百度作為一家互聯(lián)網(wǎng)公司,利用大數(shù)據(jù)也是為了更好地讓利用他的人們獲得更好的體驗。縱觀一些問題,人們最關注還是民生的問題。醫(yī)療問題、交通問題都是人們在日常生活中最關注的。
陳尚義講了兩個事例:他每天從家里到百度大廈有20多公里的路程,正常花費一個小時,如果不賭車,其實30分鐘就夠了,交通是一個讓他心有余悸的問題。交通情況對于在北京的人都是相同的感受??拐鹁葹牡臅r候,道路不通暢,救援點也無法找到。
另一個是陳尚義聽鄰居說起的,老人排隊1個多小時掛了一個號,但是醫(yī)生看了三五分鐘就結(jié)束了,這樣的一個情況讓很多病患對于就醫(yī)也充滿了抵觸心理。
于是,百度針對醫(yī)療和交通出行,充分收集數(shù)據(jù),并加以利用對搜索做出了很大的改進。
在醫(yī)療方面,百度降低了獲得服務的門檻。當在百度首頁輸入頸椎病時,會出現(xiàn)頸椎病相關的信息、醫(yī)生、醫(yī)院,并且提供掛號信息。經(jīng)過百度技術團隊的努力,現(xiàn)在百度已經(jīng)可以做到一站式的服務。智能交互可以找到所有相關的信息。禽流感在2013年4月份比較流行,百度告訴你禽流感的癥狀,防御的措施,這樣的話老百姓就不用驚慌了。醫(yī)療衛(wèi)生方面還有很多,真假識別,價格的對比等等。
交通出行方面,假設到國際會議中心,很多人知道路線。但是今天還是很多人用百度地圖導航,非常的方便?,F(xiàn)實生活中,在交通方面人們還有很多的需求,北京經(jīng)常實施交通管制,我們?nèi)绾螌崟r獲得交通管制信息。與此類相關的還有交通事故等,有沒有大型貨車都是行車人都關心的信息。
在線教育也是現(xiàn)在民生方面非常新的一點。美國的情況比中國發(fā)展還要快,百度也推出了開放平臺。
責任編輯:廖生玨
-
權威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產(chǎn)業(yè),設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設典型實踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎設施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產(chǎn)業(yè),設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市