阿里巴巴年度技術總結：人工智能在搜索的應用和實踐

2017-12-28 19:59:18 51CTO　點擊量：評論 (0)

工業級的信息檢索或個性化系統是一個復雜的系統工程，深度學習的工業級應用需要具備三個條件：強大的系統計算能力，優秀的模型設計能力和合適的應用場景，我們梳理了過去一年多搜索在深度學習方向上的探索，概要的介紹了我們在深度學習系統、深度學習算法和搜索應用落地的進

以深度學習為代表的人工智能在圖像、語音和NLP領域帶來了突破性的進展，在信息檢索和個性化領域近幾年也有不少公開文獻，比如wide & deep實現了深度模型和淺層模型的結合，dssm用于計算語義相關性，deepfm增加了特征組合的能力，deep CF用深度學習實現協同過濾，rnn recommender 采用行為序列預估實現個性化推薦等。工業級的信息檢索或個性化系統是一個復雜的系統工程，深度學習的工業級應用需要具備三個條件：強大的系統計算能力，優秀的模型設計能力和合適的應用場景，我們梳理了過去一年多搜索在深度學習方向上的探索，概要的介紹了我們在深度學習系統、深度學習算法和搜索應用落地的進展和思考，希望對大家有所啟發。

深度學習在搜索的應用概括起來包括4個方面：

首先是系統，強大的深度學習訓練平臺和在線預測系統是深度學習應用的必要條件，目前我們的離線深度學習框架、在線深度學習框架和在線預測框架統一到tf，并實現了日志處理，特征抽取，模型訓練和在線服務部署端到端的流程，極大提升了算法迭代效率；

其次是搜索應用，包括智能交互，語義搜索，智能匹配和智能決策四個技術方向，這四個方向的協同創新實現了搜索全鏈路的深度學習技術升級，并具備從傳統的單場景單目標優化到多場景多目標聯合優化的能力；

再次是在性能優化上做的工作，包括模型壓縮、量化、低秩分解再到二值網絡，大量的技術調研和論證，為未來提高深度模型預測性能和軟硬件協同優化做了很好的技術鋪墊；

最后是排序平臺化，實現了PC商品搜索、無線商品搜索、店鋪內搜索搜索和店鋪搜索的搜索服務統一，通過特征和模型復用，實現了多條業務線技術的快速升級。下面我會簡要的概括下在四個方向上取得的主要進展和背后的思考。

如下圖，是搜索系統和算法的簡圖。

搜索系統和算法簡圖

該系統包括:

a. 離線數據平臺ODPS，負責離線日志join、特征抽取和離線模型預估產出排序特征，時效性不強的特征都是通過離線數據平臺產出的，比如用戶性別標簽，商品關鍵字等;

b. 離線機器學習平臺PAI，底層是主流的parameter server和TF深度學習框架，平臺實現了大部分機器學習算法模型的并行訓練和預測，在搜索應用中主要作用是離線模型訓練產出離線排序特征模型；

c. 流式計算和在線學習平臺 Porsche，流式計算是基于blink負責實時日志解析和特征join生成實時排序特征，在線學習和離線學習底層框架可以相同，差別主要是依賴數據源和部分優化方法不同，由于用戶行為和市場環境變化快，流式計算和在線學習在搜索應用非常廣泛，并積累了不少在線學習和強化學習算法；

d. 在線服務平臺，包括引擎、排序服務和搜索平臺組成，負責在線的服務分發、索引查詢、排序服務和結果合并等功能，搜索的排序策略、相關性、個性化等模型主要通過在線預測服務生效。經過多年發展我們已經具備了非常完善的商品搜索排序算法體系，包括知識圖譜、分詞、tagging、類目預測、意圖預測、拼寫糾錯、query 推薦、query 語義改寫、相關性、商品標簽、商品質量、店鋪分層、用戶profile、用戶偏好、用戶感知、召回策略、個性化模型、多樣性策略、異構服務混排策略、多目標聯合優化策略、多場景聯合排序策略等，并平臺化的方式賦能相關業務團隊。

系統進展包括機器學習平臺和在線預測平臺

機器學習平臺。搜索訓練樣本主要來自用戶行為，由于用戶行為是流式數據，適合做在線深度學習，但當模型參數非常龐大需要海量的樣本時在線學習需要很長的時間才能收斂，這時一般是先做離線預訓練再結合增量或在線學習，另外有些模型離線預訓練后在線只需要對接近輸出層的網絡做fine-tuning。搜索在實際應用的有離線機器學習平臺PAI和在線機器學習平臺Porsche，兩個平臺深度學習框架目前都統一到了tf-pai， tf-pai 對原生tf做了一些優化，比如底層通訊，稀疏參數存儲、優化方法、GPU顯存優化等，比原生tf訓練深度有較大的提升，訓練上千億樣本和上百億參數的深度模型毫無壓力。

雖然Porsche和PAI都支持GPU，但在搜索應用中CPU依然是主流，GPU應用比較少，原因主要是個性化相對圖像或語音簡單，特征抽取網絡比較淺，維度相對較低，GPU的稠密矩陣計算能力得不到充分發揮，同時離在線混布后流量低谷期間騰出了大量的在線服務閑置CPU，把臨時閑置的CPU利用起來做深度學習訓練是一個非常好的思路。

在線預估RTP，搜索排序算分服務。由于每次搜索請求有上千個商品需要計算排序分數，深度模型應用對RTP服務的壓力是非常大的，RTP通過采用異構計算，計算算子化和模型分片等方式解決了深度模型inference計算和存儲問題，深度模型用GPU，淺層模型用CPU，今年雙11期間搜索RTP服務用到了550張GPU卡。另外，RTP還實現了離線/在線訓練模型/數據和在線預測服務部署的無縫銜接，算法訓練好的模型或數據可以很輕松的部署都在線服務，提升了算法迭代效率。

算法包括智能交互、語義搜索、智能匹配和搜索策略四個方向

智能交互

商品搜索就是帶交互的商品推薦，用戶通過關鍵字輸入搜索意圖，引擎返回和搜索意圖匹配的個性化推薦結果，好的交互技術能夠幫助到用戶更好的使用搜索引擎，目前搜索的交互主要是主動關鍵字輸入和關鍵字推薦，比如搜索框中的默認查詢詞和搜索結果中的文字鏈等，推薦引擎根據用戶搜索歷史、上下文、行為和狀態推薦關鍵字。

和商品推薦的區別是，關鍵字推薦是搜索鏈路的中間環節，關鍵字推薦的收益除了關鍵字的點擊行為外，還需要考慮對整個購物鏈路的影響，包括在推薦關鍵字的后續行為中是否有商品點擊、加購和成交或跳轉到另外一個關鍵字的后繼行為，這是一個典型的強化學習問題，action 是推薦的關鍵字候選集合，狀態是用戶當前搜索關鍵詞、上下文等，收益是搜索引導的成交。除了被動的關鍵字推薦，我們也在思考搜索中更加主動的交互方式，能夠做到像導購員一樣的雙向互動，主動詢問用戶需求，挑選個性化的商品和給出個性化的推薦理由，目前阿里搜索團隊已經在做智能導購和智能內容方向的技術原型及論證，智能導購在技術上主要是借鑒對話系統，通過引導用戶和引擎對話與關鍵字推薦方式互為補充，包括自然語言理解，對話策略，對話生成，知識推理、知識問答和商品搜索等模塊，功能主要包括：

a. 根據用戶搜索上下文生成引導用戶主動交互的文本，比如搜索“奶粉”時，會生成“您寶寶多大？0~6個月，6個月到1歲….”引導文案，提示用戶細化搜索意圖，如果用戶輸入“3個月”后，會召回相應段位的奶粉，并在后續的搜索中會記住對話狀態“3個月”寶寶和提示用戶“以下是適合3個月寶寶的奶粉”。

b. 知識導購，包含提高售前知識問答或知識提示，比如“3個月寶寶吃什么奶粉” 回答“1段”。目前對話技術正在提高中，尤其是在多輪對話狀態跟蹤、知識問答和自動評價幾個方面，但隨著深度學習、強化學習和生成對抗學習等技術在NLP、對話策略、閱讀理解等領域的應用，越來越多的訓練數據和應用場景，domain specific 的對話技術未來幾年應該會突飛猛進。智能內容生成，包括生成或輔助人工生成商品和清單的“賣點”，短標題和文本摘要等，讓淘寶商品表達更加個性化和多元化。

語義搜索

語義搜索主要是解決關鍵字和商品內容之間的語義鴻溝，比如搜索“2~3周歲寶寶外套”，如果按照關鍵字匹配召回結果會遠小于實際語義匹配的商品。

語義搜索的范圍主要包括：

a. query tagging和改寫，比如新品，年齡，尺碼，店鋪名，屬性，類目等搜索意圖識別和歸一化，query tagging模型是用的經典的序列標注模型 bi-lstm + CRF，而標簽分類（歸一化）作為模型另外一個任務，將序列標注和分類融合在一起學習。

b. query 改寫，主要是計算query之間相似度，把一個query改寫成多個語義相似的query，通常做法是先用不同改寫策略生成改寫候選query集合，比如詞替換、向量化后top k、點擊商品相似度等，然后在用ltr對后續集合排序找出合適的改寫集合，模型設計和訓練相對簡單，比較難的是如何構建高質量的訓練樣本集合，線上我們用bandit 的方法探測部分query 改寫結果的優劣，離線則用規則和生成對抗網絡生成一批質量較高的樣本。

c. 商品內容理解和語義標簽，通過商品圖片，詳情頁，評價和同義詞，上下位詞等給商品打標簽或擴充商品索引內容，比如用 image tagging技術生成圖片的文本標簽豐富商品內容，或者更進一步用直接用圖片向量和文本向量融合，實現富媒體的檢索和查詢。

d. 語義匹配，經典的DSSM 模型技術把query 和商品變成向量，用向量內積表達語義相似度，在問答或閱讀理解中大量用到多層LSTM + attention 做語義匹配，同樣高質量樣本，特別是高質量負樣本很大程度上決定了模型的質量，我們沒有采樣效率很低的隨機負采樣，而是基于電商知識圖譜，通過生成字面相似但不相關的query及相關文檔的方法生成負樣本。

從上面可以看到query tagging、query相似度、語義匹配和語義相關性是多個目標不同但關聯程度非常高的任務。下一步計劃用統一的語義計算框架支持不同的語義計算任務，具體包括

1. 開發基于商品內容的商品表征學習框架，為商品內容理解，內容生成，商品召回和相關性提供統一的商品表征學習框架，重點包括商品標題，屬性，詳情頁和評價等文本信息抽取，圖像特征抽取和多模信號融合。

2. query 表征學習框架，為query 類目預測，query改寫，query 推薦等提供統一的表征學習框架，重點通過多個query 相似任務訓練統一的query表征學習模型。

3. 語義召回，語義相關性等業務應用模型框架。語義搜索除了增加搜索結果相關性，提升用戶體驗外，也可以一定程度上遏制淘寶商品標題堆砌熱門關鍵詞的問題。

智能匹配

這里主要是指個性化和排序。內容包括：

a. ibrain (深度用戶感知網絡)，搜索或推薦中個性化的重點是用戶的理解與表達，基于淘寶的用戶畫像靜態特征和用戶行為動態特征，我們基于multi-modals learning、multi-task representation learning以及LSTM的相關技術，從海量用戶行為日志中直接學習用戶的通用表達，該學習方法善于“總結經驗”、“觸類旁通”，使得到的用戶表達更基礎且更全面，能夠直接用于用戶行為識別、偏好預估、個性化召回、個性化排序等任務，在搜索、推薦和廣告等個性化業務中有廣泛的應用場景，感知網絡超過10B個參數，已經學習了幾千億次的用戶行為，并且會保持不間斷的增量學習越來越聰明。

b. 多模學習，淘寶商品有文本、圖像、標簽、id 、品牌、類目、店鋪及統計特征，這些特征彼此有一定程度的冗余和互補，我們利用多模學習通過多模聯合學習方法把多維度特征融合在一起形成統一的商品標準，并多模聯合學習中引入self-attention實現特征維度在不同場景下的差異，比如女裝下圖片特征比較重要，3C下文本比較重要等。

c. deepfm，相對wide & deep 模型，deepfm 增加了特征組合能力，基于先驗知識的組合特征能夠應用到深度學習模型中，提升模型預測精度。

d. 在線深度排序模型，由于行為類型和商品重要性差異，每個樣本學習權重不同，通過樣本池對大權重樣本重復copy分批學習，有效的提升了模型學習穩定性，同時通過融合用戶狀態深度ltr模型實現了千人千面的排序模型學習。

e. 全局排序，ltr 只對單個文檔打分然后按照ltr分數和打散規則排序，容易導致搜索結果同質化，影響總頁效率，全局排序通過已知排序結果做為上下文預測下一個位置的商品點擊概率，有效提升了總頁排序效率。

f. 另外工程還實現了基于用戶和商品向量的向量召回引擎，相對倒排索引，向量化召回泛化能力更強，對語義搜索和提高個性化匹配深度是非常有價值的。以上實現了搜索從召回、排序特征、排序模型、個性化和重排的深度學習升級，在雙11無線商品搜索中帶來超過10% (AB-Test)的搜索指標提升。

多智能體協同學習實現智能決策

搜索中個性化產品都是成交最大化，導致的問題是搜索結果趨同，浪費曝光，今年做的一個重要工作是利用多智能體協同學習技術，實現了搜索多個異構場景間的環境感知、場景通信、單獨決策和聯合學習，實現聯合收益最大化，而不是此消彼長，在今年雙11中聯合優化版本帶來的店鋪內和無線搜索綜合指標提升12% (AB-Test)，比非聯合優化版本高3% (AB-Test)。

性能優化。在深度學習剛起步的時候，我們意識到深度模型inference 性能會是一個瓶頸，所以在這方面做了大量的調研和實驗，包括模型壓縮(剪枝)，低秩分解，量化和二值網絡。

通過以上技術，今年雙11期間在手淘默認搜索、店鋪內搜索、店鋪搜索等均取得了10% (AB-Test)以上的搜索指標提升。

阿里巴巴人工智能搜索應用的未來計劃

通用用戶表征學習。前面介紹的DUPN 是一個非常不錯的用戶表征學習模型，但基于query 的attention 只適合搜索，同時缺少基于日志來源的attention，難以推廣到其他業務，在思考做一個能夠適合多個業務場景的用戶表征模型，非搜索業務做些簡單fine tuning 就能取得比較好的效果；同時用戶購物偏好受季節和周期等影響，時間跨度非常大，最近K個行為序列假設太簡單，我們在思考能夠做life-long learning 的模型，能夠學習用戶過去幾年的行為序列；

搜索鏈路聯合優化。從用戶進入搜索到離開搜索鏈路中的整體優化，比如搜索前的query 引導（底紋），搜索中的商品和內容排序，搜索后的 query推薦（錦囊）等場景；

跨場景聯合優化。今年搜索內部主搜索和店鋪內搜索聯合優化取得了很好的結果，未來希望能夠拓展在更多大流量場景，提高手淘的整體購物體驗；

多目標聯合優化。搜索除了成交外，還需要承擔賣家多樣性，流量公平性，流量商業化等居多平臺和賣家的訴求，搜索產品中除了商品搜索外還有“穹頂”，“主題搜索”，“錦囊”，“內容搜索”等非商品搜索內容，不同搜索目標和不同內容（物種）之間的聯合優化未來很值得深挖。

智能交互。“搜索排序做的再好搜索也只是一個工具”，如何把搜索從工具做成私人導購助手，能夠聽懂你的語言，了解你的情緒，能夠對話和多輪交互，解決售前售后困惑，推薦更加個性化的商品應該是搜索未來的另外一個主要發展方向。