展望2018 AI芯片領(lǐng)域:眾多廠商追隨深度學(xué)習(xí)
Gwennap表示,Graphcore(英國布里斯托爾)和Cerebras(美國加州洛斯阿爾托)是訓(xùn)練芯片領(lǐng)域值得關(guān)注的兩家初創(chuàng)公司,因為這兩家公司籌集的資金最多,而且似乎擁有最好的團隊。由Google前芯片設(shè)計師創(chuàng)立的初創(chuàng)公司Groq聲稱,它將在2018年推出一款推理芯片,在總體操作和每秒推論方面都會以4倍的優(yōu)勢擊敗競爭對手。
英特爾的Nervana是一個大型的線性代數(shù)加速器,位于4個8-Gb HBM2內(nèi)存堆棧旁的硅中介層上。來源:Hennessy和Patterson,“計算機體系結(jié)構(gòu):一種定量方法”
英特爾代號為“Lake Crest”的Nervana(上圖)是最受關(guān)注的定制設(shè)計之一。它執(zhí)行16位矩陣操作,數(shù)據(jù)共享指令集中提供的單個5位指數(shù)。
與Nvidia Volta一樣,Lake Crest邏輯器件位于4個HBM2高帶寬內(nèi)存堆棧旁邊的TSMC CoWoS(襯底上芯片上芯片)中介層上。這些芯片被設(shè)計成網(wǎng)狀,提供5到10倍于Volta的性能。
雖然去年微軟在深度神經(jīng)網(wǎng)絡(luò)上使用了FPGA,但Patterson仍然對這種方法持懷疑態(tài)度。 “你為[FPGA的]靈活性付出了很多代價;編程真的很難,”他說。
Gwennap在去年年底的一項分析中指出,DSP也將發(fā)揮作用。Cadence、Ceva和Synopsys都提供面向神經(jīng)網(wǎng)絡(luò)的DSP內(nèi)核,他說。
加速器缺乏共同的基準(zhǔn)
這些芯片即將到來時,架構(gòu)師們卻還不確定如何評估這些芯片。
Patterson回憶說,就像RISC處理器的早期,“每個公司都會說,'你不要相信別人的基準(zhǔn),但是你可以相信我的',這可不太好。”
那個時候,RISC廠商們在SPEC基準(zhǔn)測試中進行合作?,F(xiàn)在,深度神經(jīng)網(wǎng)絡(luò)加速器需要自己定義的測試套件,涵蓋各種數(shù)據(jù)類型的訓(xùn)練和推理,以及獨立芯片和集群芯片。
聽到這個呼吁,Transaction Processing Performance Council(TPC)在12月12日宣布成立了一個工作組來定義機器學(xué)習(xí)的硬件和軟件基準(zhǔn)。TCP是由20多個頂級服務(wù)器和軟件制造商組成的團體。TPC-AI委員會主席Raghu Nambiar表示,這么做的目標(biāo)是創(chuàng)建各種測試,并且這些測試不關(guān)乎加速器是CPU還是GPU。但是,這個團隊的成員名單和時間框架還在不斷變化之中。
百度在2016年9月發(fā)布了一個基于其深度學(xué)習(xí)工作負載的開放源代碼基準(zhǔn)測試工具,使用32位浮點數(shù)學(xué)做訓(xùn)練任務(wù)。百度在6月份更新了DeepBench以涵蓋推理工作和16位數(shù)學(xué)的使用。
由哈佛大學(xué)研究人員發(fā)表的Fathom套件中,定義了8個人工智能工作負載,支持整數(shù)和浮點數(shù)據(jù)。Patterson表示:“這是一個開始,但是要獲得一個讓人感覺舒適的、全面的基準(zhǔn)測試套件還需要更多的工作。”
“如果我們致力于打造一個很好的基準(zhǔn),那么所有用在這個工程上的錢都是物有所值的。”
除了基準(zhǔn)之外,工程師還需要追蹤仍在演變的神經(jīng)網(wǎng)絡(luò)算法,以確保他們的設(shè)計不會被淘汰。