久久99国产精品久久99_日韩在线第二页_日韩人妻无码一区二区三区久久_久久亚洲私人国产精品

咨詢熱線:021-80392549

 QQ在線  企業(yè)微信
 資訊 > 人工智能 > 正文

當AI遇上FPGA會產(chǎn)生怎樣的反應

2019/06/27390

機器在ImageNet中圖像識別錯誤率達到了3.5%,遠遠超出了人類平均的5.1%。在越來越多的領域,AI已經(jīng)擁有了超越人類的能力,比如象棋、圍棋,比如圖片、語音識別。AI計算平臺和相關算法的發(fā)展是人工智能大躍進的基礎,在線下模型訓練中Xeon-Phi、GPU等發(fā)揮著巨大的作用,而在線上的推理任務中,浪潮FPGA深度學習加速解決方案則能夠實現(xiàn)7倍以上的能效比提升。

卷積網(wǎng)絡之父、Facebook人工智能實驗室主任Yann LeCun在一次采訪中表示,“大規(guī)模的在卷積神經(jīng)網(wǎng)絡訓練上可能是比較慢,但是在一個實際的應用中,沒人關心訓練到底要花多長時間,人們只關心運行需要多久?!?

也就是說,當模型一旦被訓練完成,線上推理的效率才決定用戶體驗。比如,有2個同樣AI模型的訓練,一家公司用了1天訓練完成,但線上推理的效率只有每秒100個任務;另一家公司用了7天訓練完成,但線上推理效率可以達到每秒1000個。那么對于最終用戶而言,第二家公司的應用無疑更快、用戶體驗更佳。那么如何才能提升人工智能應用的線上推理任務的效率?

當AI遇上FPGA會產(chǎn)生怎樣的反應

目前,GPU已經(jīng)在深度學習訓練模型領域開創(chuàng)性地創(chuàng)建了包含CNN、DNN、RNN、LSTM以及強化學習網(wǎng)絡等算法在內的應用加速平臺和完整的生態(tài)系統(tǒng)。深度學習包含兩個計算環(huán)節(jié),即線下訓練和線上推理環(huán)節(jié)。GPU在深度學習算法模型訓練上非常高效,但在推理時,一次性只能對于一個輸入項進行處理,并行計算的優(yōu)勢不能發(fā)揮出來。

相比較而言,運行深度學習算法實現(xiàn)同樣的性能,GPU所需功耗遠大于FPGA,通常情況下,GPU只能達到FPGA能效比的一半或更低。目前來看,深度學習算法還未完全成熟,算法還在迭代衍化過程中,若深度學習算法發(fā)生大的變化,GPU無法像FPGA一樣可以靈活的配置硬件結構,快速切入市場。

因此,F(xiàn)PGA和GPU未來在超級數(shù)據(jù)中心將成主流應用。尤其是在深度學習方面, GPU強在訓練,而FPGA強在推斷。原百度IDL常務副院長、現(xiàn)地平線機器人創(chuàng)始人&CEO余凱博士在北大一次公開課中透露:“百度廣告系統(tǒng)上線跟語音系統(tǒng)上線都需要實時計算,并且它的流量特別大,特別是廣告,這種情況下 CPU 跟 GPU 其實都扛不住,所以我們當時用 FPGA 去做專門的硬件加速?!?

由于FPGA具有可編程專用性,高性能及低功耗的特點,浪潮推出基于FPGA的深度學習加速解決方案,希望通過更高配置的硬件板卡設計和內置更高效已編譯算法,來加速FPGA在人工智能領域的應用。

這一方案基于浪潮研發(fā)的業(yè)界最高密度的FPGA卡——F10A,單芯片峰值運算能力為1.5TFlops,而功耗僅35W,每瓦特性42GFlops。同時,F(xiàn)10A設計半高半長PCI-E插卡,具有靈活的板卡內存配置,最大支持32G雙通道內存,能夠寄存更多的并行任務數(shù)據(jù)。此外,F(xiàn)10A支持2個10Gb光口,可以實現(xiàn)數(shù)據(jù)直接從網(wǎng)絡到板卡處理,無需經(jīng)過CPU,減低了傳輸延時。

而在算法上,浪潮FPGA深度學習加速解決方案針對CNN卷積神經(jīng)網(wǎng)絡的相關算法進行優(yōu)化和固化??蛻粼诓捎么私鉀Q方案后,只需要將目前深度學習的算法和模型編譯成與浪潮深度學習加速解決方案的配置腳本,即可進行線上應用,省去至少3個月到半年的開發(fā)周期和相關成本。并且在算法運行效率上,浪潮FPGA加速方案相比CPU、GPU都有著很大優(yōu)勢。

目前,浪潮FPGA方案可加速ResNet等神經(jīng)網(wǎng)絡,能夠應用于圖片分類、對象檢測和人臉識別等應用場景。以通過構建ResNet殘差網(wǎng)絡的圖片識別分類任務為例,對通用圖像識別基礎數(shù)據(jù)集CIFAR-10進行測試,通過浪潮FPGA解決方案進行處理,能夠實現(xiàn)每秒742張的處理速度,Top-5識別準確率達到99.7%。而在同樣的模型下,使用NVidia M4僅能達到172張每秒,并且M4的功耗為50-75W,浪潮FPGA的功耗僅為30-45W。因此,從能效比來看,浪潮FPGA加速解決方案在圖片識別分類應用上,相比GPU能效比能提升7倍以上!同樣,與通用CPU對比,在處理這種高并行、小計算量的任務時,F(xiàn)PGA的優(yōu)勢將更明顯。

除了在AI的線上推理方向,F(xiàn)PGA在其他很多方面也能發(fā)揮價值。在面向計算密集型任務,比如矩陣運算、圖像處理、機器學習、壓縮、非對稱加密、搜索的排序等的時候,擁有流水線并行和數(shù)據(jù)并行的FPGA效率會高很多。目前,浪潮已經(jīng)推出面向WebP圖片轉碼、Gzip數(shù)據(jù)壓縮和深度學習等方向的完整解決方案,能夠實現(xiàn)10倍以上的圖片壓縮吞吐能力,8-10倍的數(shù)據(jù)壓縮效率和10倍以上的圖片分類識別能效比。

關鍵詞: AI




AI人工智能網(wǎng)聲明:

凡資訊來源注明為其他媒體來源的信息,均為轉載自其他媒體,并不代表本網(wǎng)站贊同其觀點,也不代表本網(wǎng)站對其真實性負責。您若對該文章內容有任何疑問或質疑,請立即與網(wǎng)站(www.gzlyhb.com)聯(lián)系,本網(wǎng)站將迅速給您回應并做處理。


聯(lián)系電話:021-31666777   新聞、技術文章投稿QQ:3267146135   投稿郵箱:syy@gongboshi.com

工博士人工智能網(wǎng)
商城
服務機器人
智能設備
協(xié)作機器人
智慧場景
AI資訊
人工智能
智能機器人
智慧城市
智慧農業(yè)
視頻
工業(yè)機器人
教育機器人
清潔機器人
迎賓機器人
資料下載
服務機器人
工博士方案
品牌匯
引導接待機器人
配送機器人
酒店服務機器人
教育教學機器人
產(chǎn)品/服務
服務機器人
工業(yè)機器人
機器人零部件
智能解決方案
掃描二維碼關注微信
?掃碼反饋

掃一掃,反饋當前頁面

咨詢反饋
掃碼關注

微信公眾號

返回頂部