發布日期:2022-10-09 點擊率:77
在過去的兩年里,為了滿足機器學習的需要,特別是深度神經網絡的需要,出現了一股對創新體系架構研究的熱潮。我們已經在《The Next Platform》中報道了無論是用于訓練側還是推理側的許多架構可選方案,并且正是因為所做的這些,我們開始注意到一個有趣的趨勢。一些面向機器學習市場定制 ASIC 的公司似乎都在沿著同一個思路進行開發——以存儲器作為處理的核心。
存儲器內處理(PIM)架構其實不是什么新東西,但是因為存儲器內相對簡單的邏輯單元很好地迎合了神經網絡的訓練需求(特別是卷積網絡),所以存儲器正變成未來下一個平臺。我們已經介紹過了很多公司的深度學習芯片,比如 Nervana Systems(2016 年被英特爾收購)和 Wave Computing,以及其它有望碾壓 AlexNet 等 benchmark 的新架構,存儲器都是其性能與效率的關鍵驅動因素。
今天,我們還要為這種存儲器驅動的深度學習體系架構家族再介紹一個新成員。那就是 Neurostream,它由博洛尼亞大學提出,在某些方面與 Nervana、Wave、以及其它采用下一代存儲器(比如 Hybrid Memory Cube (HMC) 和 High Bandwidth Memory (HBM))的深度學習架構很相似。而且該架構還提供了一種新思路,可以進一步深入了解我們剛才提到的那些公司是如何設計深度學習架構的。在過去的介紹里,我們已經從 Nervana、Wave 等發布的架構中提取出了一些設計細節,而這次架構的設計團隊為我們帶來了有關為什么存儲器驅動型設備將會成為未來深度學習定制硬件主流更深入的見解。
“雖然卷積神經網絡是計算密集型算法,但它們的可擴展性和能量效率被主存儲器極大地限制住了,而這些網絡中的參數和通道都比較大,所以都需要存儲在主存中。鑒于上述原因,僅僅改進卷積網絡加速器的性能和效率而不考慮主存儲器的瓶頸將會是一個錯誤的設計決策。”
Neurostream 把它的存儲器內處理方法用在擴展卷積神經網絡上。該設計采用了一種 Hybrid Memory Cube 的變種,他們稱之為“Smart Memory Cubes”。“Smart Memory Cubes”增強了被稱為 NeuroCluster 的多核 PIM 平臺。NeuroCluster 采用了基于 NeuroStream 浮點協處理器(面向卷積密集型計算)和通用處理器 RISC-V 的模塊化設計。他們同樣也提到了一種易于 DRAM 陣列化的機制及其可擴展的編程環境。該架構最吸引人的地方在于它用僅占晶片面積 8% 的 HMC 獲得了 240GFLOPS 的性能,而其總功耗僅為 2.5 瓦。
“該平臺能夠以較小的系統功耗使得卷積神經網絡計算任務能完全下放到存儲器組中。這意味著主 SoC 中的計算邏輯能夠被釋放出來干其它事。而且,相對于一個基本 HMC 系統,其額外的開銷幾乎可以忽略不計。”
該設計團隊正在大肆宣傳其 Neurostream 架構的每瓦特性能指數。“在單個三維堆疊封裝中我們達到了每瓦特 22.5GFLOPS(每秒浮點計算數 22.5G 次)的計算能量效率,這是當前能買到最好 GPU 性能的 5 倍以上。”他們同樣提到“少量的系統級功耗升高和可以忽略不計的面積增長使得該 PIM 系統成為一種既節約成本又高效利用能量的解決方案,通過一個連接 4 個 SMC 的網絡,其可以輕松擴展到 955 GFLOPS。”他們用來對比的 GPU 是 Nvidia Tesla K40,該 GPU 在 235 瓦功率下可以達到 1092 GFLOPS 的處理速度。“Neuro 陣列可以在 42.8 瓦達到 955GFLOPS,且超過了其對手 4.8 倍的能量使用效率,”該團隊同時評論說,由于降低了對串行鏈路的需求,該架構還可以擴展至更多節點。
Neurostream 的創造者們期望通過進行一些面向應用的調優和降低算術計算精度的方法來使它的能效對比獲得進一步增長。就像他們著重提到的,“降低計算精度有望使功耗降低達 70%。”在他們的下一次改進里,他們將著重在硅片上實現帶有四個 NeuroClusters 的架構,這將使它能夠監控其自身是如何反向傳播和訓練的。
我們已經介紹過了許多協處理器、ASIC、GPU、以及采用針對深度學習框架進行額外軟件優化的 x86 處理器的性能和效率的 benchmark 比分。盡管我們對這些都半信半疑,盡我們可能地去對比,但時間最終會告訴我們哪種體系架構會最終勝出。這里想說的不在于 benchmark 比分,而在于體系結構本身。Neuro 陣列就像 Nervana、Wave、以及其它方法一樣,都把 HMC 和 HBM 用到了極致——利用有限的存儲器內處理能力,結果已經差不多能很好地處理卷積神經網絡的計算了。
不僅如此,對該類架構的更深入觀察,還能幫助我們更好地評估我們提到的機器學習芯片初創公司正在做的事。我們期待經過初創公司和學術研究的共同努力,2017 年將開辟設計許多在深度學習框架領域內的存儲器驅動型處理器。
下一篇: PLC、DCS、FCS三大控
上一篇: 索爾維全系列Solef?PV