Nature:世界最快光子AI加速器

發(fā)布時間:

2021-01-20

瀏覽次數(shù):

人工神經(jīng)網(wǎng)絡廣泛應用于人臉識別、語音翻譯、醫(yī)療診斷、自動駕駛等重要領域,其性能主要由硬件算力決定,目前所廣泛應用的神經(jīng)網(wǎng)絡硬件都基于數(shù)字電子架構(gòu)。然而,該架構(gòu)的兩個本質(zhì)局限—馮諾曼依瓶頸與電子速率瓶頸,極大限制了神經(jīng)網(wǎng)絡硬件的潛在算力。首先,數(shù)字架構(gòu)中,數(shù)據(jù)的存儲和運算是分布式的,因而在計算過程中,會有大量的能源和算力消耗在數(shù)據(jù)的反復讀取和存儲中,此限制被稱為馮諾曼依瓶頸。其次,由于電子微處理器中的寄生電容和互聯(lián)時延問題,電子系統(tǒng)存在著本質(zhì)的帶寬限制,導致電子微處理器的主頻事實上在過去十年已沒有明顯提升,此限制也被稱為電子速率瓶頸。


Nature:世界最快光子AI加速器


光子神經(jīng)網(wǎng)絡工作于模擬架構(gòu)中,即數(shù)據(jù)在硬件系統(tǒng)中的實時位置與進行運算的位置相同,因而規(guī)避了馮諾曼依瓶頸。此外,寬達數(shù)十太赫茲的光譜也為高速運算提供了充足的帶寬。目前已有來自加州大學、麻省理工學院、明斯特大學等單位的研究團隊做出了一系列在網(wǎng)絡尺度、可集成性、片上存儲等方面的突破,然而尚未能實現(xiàn)較高運算速度與高維數(shù)據(jù)處理能力,光子神經(jīng)網(wǎng)絡的超高運算潛力尚未得到證實。


近日,澳大利亞研究人員徐興元博士(莫納什大學)、譚朦曦博士、David Moss教授(斯文本科技大學)、Arnan Mitchell教授(皇家墨爾本理工大學)等首次提出并實現(xiàn)了基于波長、時間交織的光子卷積加速器。該文章以'11 TOPS photonic convolutional accelerator for optical neural networks'為題發(fā)表在Nature。


Nature:世界最快光子AI加速器

封面圖:徐興元博士(莫納什大學)展示集成克爾光頻梳芯片

圖源:莫納什大學,徐興元


研究人員通過采用集成高品質(zhì)因素、高非線性微環(huán)與波導色散調(diào)控,實現(xiàn)了高相干度、易于產(chǎn)生的集成克爾孤子晶體光頻梳。


研究人員將該光頻梳進行頻域整形并且與高速光電調(diào)制相結(jié)合,實現(xiàn)了輸入數(shù)據(jù)在并行波長通道上的組播與加權,然后采用光學色散介質(zhì)作為緩存,對組播信號進行了步進延時(步長為單個碼元時長),從而在時域上對齊了不同波長通道中需要加權求和的碼元,最后通過光電轉(zhuǎn)換實現(xiàn)處理結(jié)果的高速實時讀?。ㄈ鐖D1所示)。通過這一系列步驟,波長構(gòu)架的卷積窗口(感知域)即可在時域以超過60GBaud的速率滑動,結(jié)合克爾光頻梳所實現(xiàn)的高并行度(C波段90個波長通道),實現(xiàn)了11 TOPS(太運算每秒)的運算速度,即每秒可完成11萬億次運算。


Nature:世界最快光子AI加速器

圖1卷積加速器工作原理

圖源:Nature 589, 44–51 (2021). Fig 1


通過這一系列步驟,數(shù)學模型抽象的神經(jīng)元突觸就被光頻梳在實際物理系統(tǒng)中實現(xiàn),其中突觸連接的權重由光頻梳的光功率體現(xiàn)。最終實驗驗證了高維圖片處理(實驗結(jié)果如圖2所示)以及深度學習光子卷積神經(jīng)網(wǎng)絡(實驗結(jié)果如圖3所示)。


Nature:世界最快光子AI加速器

圖2卷積圖像處理結(jié)果

圖源:Nature 589, 44–51 (2021). Fig 3


在國際相關研究成果的基礎上實現(xiàn)了數(shù)個突破,包括:


1、由于集成克爾光頻梳所提供的大量波長通道,運算速度首次突破到11 TOPS以上;


2、 首次實現(xiàn)了利用光學手段進行高維數(shù)據(jù)處理(25萬像素點),為光子神經(jīng)網(wǎng)絡的進一步實際應用如人臉識別等展現(xiàn)了可能;


3、實現(xiàn)了500張MINIST手寫數(shù)字圖片的高速分類預測,準確率達到88%以上;


4、實現(xiàn)了具備高速光電接口的硬件加速器,速度可達64G Baud以上,并且可與現(xiàn)有電子或者光學硬件兼容互聯(lián);


5、結(jié)合應用了集成克爾光頻梳,為實現(xiàn)光子神經(jīng)網(wǎng)絡的單片集成奠定了基礎。


Nature:世界最快光子AI加速器

圖3卷積神經(jīng)網(wǎng)絡50張手寫數(shù)字識別結(jié)果。上圖為全連接層神經(jīng)元輸出幅度,下圖為混淆矩陣。

圖源:Nature 589, 44–51 (2021). Fig 6


后續(xù),研究人員將繼續(xù)優(yōu)化本方案的性能指標,如處理速度、并行度、體積與可集成性、功耗等。本工作實驗證明了光子神經(jīng)網(wǎng)絡硬件的運算潛力,并且具有高速光電接口,未來可作為通用卷積特征提取前端與其他光電模數(shù)架構(gòu)互聯(lián),在卷積神經(jīng)網(wǎng)絡中可承擔70%以上的運算負荷,大幅提升系統(tǒng)整體算力,在未來實時人工智能應用場景如無人駕駛、醫(yī)療診斷等方面有重要應用。