原始文章

這篇研究提出一款用28nm CMOS製程打造的低功耗光學收發器晶片組,特別適合AI、AR/VR等高頻寬需求。發射端用創新輸出級設計,能有效驅動VCSEL,能耗僅1.59 pJ/bit;接收端則採可變增益放大器,能耗1.06 pJ/bit。整體系統可達4 × 20 Gbps傳輸速率,總能效2.65 pJ/bit,成功降低光學互連的功耗問題。 PubMed DOI


站上相關主題文章列表

討論了大型AI模型和龐大數據的崛起,摩爾定律接近極限,需求替代計算,以及受到大腦啟發的神經形態計算潛力。透過光電子器件推動光子計算增長,實現低延遲和高並行性的超快AI神經網絡。檢視了神經形態光子AI加速器中的PCSEL激光等技術,提出創新途徑增強計算速度和能源效率。光子神經形態系統有望改變AI和科學計算。 PubMed DOI

大型語言模型(LLMs)因應用廣泛而受到重視,但其訓練和部署的計算需求也隨之增加。記憶電阻交叉陣列(memristor crossbars)因其小巧和高能效,成為解決方案,特別適合計算機視覺任務。然而,將LLMs部署在此技術上面臨三大挑戰:1. LLM增長超出記憶電阻晶片能力;2. 多頭注意力區塊需非靜態乘法,傳統技術無法處理;3. 複雜非線性運算表現不佳。為解決這些問題,我們提出新架構,能在單晶片上部署LLMs,測試顯示準確度損失極小,並顯著降低能量消耗。 PubMed DOI

Softmax 函數在統計學和深度學習中非常重要,但計算時資源消耗大,尤其是大型模型。雖然已有加速策略,但效率和可擴展性仍是挑戰。我們提出了一種光子計算解決方案,利用可編程神經元高效執行 Softmax 操作。實驗顯示,這種基於衍射的系統在多種任務中表現優異,均方誤差低於 10<sup>-5</sup>。此外,我們在現實條件下評估了系統性能,這種方法不僅提升了 Softmax 操作,還有助於開發通用光電加速器模組。 PubMed DOI

為了提升大型模型的訓練效率,低位元梯度通訊被用來壓縮全精度梯度,改善GPU之間的同步效率,但可能影響訓練質量。為了解決這個問題,我們引入了低位元通訊適配器(LoCo),在壓縮前調整梯度,提升同步效率並保持訓練質量。 LoCo透過歷史補償誤差的移動平均來準確估計和補償壓縮誤差,確保損失更小。它能與各種優化器和分片策略無縫合作。理論分析顯示,LoCo不會影響全精度優化器的收斂速度,實驗結果顯示在大型訓練框架中,LoCo顯著提升通訊效率,讓Adam的訓練速度提高14%到40%。 PubMed DOI

深度神經網絡(DNNs)如卷積神經網絡和變壓器模型的進展,雖然提升了人工智慧的應用能力,但也增加了計算和數據需求,對脈衝陣列加速器造成挑戰。傳統上,這些加速器採用擴大和擴展兩種策略,但無法同時達到高性能和能源效率。為了解決這個問題,我們提出了一種混合方法,結合兩者優勢,能在多租戶環境中優化DNN操作。實驗結果顯示,這種混合加速器能將能耗降低8%,吞吐量提高57%,相較於TPUv3表現更佳。 PubMed DOI

**重點摘要:** 大型語言模型(LLMs)可以協助非專業人士設計奈米光子元件,例如多層薄膜和超表面,透過對話互動來模擬光學反應並產生最佳化設計。將LLMs用相關資料進行微調後,能進一步提升它們依照需求產生設計的能力,讓奈米光子設計變得更快速、更容易上手。 PubMed DOI

這項研究開發出全新近感測邊緣運算(NSEC)硬體,利用雙層AlN/Si光子平台,能在裝置端即時又省電地跑AI。系統結合AlN微環共振器做特徵擷取,Si光子電路跑神經網路,手勢和步態辨識都很準,延遲超低(小於10奈秒)、能耗極省(小於0.34皮焦耳)。這突破傳統AI高耗能限制,對醫療穿戴、機器人等應用很有幫助,也更重視隱私。 PubMed DOI