原始文章

這篇研究提出一款用28nm CMOS製程打造的低功耗光學收發器晶片組,特別適合AI、AR/VR等高頻寬需求。發射端用創新輸出級設計,能有效驅動VCSEL,能耗僅1.59 pJ/bit;接收端則採可變增益放大器,能耗1.06 pJ/bit。整體系統可達4 × 20 Gbps傳輸速率,總能效2.65 pJ/bit,成功降低光學互連的功耗問題。 PubMed DOI


站上相關主題文章列表

為了提升大型模型的訓練效率,低位元梯度通訊被用來壓縮全精度梯度,改善GPU之間的同步效率,但可能影響訓練質量。為了解決這個問題,我們引入了低位元通訊適配器(LoCo),在壓縮前調整梯度,提升同步效率並保持訓練質量。 LoCo透過歷史補償誤差的移動平均來準確估計和補償壓縮誤差,確保損失更小。它能與各種優化器和分片策略無縫合作。理論分析顯示,LoCo不會影響全精度優化器的收斂速度,實驗結果顯示在大型訓練框架中,LoCo顯著提升通訊效率,讓Adam的訓練速度提高14%到40%。 PubMed DOI

深度神經網絡(DNNs)如卷積神經網絡和變壓器模型的進展,雖然提升了人工智慧的應用能力,但也增加了計算和數據需求,對脈衝陣列加速器造成挑戰。傳統上,這些加速器採用擴大和擴展兩種策略,但無法同時達到高性能和能源效率。為了解決這個問題,我們提出了一種混合方法,結合兩者優勢,能在多租戶環境中優化DNN操作。實驗結果顯示,這種混合加速器能將能耗降低8%,吞吐量提高57%,相較於TPUv3表現更佳。 PubMed DOI

**重點摘要:** 大型語言模型(LLMs)可以協助非專業人士設計奈米光子元件,例如多層薄膜和超表面,透過對話互動來模擬光學反應並產生最佳化設計。將LLMs用相關資料進行微調後,能進一步提升它們依照需求產生設計的能力,讓奈米光子設計變得更快速、更容易上手。 PubMed DOI

這項研究開發出全新近感測邊緣運算(NSEC)硬體,利用雙層AlN/Si光子平台,能在裝置端即時又省電地跑AI。系統結合AlN微環共振器做特徵擷取,Si光子電路跑神經網路,手勢和步態辨識都很準,延遲超低(小於10奈秒)、能耗極省(小於0.34皮焦耳)。這突破傳統AI高耗能限制,對醫療穿戴、機器人等應用很有幫助,也更重視隱私。 PubMed DOI