原始文章

深度神經網絡(DNNs)如卷積神經網絡和變壓器模型的進展,雖然提升了人工智慧的應用能力,但也增加了計算和數據需求,對脈衝陣列加速器造成挑戰。傳統上,這些加速器採用擴大和擴展兩種策略,但無法同時達到高性能和能源效率。為了解決這個問題,我們提出了一種混合方法,結合兩者優勢,能在多租戶環境中優化DNN操作。實驗結果顯示,這種混合加速器能將能耗降低8%,吞吐量提高57%,相較於TPUv3表現更佳。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)在各領域表現出色,但其龐大的參數數量帶來了可擴展性挑戰,如高訓練成本和能量消耗。本文探討「專家混合」(MoEs)網路,透過條件計算來管理計算需求,並保持大量參數。重點在於將MoEs應用於基於三維非揮發性記憶體的類比內存計算硬體上,解決傳統模型的瓶頸。模擬結果顯示,MoEs的條件計算機制能降低推理成本,提升可及性和能量效率。 PubMed DOI

這篇論文探討深度學習中的整數化訓練挑戰,特別是低位元整數化權重與全精度潛在權重的依賴,導致高內存消耗。作者提出一種新穎的潛在權重量化方案,利用殘差量化技術來減少量化噪聲,並引入雙重量化器以保持訓練的無偏性。這種方法適用於多種架構,如ResNets和Transformers,並在圖像分類和文本生成任務中僅有輕微性能下降。此外,作者展示了在單個GPU上微調130億參數的大型語言模型的能力。 PubMed DOI

這篇文章介紹了一種新型的Transformer架構,旨在優化自然語言理解模型在延遲、功耗和準確性之間的平衡。透過自適應調整推理計算成本,模型能根據所需的延遲進行加速。在微調階段,使用一種新指標「注意力上下文貢獻」來識別並移除不重要的詞向量。實驗顯示,移除上層的詞向量能顯著提升推理速度,且對整體性能影響輕微。這種方法使Llama3模型的首次標記時間提升了2.9倍,性能僅輕微下降,顯示出其有效性。 PubMed DOI

這篇文章介紹了一種新型的稀疏變壓器架構,稱為2-D變壓器(2D-former),旨在提升大型語言模型(LLMs)處理長上下文的能力,同時減少GPU記憶體的使用。2D-former透過2-D注意力機制,結合長距離信息壓縮器(LDIC)和區塊注意力(BA)機制,有效捕捉長距離信息。這使得LLaMA2 7B模型的上下文長度可擴展至32k個標記,且只需少量額外參數。實驗顯示,2D-former在長短上下文任務上表現優異,且資源消耗較低。 PubMed DOI

這篇論文探討了一種創新的壓縮大型語言模型(LLMs)的方法,以降低其計算需求和環境影響。主要技術包括: 1. **前向傳播剪枝(FPP)**:透過凍結和將未使用的參數設為零,減少嵌入層和前饋層的可訓練參數,提升訓練和收斂速度。 2. **權重矩陣折疊**:利用相同列壓縮和對角權重壓縮,修剪自注意力層的查詢和鍵矩陣,增強模型一致性和性能。 測試結果顯示,變壓器層減少99%,整體模型壓縮約70%,同時保持相似準確性,顯著降低記憶體使用和計算需求,促進人工智慧的可持續發展。 PubMed DOI

PRIME 是一種模仿大腦運作的神經網路技術,結合脈衝神經網路和 memristor 硬體,能有效提升能源效率和適應力。它會根據輸入內容自動提早停止運算,減少延遲和運算量,同時維持準確度。跟傳統方法比,PRIME 更省電,也更能抵抗硬體雜訊。 PubMed DOI

LEMONADE是一套新框架,能根據使用者需求自動設計神經網路架構,特別適合邊緣AI場景(像是有限電力、體積和速度要求)。它結合專家系統和大型語言模型(如ChatGPT-4o),操作簡單,不用事先設定搜尋空間,還能考慮各種限制。實驗證明,LEMONADE設計的網路在多個資料集上表現優異,兼顧準確率和邊緣AI需求。 PubMed DOI

這項研究開發出全新近感測邊緣運算(NSEC)硬體,利用雙層AlN/Si光子平台,能在裝置端即時又省電地跑AI。系統結合AlN微環共振器做特徵擷取,Si光子電路跑神經網路,手勢和步態辨識都很準,延遲超低(小於10奈秒)、能耗極省(小於0.34皮焦耳)。這突破傳統AI高耗能限制,對醫療穿戴、機器人等應用很有幫助,也更重視隱私。 PubMed DOI

近年來,AI發展越來越仰賴大量資料和高運算資源,導致開發成本高、取得不易,也不太環保。Neurosymbolic AI 結合多種方法,用較少資料和資源,就能達到強大效果,是更永續的選擇。 PubMed DOI

這篇論文提出一個結合深度語境嵌入和CNN的混合模型,專門提升像LLaMA2這類大型語言模型在標準化中文文本處理的表現。新方法能同時抓住語意和結構特徵,讓中文NLP任務更準確又有效率,並在多項測試中表現優異,也有望應用在翻譯和情感分析等領域。 PubMed DOI