原始文章

這項研究探討大型語言模型(LLMs)的訓練後參數量化,提出了一種新方法「不一致處理量化」(QuIP)。QuIP 的重點在於,當權重和 Hessian 矩陣不一致時,量化效果更佳,這表示權重大小均勻且重要的四捨五入方向與坐標軸不對齊。QuIP 包含兩個步驟:自適應四捨五入過程和高效的前後處理,能透過隨機正交矩陣確保不一致性。研究顯示,QuIP 增強了現有量化算法,僅用兩位數就能達到有效結果,程式碼已在 GitHub 上公開。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)因應用廣泛而受到重視,但其訓練和部署的計算需求也隨之增加。記憶電阻交叉陣列(memristor crossbars)因其小巧和高能效,成為解決方案,特別適合計算機視覺任務。然而,將LLMs部署在此技術上面臨三大挑戰:1. LLM增長超出記憶電阻晶片能力;2. 多頭注意力區塊需非靜態乘法,傳統技術無法處理;3. 複雜非線性運算表現不佳。為解決這些問題,我們提出新架構,能在單晶片上部署LLMs,測試顯示準確度損失極小,並顯著降低能量消耗。 PubMed DOI

大型語言模型(LLMs)在研究和商業應用中越來越受重視,現在的趨勢是使用參數高效微調(PEFT)方法來開發較小的專用模型,而不需完全微調。研究發現,LoRA在各種任務中表現優異,常與完全微調的模型相當,顯示PEFT方法在臨床決策中有效,特別適合低成本運算。小型模型的優勢如快速處理和低訓練成本,超越大型LLMs的性能。此外,領域特定的預訓練對小型模型也相當重要。完整代碼可在GitHub上找到。 PubMed DOI

這項研究探討如何提升大型語言模型(LLMs)在處理表格數據的表現,重點在三個策略:小數截斷、多數據集混合和隨機排列JSON鍵值對。結果顯示,小數截斷能減少噪音,提高學習效率;混合數據集增強模型的泛化能力和穩定性;隨機排列鍵值對則提升模型對不同數據結構的適應性。這些策略顯著改善了LLMs的穩健性和有效性,為未來的研究提供了重要的見解和方法。 PubMed DOI

大型語言模型(LLMs)在各領域表現出色,但其龐大的參數數量帶來了可擴展性挑戰,如高訓練成本和能量消耗。本文探討「專家混合」(MoEs)網路,透過條件計算來管理計算需求,並保持大量參數。重點在於將MoEs應用於基於三維非揮發性記憶體的類比內存計算硬體上,解決傳統模型的瓶頸。模擬結果顯示,MoEs的條件計算機制能降低推理成本,提升可及性和能量效率。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)來提升自然語言處理中的文本相似性理解。研究中,微調後的LLaMA模型(70億參數)在F1分數上達到84.9%,超越了先前的Siamese卷積神經網絡(82.02%)。此外,700億參數的LLaMA3.1模型也表現不俗,F1分數為74.4%。這顯示微調LLMs對特定任務的有效性,並建議可應用於履歷與職位匹配及學術投稿審稿人識別等領域。 PubMed DOI

LLaMA系列語言模型,特別是最新的LLaMA3,因其在多項任務上的優異表現而受到矚目,這得益於其在超過15兆個標記上的預訓練。隨著低位元量化在資源有限環境中的重要性增加,本研究探討了LLaMA3在1-8位元量化下的表現。研究評估了十種後訓練量化和LoRA微調方法,並檢視了LLaVA-Next-8B模型在超低位元(2-4位元)下的效果。結果顯示,低位元量化會顯著影響模型性能,特別是在超低位元情況下,突顯未來模型開發需解決的性能差距。 PubMed DOI

這篇論文探討深度學習中的整數化訓練挑戰,特別是低位元整數化權重與全精度潛在權重的依賴,導致高內存消耗。作者提出一種新穎的潛在權重量化方案,利用殘差量化技術來減少量化噪聲,並引入雙重量化器以保持訓練的無偏性。這種方法適用於多種架構,如ResNets和Transformers,並在圖像分類和文本生成任務中僅有輕微性能下降。此外,作者展示了在單個GPU上微調130億參數的大型語言模型的能力。 PubMed DOI

為了提升大型模型的訓練效率,低位元梯度通訊被用來壓縮全精度梯度,改善GPU之間的同步效率,但可能影響訓練質量。為了解決這個問題,我們引入了低位元通訊適配器(LoCo),在壓縮前調整梯度,提升同步效率並保持訓練質量。 LoCo透過歷史補償誤差的移動平均來準確估計和補償壓縮誤差,確保損失更小。它能與各種優化器和分片策略無縫合作。理論分析顯示,LoCo不會影響全精度優化器的收斂速度,實驗結果顯示在大型訓練框架中,LoCo顯著提升通訊效率,讓Adam的訓練速度提高14%到40%。 PubMed DOI

這篇論文探討了一種創新的壓縮大型語言模型(LLMs)的方法,以降低其計算需求和環境影響。主要技術包括: 1. **前向傳播剪枝(FPP)**:透過凍結和將未使用的參數設為零,減少嵌入層和前饋層的可訓練參數,提升訓練和收斂速度。 2. **權重矩陣折疊**:利用相同列壓縮和對角權重壓縮,修剪自注意力層的查詢和鍵矩陣,增強模型一致性和性能。 測試結果顯示,變壓器層減少99%,整體模型壓縮約70%,同時保持相似準確性,顯著降低記憶體使用和計算需求,促進人工智慧的可持續發展。 PubMed DOI

通用大型模型的興起讓各行各業開始開發專門的模型,但在訓練和推理時面臨時間、勞力、記憶體和計算能力的挑戰。為了解決這些問題,模型壓縮成為重要的研究方向。本文回顧了模型壓縮技術的演變,包括量化、剪枝、低秩分解和知識蒸餾等方法,並強調其核心原則和最新進展。這篇綜述為研究人員和實務工作者提供了高效模型部署的策略,並為未來的模型壓縮發展鋪路。 PubMed DOI