Blockwise compression of transformer-based models without retraining.
不需重新訓練的基於Transformer模型的分塊壓縮。 Neural Netw 2024-02-06

Transformer模型如GPT-3、ChatGPT和GPT-4在語言任務表現優秀但需要大量計算資源。BCT方法能在不重新訓練的情況下壓縮transformers，達到7.988倍的壓縮率。BCT以區塊方式運作，避免準確性下降和重新訓練的困擾。實驗結果顯示，BCT在GLUE數據集上表現良好，準確度僅下降不到0.9%。 PubMed DOI

A Survey on Deep Neural Network Pruning: Taxonomy, Comparison, Analysis, and Recommendations.
深度神經網絡剪枝的調查：分類、比較、分析與建議。 IEEE Trans Pattern Anal Mach Intell 2024-08-21

這份調查報告全面回顧了深度神經網絡的剪枝技術，針對資源有限環境中模型壓縮的需求進行探討。研究分為四大領域：通用/特定加速、剪枝時機、剪枝方法，以及剪枝與其他壓縮技術的整合。報告還詳細比較了各種剪枝設置，並探討了大型語言模型和視覺變壓器的剪枝等新興主題。此外，提供了選擇剪枝方法的建議及未來研究方向。作者們還建立了一個資料庫，定期更新與剪枝相關的最新進展，網址為 https://github.com/hrcheng1066/awesome-pruning。 PubMed DOI

Optimal Large Language Model Characteristics to Balance Accuracy and Energy Use for Sustainable Medical Applications.
平衡準確性與能源使用以實現可持續醫療應用的最佳大型語言模型特徵。 Radiology 2024-08-27

這項研究探討大型語言模型（LLMs）在醫療應用中的準確性與能耗之間的平衡，特別分析了Meta的Llama 2和LMSYS Org的Vicuna 1.5。研究使用印第安納大學的胸部X光影像資料庫，發現Vicuna 1.5在效率和準確率上表現優於Llama 2。Llama 2的70B模型能耗是7B版本的七倍，但準確率卻較低，效率比僅22.30。結論指出，較小且經過微調的LLMs在醫療應用中更具可持續性，強調選擇模型的重要性，需平衡性能與環境影響。 PubMed DOI

Enabling Energy-Efficient Deployment of Large Language Models on Memristor Crossbar: A Synergy of Large and Small.
在 Memristor Crossbar 上實現大型語言模型的能源效率部署：大與小的協同作用。 IEEE Trans Pattern Anal Mach Intell 2024-10-18

大型語言模型（LLMs）因應用廣泛而受到重視，但其訓練和部署的計算需求也隨之增加。記憶電阻交叉陣列（memristor crossbars）因其小巧和高能效，成為解決方案，特別適合計算機視覺任務。然而，將LLMs部署在此技術上面臨三大挑戰：1. LLM增長超出記憶電阻晶片能力；2. 多頭注意力區塊需非靜態乘法，傳統技術無法處理；3. 複雜非線性運算表現不佳。為解決這些問題，我們提出新架構，能在單晶片上部署LLMs，測試顯示準確度損失極小，並顯著降低能量消耗。 PubMed DOI

Efficiency at scale: Investigating the performance of diminutive language models in clinical tasks.
規模效益：探討小型語言模型在臨床任務中的表現。 Artif Intell Med 2024-10-29

大型語言模型（LLMs）在研究和商業應用中越來越受重視，現在的趨勢是使用參數高效微調（PEFT）方法來開發較小的專用模型，而不需完全微調。研究發現，LoRA在各種任務中表現優異，常與完全微調的模型相當，顯示PEFT方法在臨床決策中有效，特別適合低成本運算。小型模型的優勢如快速處理和低訓練成本，超越大型LLMs的性能。此外，領域特定的預訓練對小型模型也相當重要。完整代碼可在GitHub上找到。 PubMed DOI

Reconciling the contrasting narratives on the environmental impact of large language models.
調和大型語言模型對環境影響的對立敘事。 Sci Rep 2024-11-02

大型語言模型（LLMs）的環境影響引發了不同看法。一些研究指出，訓練和使用LLMs會產生顯著的碳足跡，而另一些則認為LLMs可能比傳統方法更可持續。我們的分析顯示，儘管LLMs對環境有影響，但在美國，它們的效率可能高於人力勞動。經濟考量可能促使人類與LLMs共同工作，而非單純取代。隨著LLMs規模增長，能源消耗可能上升，這凸顯了持續研究以確保其可持續性的重要性。 PubMed DOI

Environmental impact of large language models in medicine.
大型語言模型在醫學中的環境影響。 Intern Med J 2024-11-14

為了降低自然語言算法在臨床研究中的環境影響，我們提出五個步驟： 1. **選擇節能模型**：使用經過優化的高效模型，考慮微調現有模型以節省能源。 2. **可持續基礎設施**：選擇使用可再生能源的雲端服務，與可持續供應商合作，減少碳足跡。 3. **優化訓練過程**：採用混合精度訓練等技術，降低計算資源需求，減少能源消耗。 4. **監測環境影響**：建立指標追蹤碳排放和資源使用，定期向利益相關者報告。 5. **促進合作**：與研究社群分享最佳實踐，推動可持續AI政策。這些步驟能幫助臨床研究人員減少大型語言模型的環境影響。 PubMed DOI

Latency Adjustable Transformer Encoder for Language Understanding.
可調延遲變壓器編碼器在語言理解中的應用。 IEEE Trans Neural Netw Learn Syst 2025-03-03

這篇文章介紹了一種新型的Transformer架構，旨在優化自然語言理解模型在延遲、功耗和準確性之間的平衡。透過自適應調整推理計算成本，模型能根據所需的延遲進行加速。在微調階段，使用一種新指標「注意力上下文貢獻」來識別並移除不重要的詞向量。實驗顯示，移除上層的詞向量能顯著提升推理速度，且對整體性能影響輕微。這種方法使Llama3模型的首次標記時間提升了2.9倍，性能僅輕微下降，顯示出其有效性。 PubMed DOI

2-D Transformer: Extending Large Language Models to Long-Context With Few Memory.
2-D Transformer：擴展大型語言模型以應對長上下文與少量記憶。 IEEE Trans Neural Netw Learn Syst 2025-03-21

這篇文章介紹了一種新型的稀疏變壓器架構，稱為2-D變壓器（2D-former），旨在提升大型語言模型（LLMs）處理長上下文的能力，同時減少GPU記憶體的使用。2D-former透過2-D注意力機制，結合長距離信息壓縮器（LDIC）和區塊注意力（BA）機制，有效捕捉長距離信息。這使得LLaMA2 7B模型的上下文長度可擴展至32k個標記，且只需少量額外參數。實驗顯示，2D-former在長短上下文任務上表現優異，且資源消耗較低。 PubMed DOI

A survey of model compression techniques: past, present, and future.
模型壓縮技術的調查：過去、現在與未來。 Front Robot AI 2025-04-04

通用大型模型的興起讓各行各業開始開發專門的模型，但在訓練和推理時面臨時間、勞力、記憶體和計算能力的挑戰。為了解決這些問題，模型壓縮成為重要的研究方向。本文回顧了模型壓縮技術的演變，包括量化、剪枝、低秩分解和知識蒸餾等方法，並強調其核心原則和最新進展。這篇綜述為研究人員和實務工作者提供了高效模型部署的策略，並為未來的模型壓縮發展鋪路。 PubMed DOI

原始文章

站上相關主題文章列表