原始文章

這篇論文探討了一種創新的壓縮大型語言模型(LLMs)的方法,以降低其計算需求和環境影響。主要技術包括: 1. **前向傳播剪枝(FPP)**:透過凍結和將未使用的參數設為零,減少嵌入層和前饋層的可訓練參數,提升訓練和收斂速度。 2. **權重矩陣折疊**:利用相同列壓縮和對角權重壓縮,修剪自注意力層的查詢和鍵矩陣,增強模型一致性和性能。 測試結果顯示,變壓器層減少99%,整體模型壓縮約70%,同時保持相似準確性,顯著降低記憶體使用和計算需求,促進人工智慧的可持續發展。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)的環境影響引發了不同看法。一些研究指出,訓練和使用LLMs會產生顯著的碳足跡,而另一些則認為LLMs可能比傳統方法更可持續。我們的分析顯示,儘管LLMs對環境有影響,但在美國,它們的效率可能高於人力勞動。經濟考量可能促使人類與LLMs共同工作,而非單純取代。隨著LLMs規模增長,能源消耗可能上升,這凸顯了持續研究以確保其可持續性的重要性。 PubMed DOI

大型語言模型(LLMs)在各領域表現出色,但其龐大的參數數量帶來了可擴展性挑戰,如高訓練成本和能量消耗。本文探討「專家混合」(MoEs)網路,透過條件計算來管理計算需求,並保持大量參數。重點在於將MoEs應用於基於三維非揮發性記憶體的類比內存計算硬體上,解決傳統模型的瓶頸。模擬結果顯示,MoEs的條件計算機制能降低推理成本,提升可及性和能量效率。 PubMed DOI

LLaMA系列語言模型,特別是最新的LLaMA3,因其在多項任務上的優異表現而受到矚目,這得益於其在超過15兆個標記上的預訓練。隨著低位元量化在資源有限環境中的重要性增加,本研究探討了LLaMA3在1-8位元量化下的表現。研究評估了十種後訓練量化和LoRA微調方法,並檢視了LLaVA-Next-8B模型在超低位元(2-4位元)下的效果。結果顯示,低位元量化會顯著影響模型性能,特別是在超低位元情況下,突顯未來模型開發需解決的性能差距。 PubMed DOI

這項研究首次探討大型語言模型(LLMs)在環境決策中的應用,分析其潛在優勢與限制。研究提出兩個框架:一是LLMs輔助的框架,增強人類專業知識;二是LLMs驅動的框架,自動化優化任務。透過水工程中PFAS控制的案例,顯示這兩個框架在環境決策中的優化效果。結果顯示,LLMs輔助框架在調節流量和改善PFAS攔截上表現良好,而LLMs驅動框架在複雜參數優化上則面臨挑戰。研究強調人工智慧應輔助而非取代人類專業知識,為未來的合作奠定基礎。 PubMed DOI

這篇文章介紹了一種新型的Transformer架構,旨在優化自然語言理解模型在延遲、功耗和準確性之間的平衡。透過自適應調整推理計算成本,模型能根據所需的延遲進行加速。在微調階段,使用一種新指標「注意力上下文貢獻」來識別並移除不重要的詞向量。實驗顯示,移除上層的詞向量能顯著提升推理速度,且對整體性能影響輕微。這種方法使Llama3模型的首次標記時間提升了2.9倍,性能僅輕微下降,顯示出其有效性。 PubMed DOI

這篇文章介紹了一種新型的稀疏變壓器架構,稱為2-D變壓器(2D-former),旨在提升大型語言模型(LLMs)處理長上下文的能力,同時減少GPU記憶體的使用。2D-former透過2-D注意力機制,結合長距離信息壓縮器(LDIC)和區塊注意力(BA)機制,有效捕捉長距離信息。這使得LLaMA2 7B模型的上下文長度可擴展至32k個標記,且只需少量額外參數。實驗顯示,2D-former在長短上下文任務上表現優異,且資源消耗較低。 PubMed DOI

通用大型模型的興起讓各行各業開始開發專門的模型,但在訓練和推理時面臨時間、勞力、記憶體和計算能力的挑戰。為了解決這些問題,模型壓縮成為重要的研究方向。本文回顧了模型壓縮技術的演變,包括量化、剪枝、低秩分解和知識蒸餾等方法,並強調其核心原則和最新進展。這篇綜述為研究人員和實務工作者提供了高效模型部署的策略,並為未來的模型壓縮發展鋪路。 PubMed DOI

大型語言模型(LLMs)能理解和產生自然語言,正改變醫療、教育、金融等產業,提升效率和準確度。不過,LLMs也有倫理、偏見和高運算成本等問題。本文分析其發展、應用和限制,並探討未來趨勢。 PubMed DOI

作者提出 scPEFT 方法,透過在主模型參數凍結下加上小型可訓練 adapter,讓單細胞大型語言模型(scLLMs)能用很少資料和算力快速適應新任務,且不會忘記原本知識。scPEFT 在多種生物任務表現都比 zero-shot 和傳統微調好,特別適合資源有限的研究人員推廣使用。 PubMed DOI

作者發現,單純的VLMs在影像分類上表現比結合LLMs還好,但LLMs在需要推理或外部知識時有優勢。為此,他們提出一個輕量級的LLM router,能自動分配任務給最適合的模型。這方法用超過250萬組資料訓練,效果不輸GPT-4V等先進系統,且成本更低。 PubMed DOI