Optimal Large Language Model Characteristics to Balance Accuracy and Energy Use for Sustainable Medical Applications.
平衡準確性與能源使用以實現可持續醫療應用的最佳大型語言模型特徵。 Radiology 2024-08-27

這項研究探討大型語言模型（LLMs）在醫療應用中的準確性與能耗之間的平衡，特別分析了Meta的Llama 2和LMSYS Org的Vicuna 1.5。研究使用印第安納大學的胸部X光影像資料庫，發現Vicuna 1.5在效率和準確率上表現優於Llama 2。Llama 2的70B模型能耗是7B版本的七倍，但準確率卻較低，效率比僅22.30。結論指出，較小且經過微調的LLMs在醫療應用中更具可持續性，強調選擇模型的重要性，需平衡性能與環境影響。 PubMed DOI

Efficiency at scale: Investigating the performance of diminutive language models in clinical tasks.
規模效益：探討小型語言模型在臨床任務中的表現。 Artif Intell Med 2024-10-29

大型語言模型（LLMs）在研究和商業應用中越來越受重視，現在的趨勢是使用參數高效微調（PEFT）方法來開發較小的專用模型，而不需完全微調。研究發現，LoRA在各種任務中表現優異，常與完全微調的模型相當，顯示PEFT方法在臨床決策中有效，特別適合低成本運算。小型模型的優勢如快速處理和低訓練成本，超越大型LLMs的性能。此外，領域特定的預訓練對小型模型也相當重要。完整代碼可在GitHub上找到。 PubMed DOI

Reconciling the contrasting narratives on the environmental impact of large language models.
調和大型語言模型對環境影響的對立敘事。 Sci Rep 2024-11-02

大型語言模型（LLMs）的環境影響引發了不同看法。一些研究指出，訓練和使用LLMs會產生顯著的碳足跡，而另一些則認為LLMs可能比傳統方法更可持續。我們的分析顯示，儘管LLMs對環境有影響，但在美國，它們的效率可能高於人力勞動。經濟考量可能促使人類與LLMs共同工作，而非單純取代。隨著LLMs規模增長，能源消耗可能上升，這凸顯了持續研究以確保其可持續性的重要性。 PubMed DOI

A strategy for cost-effective large language model use at health system-scale.
在健康系統規模上有效利用大型語言模型的成本策略。 NPJ Digit Med 2024-11-18

這項研究探討大型語言模型（LLMs）在優化醫療工作流程的應用，特別是面對經濟和計算挑戰。研究人員使用真實病患數據，評估了十種不同的LLM，進行超過30萬次實驗。結果顯示，隨著問題和臨床筆記數量增加，模型表現會下降。高容量模型如Llama-3-70b和GPT-4-turbo-128k能有效處理最多50個任務，但超過後表現下降。經濟分析指出，使用串接方式可在50個任務時實現高達17倍的成本降低，顯示LLM在臨床環境中的限制及提升成本效率的潛力。 PubMed DOI

Efficient scaling of large language models with mixture of experts and 3D analog in-memory computing.
大型語言模型的高效擴展：專家混合與3D類比內存計算。 Nat Comput Sci 2025-01-08

大型語言模型（LLMs）在各領域表現出色，但其龐大的參數數量帶來了可擴展性挑戰，如高訓練成本和能量消耗。本文探討「專家混合」（MoEs）網路，透過條件計算來管理計算需求，並保持大量參數。重點在於將MoEs應用於基於三維非揮發性記憶體的類比內存計算硬體上，解決傳統模型的瓶頸。模擬結果顯示，MoEs的條件計算機制能降低推理成本，提升可及性和能量效率。 PubMed DOI

An empirical study of LLaMA3 quantization: from LLMs to MLLMs.
LLaMA3 量化的實證研究：從 LLMs 到 MLLMs。 Vis Intell 2025-01-14

LLaMA系列語言模型，特別是最新的LLaMA3，因其在多項任務上的優異表現而受到矚目，這得益於其在超過15兆個標記上的預訓練。隨著低位元量化在資源有限環境中的重要性增加，本研究探討了LLaMA3在1-8位元量化下的表現。研究評估了十種後訓練量化和LoRA微調方法，並檢視了LLaVA-Next-8B模型在超低位元（2-4位元）下的效果。結果顯示，低位元量化會顯著影響模型性能，特別是在超低位元情況下，突顯未來模型開發需解決的性能差距。 PubMed DOI

Tiny Language Models for Automation and Control: Overview, Potential Applications, and Future Research Directions.
自動化與控制的小型語言模型：概述、潛在應用及未來研究方向。 Sensors (Basel) 2025-03-17

這篇論文全面探討微型語言模型（TLMs），這些模型是大型語言模型（LLMs）如GPT和BERT的緊湊替代品，專為資源有限的設備設計，如智慧型手機和物聯網系統。論文分析了TLMs的架構與方法，強調知識蒸餾、量化和剪枝等技術，提升效率與性能。還探討了TLMs在邊緣計算、工業自動化和醫療保健的應用，並面臨模型大小與準確性之間的權衡等挑戰。最後，建議未來研究方向，包括混合壓縮技術和針對特定硬體的上下文感知模型。 PubMed DOI

2-D Transformer: Extending Large Language Models to Long-Context With Few Memory.
2-D Transformer：擴展大型語言模型以應對長上下文與少量記憶。 IEEE Trans Neural Netw Learn Syst 2025-03-21

這篇文章介紹了一種新型的稀疏變壓器架構，稱為2-D變壓器（2D-former），旨在提升大型語言模型（LLMs）處理長上下文的能力，同時減少GPU記憶體的使用。2D-former透過2-D注意力機制，結合長距離信息壓縮器（LDIC）和區塊注意力（BA）機制，有效捕捉長距離信息。這使得LLaMA2 7B模型的上下文長度可擴展至32k個標記，且只需少量額外參數。實驗顯示，2D-former在長短上下文任務上表現優異，且資源消耗較低。 PubMed DOI

Efficient self-attention with smart pruning for sustainable large language models.
具智慧修剪的高效自注意力以支持可持續的大型語言模型。 Sci Rep 2025-03-25

這篇論文探討了一種創新的壓縮大型語言模型（LLMs）的方法，以降低其計算需求和環境影響。主要技術包括： 1. **前向傳播剪枝（FPP）**：透過凍結和將未使用的參數設為零，減少嵌入層和前饋層的可訓練參數，提升訓練和收斂速度。 2. **權重矩陣折疊**：利用相同列壓縮和對角權重壓縮，修剪自注意力層的查詢和鍵矩陣，增強模型一致性和性能。測試結果顯示，變壓器層減少99%，整體模型壓縮約70%，同時保持相似準確性，顯著降低記憶體使用和計算需求，促進人工智慧的可持續發展。 PubMed DOI

A Hybrid Scale-Up and Scale-Out Approach for Performance and Energy Efficiency Optimization in Systolic Array Accelerators.
針對收縮陣列加速器的性能和能量效率優化的混合擴展與擴展方法。 Micromachines (Basel) 2025-03-27

深度神經網絡（DNNs）如卷積神經網絡和變壓器模型的進展，雖然提升了人工智慧的應用能力，但也增加了計算和數據需求，對脈衝陣列加速器造成挑戰。傳統上，這些加速器採用擴大和擴展兩種策略，但無法同時達到高性能和能源效率。為了解決這個問題，我們提出了一種混合方法，結合兩者優勢，能在多租戶環境中優化DNN操作。實驗結果顯示，這種混合加速器能將能耗降低8%，吞吐量提高57%，相較於TPUv3表現更佳。 PubMed DOI

原始文章

站上相關主題文章列表