Optimal Large Language Model Characteristics to Balance Accuracy and Energy Use for Sustainable Medical Applications.
平衡準確性與能源使用以實現可持續醫療應用的最佳大型語言模型特徵。 Radiology 2024-08-27

這項研究探討大型語言模型（LLMs）在醫療應用中的準確性與能耗之間的平衡，特別分析了Meta的Llama 2和LMSYS Org的Vicuna 1.5。研究使用印第安納大學的胸部X光影像資料庫，發現Vicuna 1.5在效率和準確率上表現優於Llama 2。Llama 2的70B模型能耗是7B版本的七倍，但準確率卻較低，效率比僅22.30。結論指出，較小且經過微調的LLMs在醫療應用中更具可持續性，強調選擇模型的重要性，需平衡性能與環境影響。 PubMed DOI

A LLM-Based Hybrid-Transformer Diagnosis System in Healthcare.
基於 LLM 的混合變壓器診斷系統在醫療保健中的應用。 IEEE J Biomed Health Inform 2024-10-16

這篇論文介紹了一個新開發的模型，叫做混合變壓器網絡（HybridTransNet），它結合了大型語言模型和計算機視覺技術，專注於醫學影像診斷，特別是腦腫瘤檢測。傳統的卷積神經網絡和遞歸神經網絡在處理深層編碼和下採樣時容易丟失細節。HybridTransNet透過變壓器機制有效處理多模態數據，並利用自注意力機制來恢復上下文資訊。實驗結果顯示，該模型在腦腫瘤診斷上表現優於現有方法，顯示出提升醫療資訊學的潛力。 PubMed DOI

Enabling Energy-Efficient Deployment of Large Language Models on Memristor Crossbar: A Synergy of Large and Small.
在 Memristor Crossbar 上實現大型語言模型的能源效率部署：大與小的協同作用。 IEEE Trans Pattern Anal Mach Intell 2024-10-18

大型語言模型（LLMs）因應用廣泛而受到重視，但其訓練和部署的計算需求也隨之增加。記憶電阻交叉陣列（memristor crossbars）因其小巧和高能效，成為解決方案，特別適合計算機視覺任務。然而，將LLMs部署在此技術上面臨三大挑戰：1. LLM增長超出記憶電阻晶片能力；2. 多頭注意力區塊需非靜態乘法，傳統技術無法處理；3. 複雜非線性運算表現不佳。為解決這些問題，我們提出新架構，能在單晶片上部署LLMs，測試顯示準確度損失極小，並顯著降低能量消耗。 PubMed DOI

Efficiency at scale: Investigating the performance of diminutive language models in clinical tasks.
規模效益：探討小型語言模型在臨床任務中的表現。 Artif Intell Med 2024-10-29

大型語言模型（LLMs）在研究和商業應用中越來越受重視，現在的趨勢是使用參數高效微調（PEFT）方法來開發較小的專用模型，而不需完全微調。研究發現，LoRA在各種任務中表現優異，常與完全微調的模型相當，顯示PEFT方法在臨床決策中有效，特別適合低成本運算。小型模型的優勢如快速處理和低訓練成本，超越大型LLMs的性能。此外，領域特定的預訓練對小型模型也相當重要。完整代碼可在GitHub上找到。 PubMed DOI

Optoelectronic nonlinear Softmax operator based on diffractive neural networks.
基於衍射神經網絡的光電子非線性 Softmax 運算子。 Opt Express 2024-11-14

Softmax 函數在統計學和深度學習中非常重要，但計算時資源消耗大，尤其是大型模型。雖然已有加速策略，但效率和可擴展性仍是挑戰。我們提出了一種光子計算解決方案，利用可編程神經元高效執行 Softmax 操作。實驗顯示，這種基於衍射的系統在多種任務中表現優異，均方誤差低於 10<sup>-5</sup>。此外，我們在現實條件下評估了系統性能，這種方法不僅提升了 Softmax 操作，還有助於開發通用光電加速器模組。 PubMed DOI

Efficient scaling of large language models with mixture of experts and 3D analog in-memory computing.
大型語言模型的高效擴展：專家混合與3D類比內存計算。 Nat Comput Sci 2025-01-08

大型語言模型（LLMs）在各領域表現出色，但其龐大的參數數量帶來了可擴展性挑戰，如高訓練成本和能量消耗。本文探討「專家混合」（MoEs）網路，透過條件計算來管理計算需求，並保持大量參數。重點在於將MoEs應用於基於三維非揮發性記憶體的類比內存計算硬體上，解決傳統模型的瓶頸。模擬結果顯示，MoEs的條件計算機制能降低推理成本，提升可及性和能量效率。 PubMed DOI

Latency Adjustable Transformer Encoder for Language Understanding.
可調延遲變壓器編碼器在語言理解中的應用。 IEEE Trans Neural Netw Learn Syst 2025-03-03

這篇文章介紹了一種新型的Transformer架構，旨在優化自然語言理解模型在延遲、功耗和準確性之間的平衡。透過自適應調整推理計算成本，模型能根據所需的延遲進行加速。在微調階段，使用一種新指標「注意力上下文貢獻」來識別並移除不重要的詞向量。實驗顯示，移除上層的詞向量能顯著提升推理速度，且對整體性能影響輕微。這種方法使Llama3模型的首次標記時間提升了2.9倍，性能僅輕微下降，顯示出其有效性。 PubMed DOI

2-D Transformer: Extending Large Language Models to Long-Context With Few Memory.
2-D Transformer：擴展大型語言模型以應對長上下文與少量記憶。 IEEE Trans Neural Netw Learn Syst 2025-03-21

這篇文章介紹了一種新型的稀疏變壓器架構，稱為2-D變壓器（2D-former），旨在提升大型語言模型（LLMs）處理長上下文的能力，同時減少GPU記憶體的使用。2D-former透過2-D注意力機制，結合長距離信息壓縮器（LDIC）和區塊注意力（BA）機制，有效捕捉長距離信息。這使得LLaMA2 7B模型的上下文長度可擴展至32k個標記，且只需少量額外參數。實驗顯示，2D-former在長短上下文任務上表現優異，且資源消耗較低。 PubMed DOI

Efficient self-attention with smart pruning for sustainable large language models.
具智慧修剪的高效自注意力以支持可持續的大型語言模型。 Sci Rep 2025-03-25

這篇論文探討了一種創新的壓縮大型語言模型（LLMs）的方法，以降低其計算需求和環境影響。主要技術包括： 1. **前向傳播剪枝（FPP）**：透過凍結和將未使用的參數設為零，減少嵌入層和前饋層的可訓練參數，提升訓練和收斂速度。 2. **權重矩陣折疊**：利用相同列壓縮和對角權重壓縮，修剪自注意力層的查詢和鍵矩陣，增強模型一致性和性能。測試結果顯示，變壓器層減少99%，整體模型壓縮約70%，同時保持相似準確性，顯著降低記憶體使用和計算需求，促進人工智慧的可持續發展。 PubMed DOI

Topology optimization of random memristors for input-aware dynamic SNN.
隨機 memristors 於輸入感知動態 SNN 的拓撲最佳化 Sci Adv 2025-04-16

PRIME 是一種模仿大腦運作的神經網路技術，結合脈衝神經網路和 memristor 硬體，能有效提升能源效率和適應力。它會根據輸入內容自動提早停止運算，減少延遲和運算量，同時維持準確度。跟傳統方法比，PRIME 更省電，也更能抵抗硬體雜訊。 PubMed DOI

原始文章

站上相關主題文章列表