原始文章

這篇文章介紹了一種新型的稀疏變壓器架構,稱為2-D變壓器(2D-former),旨在提升大型語言模型(LLMs)處理長上下文的能力,同時減少GPU記憶體的使用。2D-former透過2-D注意力機制,結合長距離信息壓縮器(LDIC)和區塊注意力(BA)機制,有效捕捉長距離信息。這使得LLaMA2 7B模型的上下文長度可擴展至32k個標記,且只需少量額外參數。實驗顯示,2D-former在長短上下文任務上表現優異,且資源消耗較低。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)在各領域表現出色,但其龐大的參數數量帶來了可擴展性挑戰,如高訓練成本和能量消耗。本文探討「專家混合」(MoEs)網路,透過條件計算來管理計算需求,並保持大量參數。重點在於將MoEs應用於基於三維非揮發性記憶體的類比內存計算硬體上,解決傳統模型的瓶頸。模擬結果顯示,MoEs的條件計算機制能降低推理成本,提升可及性和能量效率。 PubMed DOI

LLaMA系列語言模型,特別是最新的LLaMA3,因其在多項任務上的優異表現而受到矚目,這得益於其在超過15兆個標記上的預訓練。隨著低位元量化在資源有限環境中的重要性增加,本研究探討了LLaMA3在1-8位元量化下的表現。研究評估了十種後訓練量化和LoRA微調方法,並檢視了LLaVA-Next-8B模型在超低位元(2-4位元)下的效果。結果顯示,低位元量化會顯著影響模型性能,特別是在超低位元情況下,突顯未來模型開發需解決的性能差距。 PubMed DOI

大型語言模型(LLMs)對醫療保健,特別是醫學影像領域,將帶來重大影響。隨著它們發展成能處理文本與影像的多模態模型(LMMs),醫生了解這些技術的基本概念變得相當重要,以便能有效且負責任地使用。文章介紹了標記嵌入、變壓器網絡、自我監督預訓練和微調等基本原則,並深入探討LMMs的技術創建過程及其在醫學影像中的應用。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)來進行大規模的人類記憶實驗,特別是針對自然敘事的分析。研究發現,隨著敘事長度增加,記憶表現會改善,但參與者常常只會總結長敘事,而非回憶具體細節。當敘事順序被打亂時,回憶表現顯著下降,但識別表現穩定,顯示參與者仍能根據理解重建故事。研究還利用LLM生成的文本嵌入來測量敘事的語義相似度,與回憶可能性有強相關性,顯示LLMs在記憶研究中的潛力。 PubMed DOI

這篇文章介紹了一種新型的Transformer架構,旨在優化自然語言理解模型在延遲、功耗和準確性之間的平衡。透過自適應調整推理計算成本,模型能根據所需的延遲進行加速。在微調階段,使用一種新指標「注意力上下文貢獻」來識別並移除不重要的詞向量。實驗顯示,移除上層的詞向量能顯著提升推理速度,且對整體性能影響輕微。這種方法使Llama3模型的首次標記時間提升了2.9倍,性能僅輕微下降,顯示出其有效性。 PubMed DOI

這篇文章探討大型語言模型(LLMs),特別是生成預訓練變壓器(GPTs)在醫學和放射學的影響。重點在於優化技術,如提示工程和微調,以提升模型的準確性,讓像GPT-4這樣的模型能適應特定任務。儘管這些模型潛力無窮,文章也指出實施過程中的挑戰,包括複雜性、幻覺、偏見和安全風險等問題。作者希望為放射科醫師提供LLMs的基礎知識和最佳實踐,並探討這些技術在放射學中的應用及其限制。 PubMed DOI

大型語言模型(LLMs)如ChatGPT已經改變了人機互動和語言分析。這些模型基於自然語言處理和機器學習的進步,特別是變壓器模型的引入,能更有效理解上下文。 LLMs的訓練過程分為預訓練和監督式微調,讓模型學習語法和推理能力。然而,它們也有缺陷,常生成聽起來合理但不正確的資訊,可能誤導使用者。因此,在使用LLMs時,特別是在敏感領域如放射學,必須謹慎評估其輸出。 PubMed DOI

這篇論文探討了一種創新的壓縮大型語言模型(LLMs)的方法,以降低其計算需求和環境影響。主要技術包括: 1. **前向傳播剪枝(FPP)**:透過凍結和將未使用的參數設為零,減少嵌入層和前饋層的可訓練參數,提升訓練和收斂速度。 2. **權重矩陣折疊**:利用相同列壓縮和對角權重壓縮,修剪自注意力層的查詢和鍵矩陣,增強模型一致性和性能。 測試結果顯示,變壓器層減少99%,整體模型壓縮約70%,同時保持相似準確性,顯著降低記憶體使用和計算需求,促進人工智慧的可持續發展。 PubMed DOI

大型語言模型(LLMs)是先進的人工智慧系統,透過預測單詞序列來生成文本,改變了人機互動的方式。像ChatGPT和Claude等產品能與使用者進行複雜對話。微調則是針對特定數據集進一步訓練預訓練的LLM,以適應特定任務或領域。這篇評論探討了微調的各種方法,概述了一般步驟,並提供醫學子專科的例子,最後討論了微調LLM在醫學領域的優點與限制。 PubMed DOI

這篇論文提出一個結合深度語境嵌入和CNN的混合模型,專門提升像LLaMA2這類大型語言模型在標準化中文文本處理的表現。新方法能同時抓住語意和結構特徵,讓中文NLP任務更準確又有效率,並在多項測試中表現優異,也有望應用在翻譯和情感分析等領域。 PubMed DOI