原始文章

LLaMA系列語言模型,特別是最新的LLaMA3,因其在多項任務上的優異表現而受到矚目,這得益於其在超過15兆個標記上的預訓練。隨著低位元量化在資源有限環境中的重要性增加,本研究探討了LLaMA3在1-8位元量化下的表現。研究評估了十種後訓練量化和LoRA微調方法,並檢視了LLaVA-Next-8B模型在超低位元(2-4位元)下的效果。結果顯示,低位元量化會顯著影響模型性能,特別是在超低位元情況下,突顯未來模型開發需解決的性能差距。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)的環境影響引發了不同看法。一些研究指出,訓練和使用LLMs會產生顯著的碳足跡,而另一些則認為LLMs可能比傳統方法更可持續。我們的分析顯示,儘管LLMs對環境有影響,但在美國,它們的效率可能高於人力勞動。經濟考量可能促使人類與LLMs共同工作,而非單純取代。隨著LLMs規模增長,能源消耗可能上升,這凸顯了持續研究以確保其可持續性的重要性。 PubMed DOI

大型語言模型(LLMs)在各領域表現出色,但其龐大的參數數量帶來了可擴展性挑戰,如高訓練成本和能量消耗。本文探討「專家混合」(MoEs)網路,透過條件計算來管理計算需求,並保持大量參數。重點在於將MoEs應用於基於三維非揮發性記憶體的類比內存計算硬體上,解決傳統模型的瓶頸。模擬結果顯示,MoEs的條件計算機制能降低推理成本,提升可及性和能量效率。 PubMed DOI

這項研究探討如何利用大型語言模型(LLM)分析媒體對中國的態度,以香港的《東方日報》為例。研究強調分析媒體數據集對理解公眾意見的重要性,並指出傳統方法常忽略隱性態度。研究使用Martin和White的框架來分類態度,並運用Meta的開源Llama2(13b)模型進行分析,針對40,000條與中國相關的表達進行量化。結果顯示,LLM能有效識別顯性和隱性態度,準確率約80%,與人類編碼者相當。研究也討論了實施過程中的挑戰及其解決策略。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)來提升自然語言處理中的文本相似性理解。研究中,微調後的LLaMA模型(70億參數)在F1分數上達到84.9%,超越了先前的Siamese卷積神經網絡(82.02%)。此外,700億參數的LLaMA3.1模型也表現不俗,F1分數為74.4%。這顯示微調LLMs對特定任務的有效性,並建議可應用於履歷與職位匹配及學術投稿審稿人識別等領域。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是LLaMA模型在放射腫瘤學中生成醫師信件的應用,重點在隱私與效率。研究發現,未經微調的LLaMA模型效果不佳,但QLoRA演算法能在有限資源下進行有效微調,使模型學習相關資訊並生成符合機構風格的信件。結果顯示,8B LLaMA-3模型在生成摘要報告上表現優於13B LLaMA-2模型。醫師評估認為,微調後的模型能有效生成信件的基本內容,並在適當審查下具實際臨床價值。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在中國醫學教育CDLE考試中的表現。研究人員選擇並修訂了200道考題,並在三種情境下測試七個高效能的LLMs。結果顯示,Doubao-pro 32k和Qwen2-72b的準確性最高,分別達到81%和98%的最佳一致性比率。雖然模型之間的教學效果有顯著差異,但都能提供有效的教學內容。研究建議未來應進一步探討LLM輸出的可解釋性及減少醫學教育中不準確性的策略。 PubMed DOI

這項研究提出了一種方法,旨在為越南語這種低資源語言的醫療資訊創建訓練數據集,以微調大型語言模型(LLMs)。目的是改善醫療資訊的獲取,增強發展中國家的醫療溝通。研究過程中,選擇基礎模型並彙編約337,000對提示-回應對,使用低秩適應技術進行微調。微調後的模型在多項指標上表現優於基礎模型,顯示出其在越南語健康查詢中的潛力。雖然本地部署可提升數據隱私,但高計算需求和成本仍是挑戰,研究呼籲關注醫療差距,促進全球健康公平。 PubMed DOI

這篇論文探討深度學習中的整數化訓練挑戰,特別是低位元整數化權重與全精度潛在權重的依賴,導致高內存消耗。作者提出一種新穎的潛在權重量化方案,利用殘差量化技術來減少量化噪聲,並引入雙重量化器以保持訓練的無偏性。這種方法適用於多種架構,如ResNets和Transformers,並在圖像分類和文本生成任務中僅有輕微性能下降。此外,作者展示了在單個GPU上微調130億參數的大型語言模型的能力。 PubMed DOI

為了提升大型模型的訓練效率,低位元梯度通訊被用來壓縮全精度梯度,改善GPU之間的同步效率,但可能影響訓練質量。為了解決這個問題,我們引入了低位元通訊適配器(LoCo),在壓縮前調整梯度,提升同步效率並保持訓練質量。 LoCo透過歷史補償誤差的移動平均來準確估計和補償壓縮誤差,確保損失更小。它能與各種優化器和分片策略無縫合作。理論分析顯示,LoCo不會影響全精度優化器的收斂速度,實驗結果顯示在大型訓練框架中,LoCo顯著提升通訊效率,讓Adam的訓練速度提高14%到40%。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI