原始文章

近年來,變壓器模型在深度學習中變得非常重要,並催生了許多高效技術,如微調和擴展。不過,這些策略的數學基礎常常不夠扎實。為了解決這個問題,我們提出了一個基於分佈回歸的變壓器學習框架,並將分佈作為輸入。我們引入了一種名為注意力運算子的數學表述,讓變壓器能在不損失信息的情況下壓縮分佈。研究顯示,這種變壓器能學習比傳統模型更複雜的泛函,並建立了與大型語言模型相關技術的理論基礎。 PubMed DOI


站上相關主題文章列表

這篇論文探討基於變壓器的大型語言模型(LLMs)在生成合成表格健康數據的有效性,並與生成對抗網絡(GANs)進行比較,這對遵循隱私法規的醫療研究非常重要。研究分析了Pythia LLM Scaling Suite,模型參數從1400萬到10億,結果顯示較大的LLM在性能上優於GAN,甚至最小的LLM也能達到相似效果。此外,訓練數據集大小與模型性能呈正相關。論文還討論了在醫療領域實施LLM的挑戰與考量。 PubMed DOI

這段文字探討變壓器網絡(像是ChatGPT)與大腦神經活動之間的相似之處。變壓器模型透過「自注意力」機制,從整個輸入中生成編碼向量,理解數據的長期依賴性。作者認為,大腦的神經波也可能以類似方式運作,捕捉感官輸入的歷史,提取時間上下文。這顯示出人工智慧模型與生物神經處理之間的平行關係。 PubMed DOI

這篇論文介紹了一個新開發的模型,叫做混合變壓器網絡(HybridTransNet),它結合了大型語言模型和計算機視覺技術,專注於醫學影像診斷,特別是腦腫瘤檢測。傳統的卷積神經網絡和遞歸神經網絡在處理深層編碼和下採樣時容易丟失細節。HybridTransNet透過變壓器機制有效處理多模態數據,並利用自注意力機制來恢復上下文資訊。實驗結果顯示,該模型在腦腫瘤診斷上表現優於現有方法,顯示出提升醫療資訊學的潛力。 PubMed DOI

最近的研究發現,將Transformer模型與條件策略結合,可以有效提升離線強化學習的表現。傳統強化學習是依序接收觀察,而Transformer則同時處理多個觀察,這可能影響特徵提取及決策的準確性。為了解決這些問題,我們利用預訓練模型的少量學習特性,並結合提示學習來改善即時政策調整。透過從離線數據中抽樣特定信息,我們能快速掌握任務特徵。實驗結果顯示,我們的方法在相關任務中表現優於基準,並提升了對新環境的泛化能力及決策的穩定性。 PubMed DOI

這項研究探討大型語言模型(如 GPT-4)如何在不微調的情況下實現超出分佈的泛化,特別是從輸入提示推斷隱藏規則。研究重點在於變壓器的訓練動態及歸納頭的角色。主要發現指出,OOD 泛化與模型在自注意力層間組合資訊的能力有關,並且嵌入空間中的共享潛在子空間有助於這種組合,形成「共同橋接表徵假說」。這顯示模型的早期層和後期層能夠協調,以支持學習 OOD 任務所需的規則。 PubMed DOI

在機器學習中,平衡預測準確性、模型可解釋性和領域泛化是一大挑戰。我們研究了77,640個配置中的120個可解釋模型和166個不透明模型,進行文本分類以識別文本複雜性,並預測讀者的處理難度感知。結果顯示,任務1中準確性與可解釋性之間存在權衡,但在任務2中,可解釋模型在領域泛化上表現更佳。加入乘法互動也增強了可解釋模型的能力。我們強調使用大型數據集訓練,並整合外部理論與分佈外數據以驗證模型,確保穩健性。 PubMed DOI

大型語言模型(LLMs)如ChatGPT已經改變了人機互動和語言分析。這些模型基於自然語言處理和機器學習的進步,特別是變壓器模型的引入,能更有效理解上下文。 LLMs的訓練過程分為預訓練和監督式微調,讓模型學習語法和推理能力。然而,它們也有缺陷,常生成聽起來合理但不正確的資訊,可能誤導使用者。因此,在使用LLMs時,特別是在敏感領域如放射學,必須謹慎評估其輸出。 PubMed DOI

這篇文章介紹了一種新型的稀疏變壓器架構,稱為2-D變壓器(2D-former),旨在提升大型語言模型(LLMs)處理長上下文的能力,同時減少GPU記憶體的使用。2D-former透過2-D注意力機制,結合長距離信息壓縮器(LDIC)和區塊注意力(BA)機制,有效捕捉長距離信息。這使得LLaMA2 7B模型的上下文長度可擴展至32k個標記,且只需少量額外參數。實驗顯示,2D-former在長短上下文任務上表現優異,且資源消耗較低。 PubMed DOI

大型語言模型(LLMs)徹底改變了人工智慧,特別是在生成文本方面。這些模型透過大量文本訓練,能生成連貫且具上下文的內容,應用範圍廣泛,從聊天機器人到內容創作,展現出驚人的語言理解與生成能力。它們能執行摘要、問答及創意寫作等任務,並透過微調技術針對特定需求進行客製化。隨著技術進步,LLMs 的應用也在擴展,並引發了關於倫理、偏見及社會影響的討論,標誌著人工智慧的一次重大進步。 PubMed DOI

這項研究提出了一種新方法,結合生成注意力機制與狀態轉換方程,分析中文教育中的學習行為。這種方法能即時調整注意力權重,模擬學生情感與行為變化,克服現有方法的限制。透過實證實驗,預測行為準確率達90.6%,學習滿意度得分89.2,超越BERT、GPT-3等基準模型。這些結果顯示該方法在個性化教學與動態行為建模上的實用性,為中文教育提供了結構化框架。 PubMed DOI