原始文章

近年來,變壓器模型在深度學習中變得非常重要,並催生了許多高效技術,如微調和擴展。不過,這些策略的數學基礎常常不夠扎實。為了解決這個問題,我們提出了一個基於分佈回歸的變壓器學習框架,並將分佈作為輸入。我們引入了一種名為注意力運算子的數學表述,讓變壓器能在不損失信息的情況下壓縮分佈。研究顯示,這種變壓器能學習比傳統模型更複雜的泛函,並建立了與大型語言模型相關技術的理論基礎。 PubMed DOI


站上相關主題文章列表

LLMs(例如GPT和BERT)在醫療保健領域有應用潛力,但也帶來偏見、隱私擔憂和道德困境。研究指出,使用變壓器模型可提高效率,但也帶來挑戰,如偏見、可審計性和隱私風險。醫療專業人員需要具備專業知識,面對道德困境,並可能影響患者護理中的人際互動。必須進行全面培訓以因應系統操作和數據解釋的需求。 PubMed DOI

Transformer神經網絡,特別是大型語言模型(LLMs),在材料分析、設計和製造上很有效。它們能處理各種數據,支持工程分析,像MechGPT在材料力學領域表現出理解能力。檢索增強的本體知識圖表等策略可提高生成性能,解決困難。這些方法在材料設計探索中有優勢,並提供見解。非線性取樣和基於代理的建模增強生成能力,改進內容生成和評估。例如,問答、代碼生成和自動生成力場開發。 PubMed DOI

Transformer神經網絡最初為處理自然語言而生,現在在醫療領域廣泛運用,用來分析各種數據。應用範圍包括臨床語言處理、醫學影像、電子病歷、社群媒體、生理訊號和生物序列。Transformer已用於手術指導、預測手術後結果、臨床診斷、報告生成、數據重建和藥物/蛋白合成。討論了在醫療中使用Transformer的優勢和限制,如計算成本、模型解釋性、公平性、與價值觀一致性、倫理和環境影響。 PubMed DOI

這篇論文介紹了一個新開發的模型,叫做混合變壓器網絡(HybridTransNet),它結合了大型語言模型和計算機視覺技術,專注於醫學影像診斷,特別是腦腫瘤檢測。傳統的卷積神經網絡和遞歸神經網絡在處理深層編碼和下採樣時容易丟失細節。HybridTransNet透過變壓器機制有效處理多模態數據,並利用自注意力機制來恢復上下文資訊。實驗結果顯示,該模型在腦腫瘤診斷上表現優於現有方法,顯示出提升醫療資訊學的潛力。 PubMed DOI

最近的研究發現,將Transformer模型與條件策略結合,可以有效提升離線強化學習的表現。傳統強化學習是依序接收觀察,而Transformer則同時處理多個觀察,這可能影響特徵提取及決策的準確性。為了解決這些問題,我們利用預訓練模型的少量學習特性,並結合提示學習來改善即時政策調整。透過從離線數據中抽樣特定信息,我們能快速掌握任務特徵。實驗結果顯示,我們的方法在相關任務中表現優於基準,並提升了對新環境的泛化能力及決策的穩定性。 PubMed DOI

這項研究探討大型語言模型(如 GPT-4)如何在不微調的情況下實現超出分佈的泛化,特別是從輸入提示推斷隱藏規則。研究重點在於變壓器的訓練動態及歸納頭的角色。主要發現指出,OOD 泛化與模型在自注意力層間組合資訊的能力有關,並且嵌入空間中的共享潛在子空間有助於這種組合,形成「共同橋接表徵假說」。這顯示模型的早期層和後期層能夠協調,以支持學習 OOD 任務所需的規則。 PubMed DOI

在機器學習中,平衡預測準確性、模型可解釋性和領域泛化是一大挑戰。我們研究了77,640個配置中的120個可解釋模型和166個不透明模型,進行文本分類以識別文本複雜性,並預測讀者的處理難度感知。結果顯示,任務1中準確性與可解釋性之間存在權衡,但在任務2中,可解釋模型在領域泛化上表現更佳。加入乘法互動也增強了可解釋模型的能力。我們強調使用大型數據集訓練,並整合外部理論與分佈外數據以驗證模型,確保穩健性。 PubMed DOI

大型語言模型(LLMs)如ChatGPT已經改變了人機互動和語言分析。這些模型基於自然語言處理和機器學習的進步,特別是變壓器模型的引入,能更有效理解上下文。 LLMs的訓練過程分為預訓練和監督式微調,讓模型學習語法和推理能力。然而,它們也有缺陷,常生成聽起來合理但不正確的資訊,可能誤導使用者。因此,在使用LLMs時,特別是在敏感領域如放射學,必須謹慎評估其輸出。 PubMed DOI

這篇文章介紹了一種新型的稀疏變壓器架構,稱為2-D變壓器(2D-former),旨在提升大型語言模型(LLMs)處理長上下文的能力,同時減少GPU記憶體的使用。2D-former透過2-D注意力機制,結合長距離信息壓縮器(LDIC)和區塊注意力(BA)機制,有效捕捉長距離信息。這使得LLaMA2 7B模型的上下文長度可擴展至32k個標記,且只需少量額外參數。實驗顯示,2D-former在長短上下文任務上表現優異,且資源消耗較低。 PubMed DOI

大型語言模型(LLMs)徹底改變了人工智慧,特別是在生成文本方面。這些模型透過大量文本訓練,能生成連貫且具上下文的內容,應用範圍廣泛,從聊天機器人到內容創作,展現出驚人的語言理解與生成能力。它們能執行摘要、問答及創意寫作等任務,並透過微調技術針對特定需求進行客製化。隨著技術進步,LLMs 的應用也在擴展,並引發了關於倫理、偏見及社會影響的討論,標誌著人工智慧的一次重大進步。 PubMed DOI