原始文章

近年來,變壓器模型在深度學習中變得非常重要,並催生了許多高效技術,如微調和擴展。不過,這些策略的數學基礎常常不夠扎實。為了解決這個問題,我們提出了一個基於分佈回歸的變壓器學習框架,並將分佈作為輸入。我們引入了一種名為注意力運算子的數學表述,讓變壓器能在不損失信息的情況下壓縮分佈。研究顯示,這種變壓器能學習比傳統模型更複雜的泛函,並建立了與大型語言模型相關技術的理論基礎。 PubMed DOI


站上相關主題文章列表

本文討論了Transformer模型在醫療保健領域的應用,包括文件記錄、決策支援、病人教育和公共衛生監測等八個應用案例。未來研究應該專注於開發和測試這些醫療應用的Transformer模型,展現了這些模型在自然語言處理和機器翻譯上的潛力。 PubMed DOI

Transformer模型可加速藥物開發和材料探索。預訓練需大量數據,但在聚合物科學等領域數據稀缺。透過數據擴增、小分子數據集和遷移學習,可克服此問題。研究指出,先在小分子上預訓練Transformer,再微調至聚合物,可達到與擴增數據集訓練相似的準確性。 PubMed DOI

Transformer模型如GPT-3、ChatGPT和GPT-4在語言任務表現優秀但需要大量計算資源。BCT方法能在不重新訓練的情況下壓縮transformers,達到7.988倍的壓縮率。BCT以區塊方式運作,避免準確性下降和重新訓練的困擾。實驗結果顯示,BCT在GLUE數據集上表現良好,準確度僅下降不到0.9%。 PubMed DOI

LLMs(例如GPT和BERT)在醫療保健領域有應用潛力,但也帶來偏見、隱私擔憂和道德困境。研究指出,使用變壓器模型可提高效率,但也帶來挑戰,如偏見、可審計性和隱私風險。醫療專業人員需要具備專業知識,面對道德困境,並可能影響患者護理中的人際互動。必須進行全面培訓以因應系統操作和數據解釋的需求。 PubMed DOI

Transformer神經網絡,特別是大型語言模型(LLMs),在材料分析、設計和製造上很有效。它們能處理各種數據,支持工程分析,像MechGPT在材料力學領域表現出理解能力。檢索增強的本體知識圖表等策略可提高生成性能,解決困難。這些方法在材料設計探索中有優勢,並提供見解。非線性取樣和基於代理的建模增強生成能力,改進內容生成和評估。例如,問答、代碼生成和自動生成力場開發。 PubMed DOI

大型語言模型在各種任務中表現優異,與大腦計算的關聯存在爭議。一個提出平均場學習模型的研究指出,大多數連接變得確定性,而輸出連接更具變異性。隨著訓練數據增加,網絡性能提升,提供有關大腦計算和通用智能的見解。 PubMed DOI

Transformer神經網絡最初為處理自然語言而生,現在在醫療領域廣泛運用,用來分析各種數據。應用範圍包括臨床語言處理、醫學影像、電子病歷、社群媒體、生理訊號和生物序列。Transformer已用於手術指導、預測手術後結果、臨床診斷、報告生成、數據重建和藥物/蛋白合成。討論了在醫療中使用Transformer的優勢和限制,如計算成本、模型解釋性、公平性、與價值觀一致性、倫理和環境影響。 PubMed DOI

這篇論文探討基於變壓器的大型語言模型(LLMs)在生成合成表格健康數據的有效性,並與生成對抗網絡(GANs)進行比較,這對遵循隱私法規的醫療研究非常重要。研究分析了Pythia LLM Scaling Suite,模型參數從1400萬到10億,結果顯示較大的LLM在性能上優於GAN,甚至最小的LLM也能達到相似效果。此外,訓練數據集大小與模型性能呈正相關。論文還討論了在醫療領域實施LLM的挑戰與考量。 PubMed DOI

這段文字探討變壓器網絡(像是ChatGPT)與大腦神經活動之間的相似之處。變壓器模型透過「自注意力」機制,從整個輸入中生成編碼向量,理解數據的長期依賴性。作者認為,大腦的神經波也可能以類似方式運作,捕捉感官輸入的歷史,提取時間上下文。這顯示出人工智慧模型與生物神經處理之間的平行關係。 PubMed DOI

這篇論文介紹了一個新開發的模型,叫做混合變壓器網絡(HybridTransNet),它結合了大型語言模型和計算機視覺技術,專注於醫學影像診斷,特別是腦腫瘤檢測。傳統的卷積神經網絡和遞歸神經網絡在處理深層編碼和下採樣時容易丟失細節。HybridTransNet透過變壓器機制有效處理多模態數據,並利用自注意力機制來恢復上下文資訊。實驗結果顯示,該模型在腦腫瘤診斷上表現優於現有方法,顯示出提升醫療資訊學的潛力。 PubMed DOI