原始文章

大型語言模型(LLMs)在研究和商業應用中越來越受重視,現在的趨勢是使用參數高效微調(PEFT)方法來開發較小的專用模型,而不需完全微調。研究發現,LoRA在各種任務中表現優異,常與完全微調的模型相當,顯示PEFT方法在臨床決策中有效,特別適合低成本運算。小型模型的優勢如快速處理和低訓練成本,超越大型LLMs的性能。此外,領域特定的預訓練對小型模型也相當重要。完整代碼可在GitHub上找到。 PubMed DOI


站上相關主題文章列表

醫師需要快速做決定,預測模型能預測臨床事件,提供幫助。傳統模型有限制,但透過臨床註記訓練語言模型,可以打造更多功能的預測引擎。開發了醫學語言模型(NYUTron),並在預測再入院和死亡方面進行微調,比傳統模型更準確。對臨床文本進行預訓練,再針對不同地點進行微調,可以增強泛化能力。成功在試驗中應用,顯示臨床語言模型有潛力協助醫師即時做決定。 PubMed DOI

大型語言模型(LLMs)在臨床決策中或許有好處,但目前還不適合實際醫療使用。一項研究指出,LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果,且難以整合到臨床流程中,可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

這項研究探討小型大型語言模型(sLLM)在從病理報告中提取關鍵資訊的效果。使用三個版本的Llama 2模型,參數從70億到700億不等,並在零樣本和五樣本學習情境下進行評估。結果顯示,700億參數的模型在五樣本情境下表現優異,顯示sLLM能有效提升數據提取的效率與準確性。研究強調範例學習的重要性,並討論模型大小、準確性及處理時間的權衡,支持在臨床環境中應用先進語言模型,以改善病人護理和生物醫學研究。 PubMed DOI

這項研究探討大型語言模型(LLMs)在醫療應用中的準確性與能耗之間的平衡,特別分析了Meta的Llama 2和LMSYS Org的Vicuna 1.5。研究使用印第安納大學的胸部X光影像資料庫,發現Vicuna 1.5在效率和準確率上表現優於Llama 2。Llama 2的70B模型能耗是7B版本的七倍,但準確率卻較低,效率比僅22.30。結論指出,較小且經過微調的LLMs在醫療應用中更具可持續性,強調選擇模型的重要性,需平衡性能與環境影響。 PubMed DOI

這項研究探討了微調開源大型語言模型(LLMs)在醫學證據總結方面的潛力,與專有模型相比,開源模型雖然表現較弱,但提供了更高的透明度和自訂性。研究人員使用MedReview基準數據集對三個流行的開源LLMs進行微調,結果顯示微調後的LongT5在零樣本設定中接近GPT-3.5的表現,且一些小型微調模型甚至超越了大型零樣本模型。這些改進在人工評估和模擬GPT-4的評估中均有明顯體現。 PubMed DOI

這項研究探討了訓練大型語言模型(LLMs)來根據美國住院醫師教育認證委員會(ACGME)的標準分類受訓者的反饋。研究發現,雖然複雜的模型未必能提高分類準確率,但較小的模型如BERT-mini在性能上與FastText相當,且在個人設備上部署時更具優勢,能提升速度和數據隱私。這項研究有助於理解如何有效整合LLMs於醫學教育中。 PubMed DOI

這項研究探討如何透過微調提升開源大型語言模型(LLMs)在醫學證據摘要的表現。雖然專有模型通常更有效,但也存在透明度不足和依賴供應商的風險。研究人員使用包含8,161對系統性回顧摘要的MedReview數據集,對三個開源模型—PRIMERA、LongT5和Llama-2進行微調。結果顯示,微調後這些模型的表現顯著提升,特別是LongT5在零樣本設定中表現接近GPT-3.5,甚至有些小型模型超越了大型模型。這顯示微調開源LLMs能有效提升其在專業任務中的表現,成為專有模型的可行替代方案。 PubMed DOI

這項研究探討如何將大型語言模型(LLMs)整合進證據基礎醫學(EBM),以自動化任務如證據檢索和傳播,來提升臨床決策。研究比較了七個LLMs的表現,結果顯示這些模型在理解和總結方面表現優異,知識引導的提示也顯著提升了效果。不過,在命名實體識別和事實準確性上仍面臨挑戰,需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

這項研究探討了在醫療保健領域應用預訓練大型語言模型(LLMs)的挑戰,特別是資源有限的情況下。研究開發了三種專門的預訓練方法,包括傳統的遮蔽語言模型、深度對比學習,以及結合醫療元數據的創新方法。結果顯示,對比訓練的模型在分類任務中表現最佳,雖然基於元數據的方法未提升分類性能,但在嵌入集群可分性上有趣的結果。整體而言,這項研究強調了專門預訓練方法在醫療保健自然語言處理中的潛力,並解決了數據隱私和資源限制的問題。 PubMed DOI

這項研究探討大型語言模型(LLMs)在優化醫療工作流程的應用,特別是面對經濟和計算挑戰。研究人員使用真實病患數據,評估了十種不同的LLM,進行超過30萬次實驗。結果顯示,隨著問題和臨床筆記數量增加,模型表現會下降。高容量模型如Llama-3-70b和GPT-4-turbo-128k能有效處理最多50個任務,但超過後表現下降。經濟分析指出,使用串接方式可在50個任務時實現高達17倍的成本降低,顯示LLM在臨床環境中的限制及提升成本效率的潛力。 PubMed DOI