原始文章

這項研究用自製的肝炎血清學資料集,在單張 GPU 上微調大型語言模型。微調後的模型在解讀肝炎血清學結果時,表現比原始模型更好,這是用 METEOR 演算法評估的。結果證明,針對特定領域微調,能有效提升 LLM 在醫療專家系統的表現。 PubMed DOI


站上相關主題文章列表

這項研究探討了微調開源大型語言模型(LLMs)在醫學證據總結方面的潛力,與專有模型相比,開源模型雖然表現較弱,但提供了更高的透明度和自訂性。研究人員使用MedReview基準數據集對三個流行的開源LLMs進行微調,結果顯示微調後的LongT5在零樣本設定中接近GPT-3.5的表現,且一些小型微調模型甚至超越了大型零樣本模型。這些改進在人工評估和模擬GPT-4的評估中均有明顯體現。 PubMed DOI

這項研究探討如何透過微調提升開源大型語言模型(LLMs)在醫學證據摘要的表現。雖然專有模型通常更有效,但也存在透明度不足和依賴供應商的風險。研究人員使用包含8,161對系統性回顧摘要的MedReview數據集,對三個開源模型—PRIMERA、LongT5和Llama-2進行微調。結果顯示,微調後這些模型的表現顯著提升,特別是LongT5在零樣本設定中表現接近GPT-3.5,甚至有些小型模型超越了大型模型。這顯示微調開源LLMs能有效提升其在專業任務中的表現,成為專有模型的可行替代方案。 PubMed DOI

這項研究探討如何將大型語言模型(LLMs)整合進證據基礎醫學(EBM),以自動化任務如證據檢索和傳播,來提升臨床決策。研究比較了七個LLMs的表現,結果顯示這些模型在理解和總結方面表現優異,知識引導的提示也顯著提升了效果。不過,在命名實體識別和事實準確性上仍面臨挑戰,需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

這項研究提出了一種方法,旨在為越南語這種低資源語言的醫療資訊創建訓練數據集,以微調大型語言模型(LLMs)。目的是改善醫療資訊的獲取,增強發展中國家的醫療溝通。研究過程中,選擇基礎模型並彙編約337,000對提示-回應對,使用低秩適應技術進行微調。微調後的模型在多項指標上表現優於基礎模型,顯示出其在越南語健康查詢中的潛力。雖然本地部署可提升數據隱私,但高計算需求和成本仍是挑戰,研究呼籲關注醫療差距,促進全球健康公平。 PubMed DOI

這項研究評估了生物醫學調整的大型語言模型(LLMs)在臨床任務中的表現,與通用模型相比。研究發現,生物醫學LLMs的表現通常不如通用模型,尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似,但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念,建議探索其他策略,如檢索增強生成,以更有效地整合LLMs進入臨床環境。 PubMed DOI

大型語言模型(LLMs)是先進的人工智慧系統,透過預測單詞序列來生成文本,改變了人機互動的方式。像ChatGPT和Claude等產品能與使用者進行複雜對話。微調則是針對特定數據集進一步訓練預訓練的LLM,以適應特定任務或領域。這篇評論探討了微調的各種方法,概述了一般步驟,並提供醫學子專科的例子,最後討論了微調LLM在醫學領域的優點與限制。 PubMed DOI

用ICD-10資料微調大型語言模型後,自動醫療編碼的準確度大幅提升。模型在代碼與描述配對的精確率從不到1%躍升到97%;應用在臨床紀錄上,精確匹配率達69.2%,分類匹配率87.2%。這能有效減少人工處理時間和錯誤。 PubMed DOI

這項研究發現,GPT-4 和 GPT-4o 在韓國輸血醫學執照考試(無論韓文或英文題目)表現穩定且優於標準,其他模型則較不穩定,特別是遇到韓文題目時。所有模型在法律與倫理題目上表現較差。總結來說,GPT-4/4o 在專業內容上可靠,但臨床應用前仍需針對在地法規和多語言進行微調。 PubMed DOI

這項研究用88份真實MRI肝臟病灶報告,測試多款大型語言模型的分類能力。結果發現,Claude 3.5 Sonnet準確率最高,勝過GPT-4o等其他模型。雖然LLM有潛力協助醫療診斷,但臨床應用前還需更多驗證,嚴謹測試也很重要。 PubMed DOI

這項研究用專家指導的模糊邏輯和提示工程,微調GPT模型,讓它能準確又簡潔地摘要連續血糖監測數據。微調後的GPT-4o準確率高達96%,顯示AI有助於糖尿病管理,能把複雜數據轉成實用資訊,減輕醫護人員負擔。 PubMed DOI