在實證醫學中,微調大型語言模型(LLM)可以用於多種應用,這些應用旨在提升臨床決策的效率和準確性。根據研究,LLM可以整合到實證醫學的關鍵階段,包括證據檢索(如PICO提取和生物醫學問答)、綜合(如隨機對照試驗的總結)以及傳播(如醫學文本簡化)[PMID: 39437276]。這些模型在零樣本設置中展現出顯著的理解能力,並且通過提示技術(如上下文學習和知識引導提示)可以進一步增強其能力[PMID: 39437276]。
然而,微調LLM也存在挑戰。例如,在放射治療服務的保險申訴中,微調的GPT-3.5模型(GPT-3.5ft)表現不如其他未微調的LLM,這表明在特定任務上使用小型訓練數據集進行微調可能會降低性能[PMID: 39250740]。此外,LLM在處理臨床命名實體識別(NER)任務時,通過提示工程可以顯著改善其性能,但仍未達到最先進模型如BioClinicalBERT的水平[PMID: 38281112]。
總結來說,LLM在實證醫學中的應用潛力巨大,但其微調需要謹慎考慮,尤其是在數據集大小和任務特定知識的整合方面。這些模型在某些情況下可能需要進一步的開發和優化,以確保其在臨床應用中的安全性和準確性[PMID: 39437276][PMID: 39250740][PMID: 38281112]。