原始文章

這項研究評估了兩個大型語言模型(LLMs),Mistral-7B-Instruct 和 Llama3-70B-chat-hf,使用660名患者的電子健康紀錄來預測敗血症、心律不整和充血性心臟衰竭等病症的診斷機率。結果顯示,傳統的極端梯度提升(XGB)分類器在所有任務中表現優於LLMs。雖然LLM嵌入+XGB的表現接近XGB,但口頭信心和標記對數的效果較差。研究建議未來應結合LLMs與數值推理,以提升診斷準確性,並強調目前LLMs在臨床應用上仍需改進。 PubMed DOI


站上相關主題文章列表

研究探討利用語言模型強化電子健康記錄的風險預測。提出兩種新方法「LLaMA2-EHR」和「Sent-e-Med」,利用病歷文本預測診斷結果,表現優於先前方法,特點是少量樣本學習和適應醫學詞彙。但結果受提示影響,語言模型安全問題尚待解決,建議謹慎使用。 PubMed DOI

大型語言模型(LLMs)在臨床決策中或許有好處,但目前還不適合實際醫療使用。一項研究指出,LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果,且難以整合到臨床流程中,可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

這項研究探討了不同的不確定性代理如何評估大型語言模型(LLMs),如GPT-3.5、GPT-4、Llama2和Llama3,在醫療診斷和治療選擇中的信心。主要發現顯示,樣本一致性(SC)在辨識正確與錯誤回應上表現最佳,ROC AUC分數介於0.68到0.79之間。雖然SC的校準效果不佳,但使用GPT註釋的SC在辨識能力和校準上表現良好。研究認為SC是評估LLM不確定性最有效的方法,並指出這些模型在表達信心時常過於自信。 PubMed DOI

這項研究探討大型語言模型(LLM)生成的急診醫學交接筆記,針對從急診轉入住院的病人進行。研究在紐約長老會/威爾康奈爾醫學中心進行,分析了1,600份病人紀錄。結果顯示,LLM生成的筆記在詞彙和細節上優於醫生撰寫的筆記,但在實用性和病人安全性方面略遜於醫生的評估。這強調了在臨床使用LLM時,醫生參與的重要性,並提供了評估病人安全的框架。 PubMed DOI

大型語言模型(LLMs)在臨床環境中有潛力,但在提供可靠的預測概率上常遇挑戰,這對透明度和知情決策很重要。研究顯示,明確提示生成的概率在六個開源LLMs和五個醫療數據集上表現不如隱含概率,尤其在小型LLMs和不平衡數據集上更明顯。這強調了謹慎解讀結果的必要性,並呼籲開發更好的概率估計方法及進一步研究,以提升LLMs在臨床應用的可行性。 PubMed DOI

這項研究探討了先驗機率對大型語言模型(LLM)在放射學診斷中的影響。研究分析了322個放射學案例,並在三種情境下測試LLM:無上下文、帶測驗上下文及初級護理上下文。結果顯示,提供測驗上下文時,LLM的診斷準確率顯著提升至70.2%,而無上下文時為64.9%。但在初級護理情境下,準確率降至59.9%。這顯示LLM可能根據先前信息調整診斷,強調在臨床中提供相關上下文的重要性。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這篇論文探討了六種大型語言模型(LLMs)在自動化出院摘要方面的有效性,並提出了一種新的自動評估指標,與人類評估結果相符。研究使用F1-Score來評估模型表現,並與醫療專業人員的評估進行比較。結果顯示,雖然LLMs有潛力,但在醫學知識和診斷能力上仍需改進。實驗的源代碼和數據可在GitHub上找到。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI