原始文章

這項研究評估了兩個大型語言模型(LLMs),Mistral-7B-Instruct 和 Llama3-70B-chat-hf,使用660名患者的電子健康紀錄來預測敗血症、心律不整和充血性心臟衰竭等病症的診斷機率。結果顯示,傳統的極端梯度提升(XGB)分類器在所有任務中表現優於LLMs。雖然LLM嵌入+XGB的表現接近XGB,但口頭信心和標記對數的效果較差。研究建議未來應結合LLMs與數值推理,以提升診斷準確性,並強調目前LLMs在臨床應用上仍需改進。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)在醫學考試中表現出色,但其元認知能力尚未充分檢視。我們開發了MetaMedQA基準測試,評估模型的信心分數和元認知任務。研究顯示,雖然模型在回答問題上表現良好,但在識別知識空白方面存在重大缺陷,經常自信地提供錯誤答案。這種脫節可能在臨床環境中帶來風險,因此需要改進評估框架,以提升LLM在臨床決策支持系統中的可靠性。 PubMed DOI

這項研究探討了先驗機率對大型語言模型(LLM)在放射學診斷中的影響。研究分析了322個放射學案例,並在三種情境下測試LLM:無上下文、帶測驗上下文及初級護理上下文。結果顯示,提供測驗上下文時,LLM的診斷準確率顯著提升至70.2%,而無上下文時為64.9%。但在初級護理情境下,準確率降至59.9%。這顯示LLM可能根據先前信息調整診斷,強調在臨床中提供相關上下文的重要性。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這篇論文探討了六種大型語言模型(LLMs)在自動化出院摘要方面的有效性,並提出了一種新的自動評估指標,與人類評估結果相符。研究使用F1-Score來評估模型表現,並與醫療專業人員的評估進行比較。結果顯示,雖然LLMs有潛力,但在醫學知識和診斷能力上仍需改進。實驗的源代碼和數據可在GitHub上找到。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

這篇系統性回顧分析30項比較LLM和醫師臨床診斷的研究,發現LLM診斷準確率雖不錯,但多數研究有偏誤,且準確度還不及醫師。不過,若小心運用,未來LLM有望成為醫療智慧助理。 PubMed DOI

**重點摘要:** 這項研究評估了多個大型語言模型(LLMs)以及一個檢索增強生成(RAG)流程,並以2,000個醫療案例作為測試。結果顯示,LLMs能夠協助病人和臨床醫師,像是提供可能的診斷、建議合適的專科醫師,以及評估緊急程度,有機會提升醫療決策品質和醫療服務的效率。 PubMed DOI

最新研究發現,OpenAI 的 o1 LLM 在急診臨床決策上表現跟醫師差不多,診斷和收治判斷準確率都超過九成,甚至在異常檢驗判讀上還拿到滿分。相比之下,Claude-3.5-Sonnet 和 Llama-3.2-70B 在治療計畫上表現較弱。整體來說,o1 有機會成為急診醫療現場的專業決策輔助工具。 PubMed DOI

這項研究發現,12款大型語言模型在醫學選擇題的信心判斷表現不佳,表現差的模型反而更自信,表現好的模型則無論答對答錯信心都差不多。這顯示目前LLM在臨床應用上還不夠可靠,未來必須加強信心校準並加入人工監督,才能安全用於醫療領域。 PubMed DOI

這篇研究發現,針對不同臨床紀錄類型設計的NLP模型,在預測住院死亡風險上,比傳統方法和34種大型語言模型(LLMs)都更準確。雖然LLMs在其他領域很強,但在這個任務上表現不佳,顯示現有LLMs在臨床應用上還有限制。這個新模型也有助於找出最有用的臨床紀錄。 PubMed DOI