原始文章

最新研究發現,OpenAI 的 o1 LLM 在急診臨床決策上表現跟醫師差不多,診斷和收治判斷準確率都超過九成,甚至在異常檢驗判讀上還拿到滿分。相比之下,Claude-3.5-Sonnet 和 Llama-3.2-70B 在治療計畫上表現較弱。整體來說,o1 有機會成為急診醫療現場的專業決策輔助工具。 PubMed DOI


站上相關主題文章列表

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示,Med-Go 的中位數得分為37.5,優於其他模型,而 Gemini 得分最低,為33.0,差異顯著(p < 0.001)。所有模型在鑑別診斷上表現較弱,但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練,以提升效能,並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

生成式人工智慧(GAI)在醫療領域有顯著進展,但對於罕見疾病如原發性免疫疾病(PI)的輔助效果仍待探討。本研究評估了六種大型語言模型(LLMs)在提供PI臨床指導的表現。結果顯示,GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%,其中GPT-4o以96.2%領先。其他模型表現較差,準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力,但仍需改進以提升臨床實用性。 PubMed DOI

這項研究評估了先進的大型語言模型(LLMs),如GPT-4、GPT-4o和Llama-3-70b,作為急診眼科決策支持工具的效果,並與認證眼科醫生的表現進行比較。研究使用了73個匿名急診案例,兩位專家眼科醫生對診斷和治療計畫進行評分。結果顯示,人類專家的平均得分為3.72,GPT-4為3.52,Llama-3-70b為3.48,而GPT-4o得分最低,為3.20。研究建議LLMs在急診眼科中具備有效的決策支持潛力。 PubMed DOI

這項研究發現,Claude 3 Opus 在心血管抗凝治療案例的準確度勝過其他大型語言模型和臨床醫師,正確率達85%。部分LLMs表現媲美甚至超越有經驗醫師,但免費版模型有時會給出不佳或不安全的建議。所有LLMs在生活型態和飲食建議上表現穩定。研究提醒,醫療決策時應謹慎選用並驗證LLMs。 PubMed DOI

這篇系統性回顧分析30項比較LLM和醫師臨床診斷的研究,發現LLM診斷準確率雖不錯,但多數研究有偏誤,且準確度還不及醫師。不過,若小心運用,未來LLM有望成為醫療智慧助理。 PubMed DOI

**重點摘要:** 這項研究評估了多個大型語言模型(LLMs)以及一個檢索增強生成(RAG)流程,並以2,000個醫療案例作為測試。結果顯示,LLMs能夠協助病人和臨床醫師,像是提供可能的診斷、建議合適的專科醫師,以及評估緊急程度,有機會提升醫療決策品質和醫療服務的效率。 PubMed DOI

這項研究發現,雖然Claude等大型語言模型在小兒腎臟科案例上表現最佳,正確率達86.9%,但所有模型都會出現幻覺,甚至可能給出危險建議。即使用專業資料微調,推理能力也沒提升。目前LLM只能在嚴格監督下協助重複性工作,還不適合獨立臨床應用,未來需加強可靠性與可解釋性。 PubMed DOI

這項研究發現,DeepSeek-R1 AI 能有效協助加護病房住院醫師診斷複雜重症,讓診斷正確率從 27% 提升到 58%,AI 自己的正確率則是 60%。有 AI 幫忙時,住院醫師不只診斷更準確,速度也更快,鑑別診斷品質也提升。整體來說,這類 AI 未來很有機會成為加護病房醫師的重要幫手。 PubMed DOI

這項研究比較了多款主流大型語言模型(如Claude、GPT、Gemini)在臨床診斷上的表現。結果顯示,這些AI在常見病例的診斷準確率都超過九成,Claude 3.7甚至有滿分表現;在複雜案例中,Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調,未來應把AI工具實際整合進臨床與醫學教育,提升照護品質。 PubMed DOI