原始文章

這項研究評估了GPT-3.5-turbo和GPT-4-turbo在急診部門提供臨床建議的表現,分析了10,000次就診。結果顯示,這兩個模型的準確性都不如住院醫師,GPT-4-turbo平均低8%,而GPT-3.5-turbo低24%。雖然這些大型語言模型在敏感性上表現良好,但特異性較低,顯示出建議過於謹慎。研究指出,儘管LLMs在臨床應用上有潛力,但在成為可靠的醫療決策支持系統前,仍需大幅改進。 PubMed DOI


站上相關主題文章列表

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

在急診部門,快速且準確的診斷對病人結果和醫療效率非常重要。本研究評估了ChatGPT-3.5和ChatGPT-4在根據急診入院前24小時的電子健康紀錄生成鑑別診斷清單的表現。結果顯示,兩者在預測身體系統層級的診斷上都相當準確,GPT-4稍優於GPT-3.5,但在具體診斷類別上表現不一,精確度較低。值得注意的是,GPT-4在幾個關鍵類別中展現了更高的準確性,顯示其在處理複雜臨床情況上的優勢。 PubMed DOI

這項研究評估了GPT-4在急診病人分診中所給的緊急嚴重指數(ESI)分數的準確性,並與經驗豐富的醫護人員進行比較。研究涵蓋100名急診病人,結果顯示GPT-4的中位數ESI分數為2.0,而人類評估者為3.0,顯示出顯著差異(p < 0.001),顯示GPT-4可能低估病人嚴重程度。雖然GPT-4提供了新方法,但其低估的傾向顯示在臨床應用中需進一步調整,強調謹慎整合AI技術的重要性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

本研究探討AI模型(如GPT-3.5和GPT-4)在急診科生成病症鑑別診斷的表現,並與急診科醫師的準確性進行比較。結果顯示,ChatGPT-4的準確率為85.5%,略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面,ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值,建議未來進一步探索AI在醫療中的應用。 PubMed DOI

這項回顧性研究評估了不同ChatGPT模型(如GPT-3.5、GPT-4等)在預測急診病人診斷的表現。研究針對30名病人,發現GPT-3.5在前三名鑑別診斷的準確率高達80%,但主要診斷的準確率僅47.8%。較新的模型如chatgpt-4o-latest在主要診斷的準確率提升至60%。要求模型提供推理過程也有助於改善表現。不過,所有模型在處理非典型案例時仍面臨挑戰,顯示其在急診環境中的應用限制。 PubMed DOI

最新研究發現,OpenAI 的 o1 LLM 在急診臨床決策上表現跟醫師差不多,診斷和收治判斷準確率都超過九成,甚至在異常檢驗判讀上還拿到滿分。相比之下,Claude-3.5-Sonnet 和 Llama-3.2-70B 在治療計畫上表現較弱。整體來說,o1 有機會成為急診醫療現場的專業決策輔助工具。 PubMed DOI

這項研究用模擬病人測試ChatGPT(GPT-4o和GPT-4-Turbo)在急診分級和門診指引的表現。經過優化後,GPT-4-Turbo用MEWS分級達到100%準確率,優於GPT-4o(96.2%);GPT-4o在門診科別選擇也有92.6%高準確率,且情感回應更好。結果顯示,經設計的ChatGPT能有效協助急診分級與指引,但還需更多臨床驗證。 PubMed DOI