原始文章

這項研究評估了GPT-3.5-turbo和GPT-4-turbo在急診部門提供臨床建議的表現,分析了10,000次就診。結果顯示,這兩個模型的準確性都不如住院醫師,GPT-4-turbo平均低8%,而GPT-3.5-turbo低24%。雖然這些大型語言模型在敏感性上表現良好,但特異性較低,顯示出建議過於謹慎。研究指出,儘管LLMs在臨床應用上有潛力,但在成為可靠的醫療決策支持系統前,仍需大幅改進。 PubMed DOI


站上相關主題文章列表

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳,尤其在常見疾病方面。商業LLMs有潛力用於醫學問答,但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

研究比較了GPT-4和GPT-3.5-turbo在寫急診科出院摘要時的表現。結果顯示,雖然GPT-4通常寫得準確,但還是會出現錯誤,像是漏掉重要臨床資訊或加入幻覺。醫師了解這些錯誤很重要,可以檢查並修正內容,確保患者安全。 PubMed DOI

人工智慧和大型語言模型可輔助急診室運作,幫助醫生判斷病人是否需要住院。一項使用紐約市醫院真實數據的研究發現,GPT-4模型在預測急診病人入院情況方面表現優異。建議大型語言模型可成為醫療決策支援工具,進一步改進以提高效能。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

在急診部門,快速且準確的診斷對病人結果和醫療效率非常重要。本研究評估了ChatGPT-3.5和ChatGPT-4在根據急診入院前24小時的電子健康紀錄生成鑑別診斷清單的表現。結果顯示,兩者在預測身體系統層級的診斷上都相當準確,GPT-4稍優於GPT-3.5,但在具體診斷類別上表現不一,精確度較低。值得注意的是,GPT-4在幾個關鍵類別中展現了更高的準確性,顯示其在處理複雜臨床情況上的優勢。 PubMed DOI

這項研究評估了GPT-4在急診病人分診中所給的緊急嚴重指數(ESI)分數的準確性,並與經驗豐富的醫護人員進行比較。研究涵蓋100名急診病人,結果顯示GPT-4的中位數ESI分數為2.0,而人類評估者為3.0,顯示出顯著差異(p < 0.001),顯示GPT-4可能低估病人嚴重程度。雖然GPT-4提供了新方法,但其低估的傾向顯示在臨床應用中需進一步調整,強調謹慎整合AI技術的重要性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

本研究探討AI模型(如GPT-3.5和GPT-4)在急診科生成病症鑑別診斷的表現,並與急診科醫師的準確性進行比較。結果顯示,ChatGPT-4的準確率為85.5%,略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面,ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值,建議未來進一步探索AI在醫療中的應用。 PubMed DOI