原始文章

這項研究評估了ChatGPT 4.0在急診部分診的診斷準確性和效率。透過系統性回顧和統合分析,分析了14項研究,涵蓋1,412名患者。結果顯示,ChatGPT 4.0的準確率為0.86,明顯高於3.5版本的0.63。雖然4.0版本顯示出提升急診分診準確性的潛力,但仍存在顯著的變異性和潛在偏差,需進一步研究和改進。 PubMed DOI


站上相關主題文章列表

這項研究比較了三層級的分診協議,包括分診護士、急診醫師和人工智慧模型(ChatGPT、Gemini 和 Pi),在2024年4月1日至4月7日於一所三級醫療機構的急診部門進行,分析了500名病人的數據。結果顯示,只有23.8%的病人獲得一致分類,分診護士對6.4%的病人過度分診,且人工智慧模型的分診不足率偏高,特別是ChatGPT在黃碼和紅碼病人中分診不足達26.5%和42.6%。結論指出,急診環境中不應僅依賴人工智慧進行分診。 PubMed DOI

這項研究評估了ChatGPT-4在住院神經科的診斷準確性,並與顧問神經科醫師進行比較。研究使用Epic電子健康紀錄的病人數據,CG4為51位病人生成了初步診斷和治療計畫。結果顯示,CG4的平均得分為2.57,顧問醫師為2.75,整體成功率相近(CG4為96.1%,顧問醫師為94.1%)。雖然顧問醫師的全面診斷可能性略高,但CG4仍被視為神經科有價值的診斷工具。未來需進一步研究以驗證這些結果。 PubMed DOI

這項研究評估了ChatGPT在伊朗醫學考試的表現,基礎科學考試準確率介於32%到72%之間,實習前考試為34%到68.5%,住院醫師考試則在32%到84%之間。英文輸入的表現優於波斯文。特別是在牙髓學考試中,準確率為40%。作者建議制定指導方針和檢查清單,以提升研究質量和一致性,目標是將ChatGPT打造成醫學教育和實踐中的有用輔助工具。 PubMed DOI

這項研究評估了ChatGPT在根據院前病患照護報告預測診斷的準確性,結果顯示其正確率為75%。在診斷不一致的情況下,急診醫師認為救護人員在約23%的案例中更可能正確。值得注意的是,只有一個案例中AI的診斷可能對病患造成危險,顯示風險極低。總體來看,雖然ChatGPT的準確率穩定,但它常建議比救護人員更嚴重的診斷,可能導致過度分流的情況。 PubMed DOI

這項研究評估了大型語言模型ChatGPT在系統性回顧和統合分析中的表現,特別是在脊髓刺激後情緒功能的數據上。結果顯示,ChatGPT在標題和摘要篩選的準確率為70.4%,而全文篩選的準確率為68.4%。在數據整合方面,ChatGPT的準確率達到100%。雖然在篩選任務中表現中等,但在數據整合上表現優異。研究指出,人工智慧能提升系統性回顧的效率,但仍需人類監督以確保研究質量。 PubMed DOI

這項研究評估了ChatGPT 4.0在急診部門進行病人分診的效果,並與人類分診人員進行比較。分析了2,658名病人的數據,結果顯示AI與人類的分診協議程度較低(kappa = 0.125)。在人類分診預測30天死亡率和生命救援需求方面,表現明顯優於AI(ROC分別為0.88對0.70及0.98對0.87)。這顯示雖然AI有潛力,但在急診分診中仍不如人類可靠,特別是對高風險病人的評估。 PubMed DOI

這項回顧性研究評估了不同ChatGPT模型(如GPT-3.5、GPT-4等)在預測急診病人診斷的表現。研究針對30名病人,發現GPT-3.5在前三名鑑別診斷的準確率高達80%,但主要診斷的準確率僅47.8%。較新的模型如chatgpt-4o-latest在主要診斷的準確率提升至60%。要求模型提供推理過程也有助於改善表現。不過,所有模型在處理非典型案例時仍面臨挑戰,顯示其在急診環境中的應用限制。 PubMed DOI

這項多中心研究發現,ChatGPT-4o在急診分級的表現整體優於人類分級人員,和急診專科醫師的判斷高度一致(kappa 0.833,F1 0.897)。不過,在醫學中心處理較複雜的急診個案時,ChatGPT的準確度會下降。總結來說,ChatGPT在大多數情境下都很準確,但遇到複雜病例還是有進步空間。 PubMed DOI

這篇綜述指出,ChatGPT 4 在急診室主要能協助語言生成和行政工作,但在複雜醫療決策上還不夠穩定。現有實證有限且結果不一,顯示這領域還在發展。新版 ChatGPT 有進步,未來應用值得期待。文中也提供急診醫師現階段的實用操作建議。 PubMed DOI

Bagde 等人(2023)系統性回顧發現,ChatGPT 在醫學和牙醫領域的研究、教育及臨床決策上有潛力,但目前仍有準確性、可靠性和倫理等問題待解決,需更多高品質研究來驗證其效益。 PubMed DOI