原始文章

本研究探討AI模型(如GPT-3.5和GPT-4)在急診科生成病症鑑別診斷的表現,並與急診科醫師的準確性進行比較。結果顯示,ChatGPT-4的準確率為85.5%,略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面,ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值,建議未來進一步探索AI在醫療中的應用。 PubMed DOI


站上相關主題文章列表

研究比較了最新的人工智慧模型 GPT-4 與前身 GPT-3.5 在81個複雜醫學案例的表現。GPT-4 在主要診斷準確率達38.3%,在不同診斷方面提高至71.6%。它在84.0%的案例提出主要診斷建議,大多數領域優於GPT-3.5,除了藥物反應。GPT-4 在感染性疾病和藥物反應方面表現優異,但在認知障礙案例中稍差。總的來說,GPT-4 在準確診斷、全面不同診斷和適當調查方面展現潛力,雖然表現因醫學專業領域而略有不同。 PubMed DOI

研究比較了GPT-3.5和GPT-4與人類醫師在急診部門計算醫學分數的表現。結果顯示,雖然人工智慧模型有些表現接近人類醫師,但在預測能力上,人類醫師的專業知識仍然更勝一籌。建議將人工智慧當作輔助工具,而非取代急診部門等重要環境中的人類專業知識。未來需進一步研究,發揮人工智慧在急診醫學領域的潛力。 PubMed DOI

研究指出,像ChatGPT這樣的大型語言模型對神經外科醫生在處理臨床病例時有幫助。ChatGPT 3.5和4.0在診斷方面比Perplexity AI和Bard AI更準確,前五個診斷中達到77.89%的正確率。然而,對於複雜疾病仍有挑戰。總的來說,LLMs有助於提升神經外科診斷的精準度。 PubMed DOI

這項研究評估了由人工智慧驅動的聊天機器人GPT-4在醫學病例報告中從潛在診斷清單中識別最終診斷的能力。GPT-4在識別最終診斷方面與醫師表現出公平至良好的一致性,顯示其有潛力協助臨床決策。需要在真實世界情境和不同臨床環境中進行進一步驗證,以充分了解其在醫學診斷中的實用性。 PubMed DOI

研究比較了ChatGPT、GPT-3.5和GPT-4在急診科環境中的診斷能力。結果顯示,GPT-4在內科緊急情況的診斷上比GPT-3.5和住院醫師表現更好,尤其在心血管、內分泌和消化系統疾病方面。這顯示GPT-4有潛力成為急診科中有用的診斷工具。 PubMed DOI

這項研究評估了AI語言模型GPT-3在診斷和分診的表現,並與一般人和醫生進行比較,使用了48個醫療案例。結果顯示,GPT-3在88%的案例中準確診斷,優於一般人(54%),但低於醫生(96%)。在分診準確性方面,GPT-3達70%,接近一般人(74%),但仍低於醫生(91%)。雖然GPT-3對預測的信心合理,但在急迫案例中準確性下降,偶爾會將緊急案例降為次要。總體而言,GPT-3的診斷表現不錯,但分診效果仍不如醫生。 PubMed DOI

在急診部門,快速且準確的診斷對病人結果和醫療效率非常重要。本研究評估了ChatGPT-3.5和ChatGPT-4在根據急診入院前24小時的電子健康紀錄生成鑑別診斷清單的表現。結果顯示,兩者在預測身體系統層級的診斷上都相當準確,GPT-4稍優於GPT-3.5,但在具體診斷類別上表現不一,精確度較低。值得注意的是,GPT-4在幾個關鍵類別中展現了更高的準確性,顯示其在處理複雜臨床情況上的優勢。 PubMed DOI

這項研究評估了ChatGPT(GPT-3.5和GPT-4)在根據放射學轉錄生成鑑別診斷的表現。分析了339個案例,結果顯示GPT-4的準確性較高,正確診斷比例為66.1%,而GPT-3.5為53.7%。雖然GPT-4在準確性和虛構參考文獻方面表現較佳,但兩者在重複性上仍有問題。總體來看,ChatGPT在醫學上可作為有用工具,但使用時需謹慎以避免不準確性。 PubMed DOI

這項研究評估了GPT-4在急診病人分診中所給的緊急嚴重指數(ESI)分數的準確性,並與經驗豐富的醫護人員進行比較。研究涵蓋100名急診病人,結果顯示GPT-4的中位數ESI分數為2.0,而人類評估者為3.0,顯示出顯著差異(p < 0.001),顯示GPT-4可能低估病人嚴重程度。雖然GPT-4提供了新方法,但其低估的傾向顯示在臨床應用中需進一步調整,強調謹慎整合AI技術的重要性。 PubMed DOI

這項回顧性研究評估了不同ChatGPT模型(如GPT-3.5、GPT-4等)在預測急診病人診斷的表現。研究針對30名病人,發現GPT-3.5在前三名鑑別診斷的準確率高達80%,但主要診斷的準確率僅47.8%。較新的模型如chatgpt-4o-latest在主要診斷的準確率提升至60%。要求模型提供推理過程也有助於改善表現。不過,所有模型在處理非典型案例時仍面臨挑戰,顯示其在急診環境中的應用限制。 PubMed DOI