原始文章

這項研究探討了大型語言模型ChatGPT在腎臟科病例分診的有效性,特別是在因人口老化導致腎臟問題增加的情況下。兩位腎臟科醫生設計了100個病人情境,結果顯示ChatGPT在判斷腎臟科需求的準確率高達99-100%,選擇正確子專科的準確率為96-99%,兩輪評估的協議率為97%。雖然結果顯示AI能提升醫療分診的效率與準確性,但仍需改進在複雜病情的多學科護理整合方面。整體而言,研究強調了AI在改善臨床決策及發展量身訂做的分診系統的潛力。 PubMed DOI


站上相關主題文章列表

這項研究評估了AI語言模型GPT-3在診斷和分診的表現,並與一般人和醫生進行比較,使用了48個醫療案例。結果顯示,GPT-3在88%的案例中準確診斷,優於一般人(54%),但低於醫生(96%)。在分診準確性方面,GPT-3達70%,接近一般人(74%),但仍低於醫生(91%)。雖然GPT-3對預測的信心合理,但在急迫案例中準確性下降,偶爾會將緊急案例降為次要。總體而言,GPT-3的診斷表現不錯,但分診效果仍不如醫生。 PubMed DOI

這項研究比較了三層級的分診協議,包括分診護士、急診醫師和人工智慧模型(ChatGPT、Gemini 和 Pi),在2024年4月1日至4月7日於一所三級醫療機構的急診部門進行,分析了500名病人的數據。結果顯示,只有23.8%的病人獲得一致分類,分診護士對6.4%的病人過度分診,且人工智慧模型的分診不足率偏高,特別是ChatGPT在黃碼和紅碼病人中分診不足達26.5%和42.6%。結論指出,急診環境中不應僅依賴人工智慧進行分診。 PubMed DOI

這項研究評估了ChatGPT-4o在急性心臟病案例中的表現,並與心臟科醫生和急診醫生進行比較。結果顯示,ChatGPT-4o和心臟科醫生的準確性均達100%,而急診醫生較低。ChatGPT-4o反應最快,且在準確性和完整性上得分最高。研究顯示,ChatGPT-4o的表現優於人類醫生,顯示其在臨床決策支持上的潛力,但人類監督仍然對安全整合AI進醫療至關重要。 PubMed DOI

這項研究評估了兩個AI語言模型,GPT-3.5和GPT-4,在小兒腎臟科臨床資訊的有效性。40位小兒腎臟科專家對這些模型進行了評分,結果顯示兩者表現相似,GPT-4稍微高一些,但差異不顯著。分析顯示,模型的內部一致性較低,專家經驗與評價無明顯相關。研究指出,這些AI模型雖能提供基本資訊,但未能解決小兒腎臟科的特定挑戰,強調專業訓練和人類監督的重要性。 PubMed DOI

這項研究評估了ChatGPT 4.0在急診部門進行病人分診的效果,並與人類分診人員進行比較。分析了2,658名病人的數據,結果顯示AI與人類的分診協議程度較低(kappa = 0.125)。在人類分診預測30天死亡率和生命救援需求方面,表現明顯優於AI(ROC分別為0.88對0.70及0.98對0.87)。這顯示雖然AI有潛力,但在急診分診中仍不如人類可靠,特別是對高風險病人的評估。 PubMed DOI

研究用360題心臟科考題測試ChatGPT,初始得分54.44%,給予學習資料後提升到79.16%,接近人類平均。ChatGPT在基礎科學和藥理學表現佳,但解剖學較弱,且無法處理圖片等視覺資料。顯示AI能透過學習進步,但還有待改進,未來需更多研究優化醫學教育應用。 PubMed DOI

ChatGPT 在解讀動脈血液氣體分析(ABG)時,對常見急診案例的表現和醫師相當接近,但遇到中毒或混合型酸鹼失衡時準確度就明顯下降。不過,它給的臨床建議都算安全,適合當作輔助工具,但還是不能完全取代專業醫師判斷。 PubMed DOI

這項多中心研究發現,ChatGPT-4o在急診分級的表現整體優於人類分級人員,和急診專科醫師的判斷高度一致(kappa 0.833,F1 0.897)。不過,在醫學中心處理較複雜的急診個案時,ChatGPT的準確度會下降。總結來說,ChatGPT在大多數情境下都很準確,但遇到複雜病例還是有進步空間。 PubMed DOI

最新研究比較四種AI模型在腎臟科問題上的表現,發現GPT-4o最準確且穩定,GPT-4同理心最佳,PaLM 2和Gemini 1.0 Ultra則在部分任務表現突出。結果顯示,生成式AI有助於提升腎臟科病患的溝通與衛教,不同模型可依臨床需求選用。 PubMed DOI

這項研究發現,ChatGPT 3.5在腎臟科決策時,遇到涉及歧視的問題還是會直接回答;而4.0有時會拒絕作答,雖然有進步,但兩者在辨識偏見上還是不夠。研究強調,AI應用在醫療和人事決策時,必須加強規範、DEI指引和倫理監督,才能確保公平公正。 PubMed DOI