這項研究探討大型語言模型(LLMs),特別是ChatGPT-4和Microsoft Copilot在小兒外科的有效性。研究於2024年4月進行,分析了13個臨床案例,並將AI的回應與經驗豐富的小兒外科醫生的回應進行比較。結果顯示,ChatGPT-4的表現(52.1%)優於Copilot(47.9%),但兩者都低於醫生的68.8%。雖然ChatGPT-4在生成鑑別診斷方面表現較佳,但整體上,醫生對LLMs的評價為一般,顯示出其在臨床決策中的限制,需進一步研究以提升AI的應用能力。
PubMed
DOI