這項研究探討了大型語言模型(LLMs),特別是ChatGPT-4o和Claude 3-Opus,在超音波影像中分類甲狀腺結節的表現。研究涵蓋112位患者的116個結節,結果顯示ChatGPT-4o的Kappa值為0.116,Claude 3-Opus更低,僅0.034,而初級放射科醫師的Kappa值為0.450,顯示中等協議。ROC曲線方面,ChatGPT-4o的AUC為57.0%,Claude 3-Opus為52.0%,醫師則為72.4%。兩個LLM的不必要活檢率也高,分別為41.4%和43.1%,醫師僅12.1%。這顯示LLMs在醫學影像的診斷準確性仍有限,需謹慎使用。 PubMed DOI