這項研究評估了三種大型語言模型(LLMs)—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡(SLE)使用的準確性和完整性。研究設計了十三個問題,兩位風濕病學專家對模型回應進行評分。結果顯示,雖然準確性高,但完整性差異明顯:Copilot 38.5%,GPT-3.5 55.9%,GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面,GPT-4 完整性達100%。研究指出,GPT-4 有潛力改善病人對 SLE 治療的理解,但仍需進一步研究以克服臨床應用的限制。
PubMed
DOI