本研究比較了開源人工智慧大型語言模型(LLMs)在撰寫脈衝鈦鋁石榴石(p-Tm:YAG)激光系統性回顧的準確性,與一篇由內尿路學專家撰寫的基準系統性回顧進行對比。四個LLMs(ChatGPT3.5、Vercel、Claude和Mistral-7b)被要求撰寫相關內容。結果顯示,人類撰寫的系統性回顧準確性顯著高於LLMs,得分分別為96%和86.8%。雖然ChatGPT3.5的表現最佳,但整體準確性仍低於專家。研究指出,LLMs在臨床應用中需有人監督,因為其在技術性主題上的準確性仍不足。
PubMed
DOI
♡