這項研究評估了三個大型語言模型(LLMs)—ChatGPT 4.0、Bard 和 LLaMA—在提供免疫檢查點抑制劑(ICIs)相關眼部毒性資訊的表現。研究提出八個問題,並由四位眼科醫生使用6點李克特量表評分。結果顯示,三者在準確性和完整性上評分相似,無顯著差異。平均評分為:ChatGPT(準確性4.59,完整性4.09)、Bard(準確性4.59,完整性4.19)、LLaMA(準確性4.38,完整性4.03)。整體而言,這三個模型在提供ICI眼部毒性資訊方面表現良好,但評分者之間的可靠性較低,建議未來需進一步研究。
PubMed
DOI