這項研究比較了十五個大型語言模型(LLMs)在處理眼科案例的表現,測試來自《JAMA Ophthalmology》的二十個案例。結果顯示,這些模型的平均得分為19,三個模型(ChatGPT 3.5、Claude Pro和Copilot Pro)表現優於平均,其中Copilot Pro得分最高。雖然這些模型的可讀性高於八年級水平,對一般人來說較難理解,但對眼科醫生則可接受。研究認為,雖然LLMs的準確性不足以單獨用於病人護理,但在協助醫生方面顯示出潛力,特別是訂閱制模型。
PubMed
DOI
♡