本研究評估四種大型語言模型(LLMs)在回答內眼炎病人問題的準確性、可靠性和可讀性。兩位眼科醫生使用五點李克特量表評估25個問題的回答,並用DISCERN量表測量可靠性,Flesch可讀性指數和Flesch-Kincaid年級水平評估可讀性。結果顯示,A-Eye Consult和ChatGPT-4.0的回答比Google Gemini和Copilot更全面且準確,且兩者的得分顯著高於後者。結論是,A-Eye Consult和ChatGPT-4.0在可靠性和準確性上優於其他模型。
PubMed
DOI