這項研究探討大型語言模型(LLMs)在教育患者有關矯正角膜塑形術的有效性。研究人員建立了24個相關問題的題庫,並使用GPT-4、Qwen-72B和Yi-34B生成中文回應。評估透過線上平台及眼科醫生和父母的主觀評價進行。
主要發現包括:
- Qwen-72B的回應最短。
- GPT-4的可讀性較低。
- 三個LLM在安全性、相關性等方面無顯著差異。
- 父母對所有LLM評價高,GPT-4在幫助性和滿意度上最佳。
- Qwen-72B的整體分數最高。
總體而言,GPT-4和Qwen-72B提供準確的資訊,但仍需改進以提升精確度。
PubMed
DOI