這項研究評估了優化與未優化的大型語言模型(LLMs)在骨科領域的表現。研究團隊建立了一個專門的知識庫,並針對三十個骨科問題,向不同版本的GPT-4、ChatGLM和Spark LLM提問,結果由三位骨科醫生評估。結果顯示,優化版的表現明顯優於未優化版,GPT-4的質量、準確性和全面性分別提高了15.3%、12.5%和12.8%;ChatGLM則提高了24.8%、16.1%和19.6%;Spark LLM的提升幅度也相當可觀。這顯示優化知識庫能有效提升LLMs在特定領域的表現。
PubMed
DOI