The performance of large language models in dentomaxillofacial radiology: a systematic review.

大型語言模型在齒顎顏面放射學的表現：系統性回顧

<think> 好，我现在要分析这篇关于大型语言模型在齿科颅面放射学中性能的系统综述的文章。首先，我需要理解研究的目的和假设。研究主要是评估LLMs在DMFR中的表现，可能假设LLMs在这个领域有潜力，但也存在一些限制。接下来，看看方法和设计。他们用了系统综述，搜索了五个数据库，筛选了19篇研究。数据提取很详细，包括研究目的、模型类型、数据来源等，这应该是合理的。但可能缺乏长期跟踪数据，且数据库可能有偏见。然后，数据解释和结果。LLMs在诊断中的准确率差异大，从37%到92.5%，这可能说明在不同任务中的表现不一。考试题目正确率也中等，这可能是因为这些任务需要更专业的知识。此外，自动报告生成的表现较好，可能是因为结构化的数据更适合LLMs。关于局限性，研究可能没有考虑到不同品牌或版本的LLMs，或者不同地区的数据差异。另外，评估标准的统一性也是一个问题，可能导致结果不一致。临床和未来的意义，LLMs在教育和辅助诊断方面有潜力，但需要更多验证和标准化。未来的研究可以多中心验证，或者开发更专业的模型。其他观点，可能LLMs在生成报告时表现更好，因为结构化输出更容易，但诊断需要更复杂的推理能力。另外，数据来源的多样性可能影响结果，未来可以更均衡地收集数据。总体来说，这篇综述提供了全面的LLMs在DMFR中的现状，但也指出了很多需要改进的地方。 </think> ### 1. 研究目的與假設該研究旨在系統性回顧大型語言模型（LLMs）在齿科颅面放射学（DMFR）中的表現。研究假設LLMs在診斷、教育和報告生成等任務中具有潛力，但其準確性和一致性可能仍有待改善。 ### 2. 方法與設計研究採用系統性回顧法，檢索五個電子數據庫，篩選出19篇研究。評估偏差風險時，使用自訂準則，考慮數據來源、性能評估方法及參考標準。優點是系統性評估，確保全面性。缺點是缺乏長期跟踪數據，可能忽略某些重要變數。 ### 3. 數據解釋與結果 LLMs在診斷中的準確率差異大（37%-92.5%），表明在不同任務中的表現不一。考試題目正確率中等，可能因為需要更專業知識。報告生成表現較好（70.4%-81.3%），可能因為結構化數據更適合LLMs。 ### 4. 局限性與偏見研究可能忽略了不同品牌或版本的LLMs，且數據庫偏見可能影響結果。評估標準不統一可能導致結果不一致。 ### 5. 臨床及未來研究意涵 LLMs在教育和輔助診斷中有潛力，但需更多驗證和標準化。未來研究建議多中心驗證，開發更專業的模型。 ### 6. 其他觀點 LLMs在報告生成中表現更好，因為結構化輸出更易處理。數據來源多樣性可能影響結果，未來可更均衡收集數據。 ### 總結該研究提供了全面的LLMs在DMFR中的現狀，但也指出了改進方向，未來研究需針對這些限制進行深入探討。