Evaluating the reference accuracy of large language models in radiology: a comparative study across subspecialties.

放射科大型語言模型參考文獻準確性的評估：跨次專科的比較研究

<think> 嗯，首先我要分析这篇关于大型语言模型在放射科参考准确性的研究。研究的主要目的是比较六个LLM在生成放射学参考文献中的准确性，包括准确性、虚构内容和文献完整性。他们选用了跨八个亚专科的120个开放式问题，每个亚专科15个问题，让每个模型生成包含四个参考文献的回答，然后通过Medline、Google Scholar等工具验证这些参考文献的准确性。研究设计方面，这是一个横断面观察性研究，使用了非参数检验方法，如Kruskal-Wallis和Wilcoxon符号秩检验，这些方法适合处理非正态分布的数据。评分系统从0到36分，再转换成五级Likert量表，这样可以更细致地评估参考文献的准确性。结果显示，Claude 3.5 Sonnet表现最好，80.8%的参考文献完全准确，而虚构率只有3.1%。而ChatGPT系列模型的表现较差，尤其是Google Gemini 1.5 Pro，准确率只有2.7%，虚构率高达60.6%。此外，不同亚专科之间的表现也有差异，神经放射科和心脏放射科表现较好，而儿科和头颈放射科则较差。在解释结果时，研究发现Claude 3.5 Sonnet的高准确性可能是因为其训练数据更全面或算法更优化。而ChatGPT和Google Gemini的差表现可能与训练目标或数据有关，比如更注重生成流畅的文本而非准确性。此外，研究还指出，放射科的复杂性和专业性可能影响模型的表现，某些亚专科的文献可能更难生成准确的参考文献。关于局限性，研究可能没有涵盖所有放射科亚专科，样本量可能有限，且评估标准可能存在主观性。此外，模型的更新可能会影响结果，研究可能无法涵盖最新版本的模型。未来研究可以考虑更大规模的样本，包括更多亚专科和模型版本。同时，需要开发更严格的评估标准，以确保参考文献的准确性。此外，研究还可以探讨如何改进模型的训练，使其在生成参考文献时更准确，减少虚构内容。总的来说，这项研究为临床和学术界提供了重要的参考，指出了当前LLM在生成参考文献中的优劣，并强调了在临床应用中谨慎使用这些模型的必要性。未来，随着模型的不断进步，可能会有更可靠的工具出现，但目前仍需以谨慎的态度对待。 </think> ### 1. 研究目的與假設研究旨在比較六個大型語言模型（LLMs）在放射科生成參考文獻的準確性。主要探討問題包括：這些模型在準確性、虛構內容和書目完整性上的表現如何？研究假設是Claude 3.5 Sonnet和Claude 3 Opus可能表現較好，而ChatGPT和Google Gemini Pro則可能存在較高的虛構率。 ### 2. 方法與設計研究採用了跨-sectional觀察性研究，使用120個問題分佈在八個亞專科，每個模型需提供四個參考文獻並經過多方查核。評分系統合理，分數範圍0-36，再轉換為五級量表。非參數檢測方法適合用於非正態分布數據，具有優點，但可能缺乏對個體差異的考慮，且樣本量可能限制結果的普適性。 ### 3. 數據解釋與結果 Claude 3.5 Sonnet取得最高準確率（80.8%），虛構率最低（3.1%），而Google Gemini Pro表現最差，僅2.7%準確，虛構率高達60.6%。結果支撐假設，顯示Claude系列優於其他模型。解釋上，Claude的訓練資料或演算法可能更佳，而ChatGPT系列可能更注重生成流暢的文本而非準確性。 ### 4. 局限性與偏見研究可能存在樣本量限制，未涵蓋所有亞專科，且評估標準可能存在主觀性。未考慮到的變項包括模型更新版本的影響，以及不同亞專科文獻的複雜性差異。 ### 5. 臨床及未來研究意涵研究結果強調在臨床應用中需謹慎使用LLMs，建議未來研究考慮更大樣本、更多模型版本，並探討改善模型訓練的方法，以提高參考文獻的準確性。 ### 6. 其他觀點其他可能解釋包括不同模型的設計目標，例如ChatGPT更擅長生成文本而非學術參考。此外，放射科的複雜性可能影響模型表現，某些亞專科的文獻可能更難生成。未來研究可探討模型在不同醫學領域的表現差異，以提供更全面的評估。