Evaluating the reference accuracy of large language models in radiology: a comparative study across subspecialties.

放射科大型語言模型參考文獻準確性的評估:跨次專科的比較研究

<think> 嗯,首先我要分析这篇关于大型语言模型在放射科参考准确性的研究。研究的主要目的是比较六个LLM在生成放射学参考文献中的准确性,包括准确性、虚构内容和文献完整性。他们选用了跨八个亚专科的120个开放式问题,每个亚专科15个问题,让每个模型生成包含四个参考文献的回答,然后通过Medline、Google Scholar等工具验证这些参考文献的准确性。 研究设计方面,这是一个横断面观察性研究,使用了非参数检验方法,如Kruskal-Wallis和Wilcoxon符号秩检验,这些方法适合处理非正态分布的数据。评分系统从0到36分,再转换成五级Likert量表,这样可以更细致地评估参考文献的准确性。 结果显示,Claude 3.5 Sonnet表现最好,80.8%的参考文献完全准确,而虚构率只有3.1%。而ChatGPT系列模型的表现较差,尤其是Google Gemini 1.5 Pro,准确率只有2.7%,虚构率高达60.6%。此外,不同亚专科之间的表现也有差异,神经放射科和心脏放射科表现较好,而儿科和头颈放射科则较差。 在解释结果时,研究发现Claude 3.5 Sonnet的高准确性可能是因为其训练数据更全面或算法更优化。而ChatGPT和Google Gemini的差表现可能与训练目标或数据有关,比如更注重生成流畅的文本而非准确性。此外,研究还指出,放射科的复杂性和专业性可能影响模型的表现,某些亚专科的文献可能更难生成准确的参考文献。 关于局限性,研究可能没有涵盖所有放射科亚专科,样本量可能有限,且评估标准可能存在主观性。此外,模型的更新可能会影响结果,研究可能无法涵盖最新版本的模型。 未来研究可以考虑更大规模的样本,包括更多亚专科和模型版本。同时,需要开发更严格的评估标准,以确保参考文献的准确性。此外,研究还可以探讨如何改进模型的训练,使其在生成参考文献时更准确,减少虚构内容。 总的来说,这项研究为临床和学术界提供了重要的参考,指出了当前LLM在生成参考文献中的优劣,并强调了在临床应用中谨慎使用这些模型的必要性。未来,随着模型的不断进步,可能会有更可靠的工具出现,但目前仍需以谨慎的态度对待。 </think> ### 1. 研究目的與假設 研究旨在比較六個大型語言模型(LLMs)在放射科生成參考文獻的準確性。主要探討問題包括:這些模型在準確性、虛構內容和書目完整性上的表現如何?研究假設是Claude 3.5 Sonnet和Claude 3 Opus可能表現較好,而ChatGPT和Google Gemini Pro則可能存在較高的虛構率。 ### 2. 方法與設計 研究採用了跨-sectional觀察性研究,使用120個問題分佈在八個亞專科,每個模型需提供四個參考文獻並經過多方查核。評分系統合理,分數範圍0-36,再轉換為五級量表。非參數檢測方法適合用於非正態分布數據,具有優點,但可能缺乏對個體差異的考慮,且樣本量可能限制結果的普適性。 ### 3. 數據解釋與結果 Claude 3.5 Sonnet取得最高準確率(80.8%),虛構率最低(3.1%),而Google Gemini Pro表現最差,僅2.7%準確,虛構率高達60.6%。結果支撐假設,顯示Claude系列優於其他模型。解釋上,Claude的訓練資料或演算法可能更佳,而ChatGPT系列可能更注重生成流暢的文本而非準確性。 ### 4. 局限性與偏見 研究可能存在樣本量限制,未涵蓋所有亞專科,且評估標準可能存在主觀性。未考慮到的變項包括模型更新版本的影響,以及不同亞專科文獻的複雜性差異。 ### 5. 臨床及未來研究意涵 研究結果強調在臨床應用中需謹慎使用LLMs,建議未來研究考慮更大樣本、更多模型版本,並探討改善模型訓練的方法,以提高參考文獻的準確性。 ### 6. 其他觀點 其他可能解釋包括不同模型的設計目標,例如ChatGPT更擅長生成文本而非學術參考。此外,放射科的複雜性可能影響模型表現,某些亞專科的文獻可能更難生成。未來研究可探討模型在不同醫學領域的表現差異,以提供更全面的評估。