Evaluating Large Language Models for imaging modality selection: Potential to reduce unnecessary contrast agent use and radiation exposure.

評估大型語言模型於影像檢查方式選擇之應用：降低不必要對比劑使用與輻射暴露的潛力

<think> 嗯，我需要分析這篇PubMed的研究。首先，我得仔細閱讀標題和摘要，了解研究的主旨。標題是“Evaluating Large Language Models for imaging modality selection: Potential to reduce unnecessary contrast agent use and radiation exposure.”，看來是評估大型語言模型（LLMs）在醫學影像選擇上的表現，特別是減少不必要的顯影劑使用和輻射暴露。摘要提到，這項研究評估了來自不同供應商的LLMs在選擇適當醫學影像模式上的性能，並將其與臨床醫生的回答進行比較。研究設計是橫斷面實驗，使用了120個ACR AC的臨床情境和120個多面向的實用臨床情境，分為乳腺、心臟、胃腸道等部門。使用三個不同的提示來評估四個LLMs的性能，還有四個臨床醫生和四個不同年資的放射科醫生。結果顯示，所有LLMs在三個提示下的建議一致，且DeepSeek-R1在ACR臨床情境中98.3%的準確率，優於其他模型，且在現實情境中表現優於住院醫師和臨床醫生。短期和長期的再現性評估結果也顯示LLMs具有良好的穩定性。首先，研究目的很明確，想探討LLMs在選擇影像模式上的效果，尤其是減少不必要的顯影劑和輻射。這可能是為了提升醫療效率和降低風險。研究方法方面，使用橫斷面設計和實驗，測試不同的模型和臨床醫生的表現。優點是控制變量，評估LLMs在不同情境下的準確性和一致性。缺點可能是缺乏長期跟蹤，或者臨床應用的真實測試。數據解釋方面，DeepSeek-R1表現優異，這可能支持研究假設，LLMs能有效選擇影像模式。但可能存在選擇偏差，比如模型訓練資料是否全面。局限性包括樣本量可能不足，或者情境可能不夠多樣化。未考慮到的變數可能包括醫生之間的經驗差異或個案的複雜性。臨床意義方面，LLMs可以幫助醫生做出更安全的選擇，減少不必要的檢查。但需要更多實驗驗證其安全性和有效性。其他可能的解釋是，LLMs在特定情境下表現良好，但在更複雜或罕見病例中可能效果不佳。未來研究可能需要考慮更多樣化的案例和臨床環境。總的來說，這篇研究展示了LLMs在醫學影像選擇上的潛力，但仍需更多研究來確認其在真實臨床環境中的效果。 </think> ### 研究目的與假設該研究主要探討了大型語言模型（LLMs）在選擇適當醫學影像模式上的性能，特別是針對不同的臨床情境和醫學專業。研究假設LLMs能夠準確選擇影像模式，並且其性能可能與經驗豐富的放射科醫生相媲美，從而有助於減少不必要的顯影劑使用和輻射暴露。 ### 方法與設計研究採用橫斷面實驗設計，評估四個不同供應商的LLMs，並與四位臨床醫生和四位不同年資的放射科醫生進行比較。使用了120個ACR AC的臨床情境和120個多面向的實用臨床情境，分為乳腺、心臟、胃腸道等部門。每個情境使用三個不同的提示來評估模型的表現，並根據ACR AC分類結果。優點是控制變量，評估LLMs在不同情境下的準確性和一致性。潛在缺陷包括缺乏長期跟蹤和真實臨床應用的測試。 ### 數據解釋與結果研究結果顯示，所有LLMs在三個提示下的建議一致（κ=1），DeepSeek-R1在ACR臨床情境中98.3%的準確率，優於其他模型，且在現實情境中表現優於住院醫師和臨床醫生。短期和長期的再現性評估結果也顯示LLMs具有良好的穩定性。這些結果支撐了研究假設，LLMs在選擇影像模式上具有顯著潛力。 ### 局限性與偏見研究可能存在樣本量不足或情境不夠多樣化的局限性。未考慮到的變數包括醫生之間的經驗差異或個案的複雜性。潛在的偏見可能來自於模型訓練資料的選擇和測試情境的設置。 ### 臨床及未來研究意涵研究結果表明，LLMs在醫學影像選擇上具有潛力，可能幫助醫生做出更安全的選擇，減少不必要的檢查。未來研究應進一步驗證其在真實臨床環境中的效果，考慮更多樣化的案例和臨床環境。 ### 其他觀點其他可能的解釋是，LLMs在特定情境下表現良好，但在更複雜或罕見病例中可能效果不佳。未來研究可能需要考慮更多樣化的案例和臨床環境，以提升模型的適用性和可靠性。