Evaluating the reference accuracy of large language models in radiology: a comparative study across subspecialties.
放射科大型語言模型參考文獻準確性的評估:跨次專科的比較研究
Diagn Interv Radiol 2025-05-12
這項研究發現,Claude 3.5 Sonnet 在產生放射科參考文獻時最準確,正確率高達 80.8%,捏造比例僅 3.1%,明顯勝過其他模型。相較之下,ChatGPT 和 Google Gemini 1.5 Pro 的正確率較低,捏造比例甚至高達 60.6%。不同放射科次專科的正確率也有差異。整體來說,Claude 3.5 Sonnet 學術可靠度高,其他模型則有誤導風險,引用功能還需加強。
PubMedDOI♡
站上相關主題文章列表
Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響:前瞻性比較分析。
JMIR Med Educ 2025-01-17
Large language models in methodological quality evaluation of radiomics research based on METRICS: ChatGPT vs NotebookLM vs radiologist.
基於 METRICS 的放射組學研究方法學質量評估中的大型語言模型:ChatGPT 與 NotebookLM 與放射科醫生的比較。
Eur J Radiol 2025-02-12
Comparative Performance of Anthropic Claude and OpenAI GPT Models in Basic Radiological Imaging Tasks.
Anthropic Claude 與 OpenAI GPT 模型在基本放射影像任務中的比較表現。
J Med Imaging Radiat Oncol 2025-04-08
Diagnostic performance of multimodal large language models in radiological quiz cases: the effects of prompt engineering and input conditions.
多模態大型語言模型於放射學問答案例中的診斷表現:提示工程與輸入條件的影響
Ultrasonography 2025-04-16
這項研究比較三款多模態大型語言模型在解讀放射影像的表現,發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字,都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說,善用提示工程和豐富輸入資料,有助提升 LLMs 在放射科的應用效能。
PubMedDOI
Accuracy of Large Language Models When Answering Clinical Research Questions: Systematic Review and Network Meta-Analysis.
大型語言模型在回答臨床研究問題時的準確性:系統性回顧與網絡統合分析
J Med Internet Res 2025-04-30
Comparative performance of large language models in structuring head CT radiology reports: multi-institutional validation study in Japan.
大型語言模型在結構化頭部電腦斷層放射報告的表現比較:日本多機構驗證研究
Jpn J Radiol 2025-05-14
Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估:與人類表現的比較研究
Acad Radiol 2025-05-28
Comparative analysis of large language models in clinical diagnosis: performance evaluation across common and complex medical cases.
大型語言模型於臨床診斷的比較分析:於常見與複雜醫療案例中的表現評估
JAMIA Open 2025-06-13