Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Large language models in methodological quality evaluation of radiomics research based on METRICS: ChatGPT vs NotebookLM vs radiologist.
基於 METRICS 的放射組學研究方法學質量評估中的大型語言模型：ChatGPT 與 NotebookLM 與放射科醫生的比較。 Eur J Radiol 2025-02-12

這項研究評估了大型語言模型（LLMs），特別是ChatGPT-4和NotebookLM，使用METhodological RadiomICs Score（METRICS）工具來檢視放射組學研究的方法學質量。分析了2024年發表的48篇開放存取文章，結果顯示ChatGPT-4的中位數得分為79.5%，優於NotebookLM（61.6%）和人類專家（69.0%），且差異顯著。雖然LLMs在評估速度上較快，但仍需改進，以便更接近人類專家的評估結果。 PubMed DOI

[The use of large language models in medicine and in radiology in particular].
「大型語言模型在醫學中的應用，特別是在放射學中的應用。」 Radiologie (Heidelb) 2025-03-19

將大型語言模型（LLMs）如Claude AI整合進放射學，為報告增強、工作流程優化及臨床決策提供了新機會。Claude在生成結構化內容和識別放射學應用方面表現出色，但使用時需謹慎，因其效果依賴於使用者的批判性評估能力。解決與LLMs相關的倫理和實際挑戰，對維持技術與醫療專業人員的自主性至關重要。隨著生成式AI的發展，謹慎實施將有助於最大化臨床利益並降低風險，確保放射學的安全與有效使用。 PubMed DOI

Comparative Performance of Anthropic Claude and OpenAI GPT Models in Basic Radiological Imaging Tasks.
Anthropic Claude 與 OpenAI GPT 模型在基本放射影像任務中的比較表現。 J Med Imaging Radiat Oncol 2025-04-08

這項研究評估了幾個公開的視覺語言模型（VLMs），特別是Anthropic的Claude和OpenAI的GPT，在解讀放射影像的能力。研究使用ROCOv2和MURAv1.1數據集，測試六個VLM在識別影像模式、解剖結構及檢測X光片骨折的表現。結果顯示，某些模型在模式識別上達到高準確率，但解剖識別的準確率僅在61%到85%之間。雖然Claude-3.5-Sonnet和GPT-4o在特定任務上表現不錯，但整體準確性仍不足以支持臨床應用，需進一步開發和標準化測試。 PubMed DOI

Diagnostic performance of multimodal large language models in radiological quiz cases: the effects of prompt engineering and input conditions.
多模態大型語言模型於放射學問答案例中的診斷表現：提示工程與輸入條件的影響 Ultrasonography 2025-04-16

這項研究比較三款多模態大型語言模型在解讀放射影像的表現，發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字，都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說，善用提示工程和豐富輸入資料，有助提升 LLMs 在放射科的應用效能。 PubMed DOI

Accuracy of Large Language Models When Answering Clinical Research Questions: Systematic Review and Network Meta-Analysis.
大型語言模型在回答臨床研究問題時的準確性：系統性回顧與網絡統合分析 J Med Internet Res 2025-04-30

這篇回顧分析168篇研究，發現ChatGPT-4o在選擇題最準，ChatGPT-4開放式問題表現最好，但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出，Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

Comparative performance of large language models in structuring head CT radiology reports: multi-institutional validation study in Japan.
大型語言模型在結構化頭部電腦斷層放射報告的表現比較：日本多機構驗證研究 Jpn J Radiol 2025-05-14

這項研究比較了Claude、GPT和Gemini三種大型語言模型，從日文頭部CT報告中擷取顱內出血和顱骨骨折資訊的表現。三種模型表現都不錯，其中以Claude最準確。提示設計會影響模型表現，尤其是Gemini。常見錯誤多因報告內容模糊。整體來說，大型語言模型能有效結構化放射報告，但提示設計還需優化，也要在不同語言和實際情境下再測試。 PubMed DOI

Evaluation of large language models in generating pulmonary nodule follow-up recommendations.
大型語言模型在產生肺結節追蹤建議之評估 Eur J Radiol Open 2025-05-20

這篇研究發現，GPT-4o-mini和ERNIE-4.0-Turbo-8K在根據放射科報告給肺結節追蹤建議時，準確率都超過九成，表現和專業醫師差不多，錯誤建議也很少。雖然這些AI有潛力協助放射科決策，但實際應用前還是要嚴格驗證和監督，確保病人安全。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

Comparative analysis of large language models in clinical diagnosis: performance evaluation across common and complex medical cases.
大型語言模型於臨床診斷的比較分析：於常見與複雜醫療案例中的表現評估 JAMIA Open 2025-06-13

這項研究比較了多款主流大型語言模型（如Claude、GPT、Gemini）在臨床診斷上的表現。結果顯示，這些AI在常見病例的診斷準確率都超過九成，Claude 3.7甚至有滿分表現；在複雜案例中，Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調，未來應把AI工具實際整合進臨床與醫學教育，提升照護品質。 PubMed DOI

原始文章

站上相關主題文章列表