Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Performance evaluation of ChatGPT-4.0 and Gemini on image-based neurosurgery board practice questions: A comparative analysis.
ChatGPT-4.0 與 Gemini 在影像基礎神經外科考試問題上的表現評估：比較分析。 J Clin Neurosci 2025-02-12

這項研究比較了兩個大型語言模型，ChatGPT-4.0 和 Gemini，在解釋神經外科影像問題上的表現。研究提出250個問題，結果顯示ChatGPT-4.0的正確回答率為33.6%，明顯優於Gemini的0.4%。在某本教科書的問題中，ChatGPT-4.0的正確率達50%，而另一個教科書則為17.7%。Gemini的「無法回答」率高，顯示其在影像解釋上存在困難。這些結果顯示，AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

Textual Proficiency and Visual Deficiency: A Comparative Study of Large Language Models and Radiologists in MRI Artifact Detection and Correction.
文本能力與視覺缺陷：大型語言模型與放射科醫生在 MRI 伪影檢測與修正中的比較研究。 Acad Radiol 2025-02-12

這項研究評估大型語言模型（LLMs）在檢測和修正MRI伪影的表現，並與放射科醫生進行比較。研究分為三個階段： 1. 第一階段中，六個LLMs和五位放射科醫生回答42個文本問題，LLMs表現優於醫生，ChatGPT o1-preview得分最高。 2. 第二階段，放射科醫生評估100張含伪影的MRI影像，醫生的表現明顯優於LLMs，資深醫生準確率高。 3. 第三階段在1.5個月後重新評估，檢查回應一致性。結果顯示，LLMs在文本任務中表現佳，但在視覺解釋上仍有挑戰，建議作為教育工具或輔助系統使用。 PubMed DOI

Performance of Large Language Models ChatGPT and Gemini on Workplace Management Questions in Radiology.
大型語言模型 ChatGPT 和 Gemini 在放射科工作管理問題上的表現。 Diagnostics (Basel) 2025-02-26

本研究探討大型語言模型（LLMs）在放射學職場管理的有效性，評估了ChatGPT-3.5、ChatGPT-4.0、Gemini及Gemini Advanced的表現。透過31個問題的回應，評估者使用4分制指標進行評分。結果顯示，ChatGPT-4.0在所有類別中表現最佳，且有顯著差異。Gemini Advanced也優於Gemini，顯示出對ChatGPT-3.5的趨勢。所有回應均未被評為「不足」，顯示LLMs能有效提升放射學職場管理效率。 PubMed DOI

Accuracy and quality of ChatGPT-4o and Google Gemini performance on image-based neurosurgery board questions.
ChatGPT-4o 和 Google Gemini 在影像基礎神經外科考試問題上的準確性和質量。 Neurosurg Rev 2025-03-25

這項研究評估了兩個大型語言模型（LLMs），GPT-4o 和 Google Gemini，在神經外科考試影像問題上的表現。共分析379個問題，結果顯示GPT-4o的正確率為51.45%，明顯優於Gemini的39.58%。GPT-4o在病理學和放射學等領域表現突出，且在複雜推理的問題上也更佳。雖然GPT-4o的回答質量較高，但兩者在影像問題上的表現仍不及傳統考試，顯示機器視覺和醫學影像解釋的挑戰。 PubMed DOI

Can off-the-shelf visual large language models detect and diagnose ocular diseases from retinal photographs?
現成的視覺大型語言模型能否從視網膜照片中檢測和診斷眼科疾病？ BMJ Open Ophthalmol 2025-04-07

這項研究評估了流行的視覺大型語言模型（VLLMs），特別是OpenAI的GPT-4V和Google的Gemini，對於從視網膜影像中識別眼病的表現。研究使用了44張來自新加坡眼病流行病學研究的視網膜照片。結果顯示，GPT-4V在預設模式下的檢測準確率最高，達97.1%，但所有模型在提供診斷描述的質量上普遍較差。研究強調了專業VLLMs在醫療領域的必要性，以及人類監督在臨床眼科中的重要性。 PubMed DOI

Comparative Analysis of ChatGPT-4o and Gemini Advanced Performance on Diagnostic Radiology In-Training Exams.
ChatGPT-4o 與 Gemini Advanced 在放射診斷住院醫師訓練考試表現的比較分析 Cureus 2025-04-21

這項研究發現，ChatGPT-4o在放射診斷住院醫師訓練考試的表現比Gemini Advanced好，尤其在影像型題目上較突出，但兩者在各子領域都沒有明顯領先。雖然兩款AI在文字題表現不錯，但影像判讀還有進步空間，顯示AI在放射學教育應用上仍需加強影像分析能力。 PubMed DOI

The Role of Large Language Models (LLMs) in Breast Imaging Today and in the Near Future.
大型語言模型（LLMs）在乳房影像學現今及近期未來的角色 J Magn Reson Imaging 2025-05-05

大型語言模型像GPT-4和Gemini在乳房影像領域很有潛力，可協助報告撰寫、診斷標準化和整合臨床指引。未來多模態能力也有望提升腫瘤分類等表現。不過，目前仍有幻覺、偏見、知識落差和隱私等挑戰。現階段LLMs只能當輔助工具，無法取代醫師，導入臨床還需嚴謹訓練和監督。 PubMed DOI

Performance of Large Language Models (ChatGPT and Gemini Advanced) in Gastrointestinal Pathology and Clinical Review of Applications in Gastroenterology.
大型語言模型（ChatGPT 與 Gemini Advanced）在腸胃道病理學的表現及其於腸胃科應用的臨床回顧 Cureus 2025-05-05

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示，ChatGPT-4.0和Gemini Advanced部分表現較佳，但整體水準還是普通。三款AI都無法正確判斷癌症分期，且有不少引用文獻是假的。研究認為，AI雖然進步中，但臨床應用前還是需要專家把關。 PubMed DOI

Large Language Models for Diagnosing Focal Liver Lesions From CT/MRI Reports: A Comparative Study With Radiologists.
利用大型語言模型從CT/MRI報告診斷肝臟局灶性病變：與放射科醫師的比較研究 Liver Int 2025-05-10

這項研究發現，ChatGPT-4o在診斷肝臟局部病灶時，表現大致和資淺放射科醫師差不多，但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程，也沒明顯提升醫師的診斷表現。總結來說，目前大型語言模型對診斷這類疾病的幫助有限，準確度還有待加強。 PubMed DOI

原始文章

站上相關主題文章列表