Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

A Cross-Sectional Study Comparing Patient Information Guides Generated by ChatGPT and Google Gemini for Common Radiological Procedures.
比較 ChatGPT 和 Google Gemini 生成的常見放射學程序患者資訊指南的橫斷面研究。 Cureus 2025-01-01

這項研究評估了AI工具ChatGPT和Google Gemini在製作腹部超音波、CT掃描和MRI病患教育手冊的效果。研究於2024年6月進行，持續一週，分析了字數、句子數、可讀性和內容可靠性等指標。結果顯示，除了ChatGPT的字數和年級水平較高外，兩者在大多數指標上差異不大。兩個工具的內容在可讀性和可靠性上相似，但字數和複雜度的差異顯示需要更好地調整內容，以符合不同病患的識字能力。 PubMed DOI

ChatGPT-4o's Performance in Brain Tumor Diagnosis and MRI Findings: A Comparative Analysis with Radiologists.
ChatGPT-4o 在腦腫瘤診斷和 MRI 影像中的表現：與放射科醫師的比較分析。 Acad Radiol 2025-02-09

這項研究評估了ChatGPT-4o在識別MRI影像及診斷腦腫瘤的表現，並與經驗豐富的放射科醫師進行比較。研究涵蓋46名腦腫瘤患者的術前MRI影像。結果顯示，ChatGPT-4o識別病變的準確率為95.7%，但在定位病變和區分腦外、腦內病變方面表現不佳。其診斷成功率僅為56.8%，遠低於放射科醫師的90.9-93.2%。雖然ChatGPT-4o在某些特徵識別上表現良好，但在診斷上仍需改進，未來有潛力成為放射科醫師的輔助工具。 PubMed DOI

Assessment of Challenging Oncologic Cases: A Comparative Analysis Between ChatGPT, Gemini, and a Multidisciplinary Tumor Board.
挑戰性腫瘤病例的評估：ChatGPT、Gemini 與多學科腫瘤委員會的比較分析。 J Surg Oncol 2025-02-12

這項研究評估了ChatGPT和Gemini在複雜腫瘤病例中的醫療決策有效性，並與多學科腫瘤委員會（MTB）專家進行比較。研究在墨西哥城的醫療中心進行，回顧了98個病例。結果顯示，AI系統在影像學檢查的協議程度較低，但在手術和放射治療方面則中等。ChatGPT在手術和化療決策上表現優於Gemini。研究指出，這兩個AI系統在腫瘤學上有潛力，但仍需進一步研究以提升其臨床應用。 PubMed DOI

Performance evaluation of ChatGPT-4.0 and Gemini on image-based neurosurgery board practice questions: A comparative analysis.
ChatGPT-4.0 與 Gemini 在影像基礎神經外科考試問題上的表現評估：比較分析。 J Clin Neurosci 2025-02-12

這項研究比較了兩個大型語言模型，ChatGPT-4.0 和 Gemini，在解釋神經外科影像問題上的表現。研究提出250個問題，結果顯示ChatGPT-4.0的正確回答率為33.6%，明顯優於Gemini的0.4%。在某本教科書的問題中，ChatGPT-4.0的正確率達50%，而另一個教科書則為17.7%。Gemini的「無法回答」率高，顯示其在影像解釋上存在困難。這些結果顯示，AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

Evaluating Artificial Intelligence in Spinal Cord Injury Management: A Comparative Analysis of ChatGPT-4o and Google Gemini Against American College of Surgeons Best Practices Guidelines for Spine Injury.
評估人工智慧在脊髓損傷管理中的應用：ChatGPT-4o 和 Google Gemini 與美國外科醫師學會脊椎損傷最佳實踐指導方針的比較分析。 Global Spine J 2025-02-17

這項研究評估了兩個人工智慧模型，ChatGPT-4o 和 Gemini Advanced，與美國外科醫學會2022年脊椎損傷管理指導方針的一致性。研究設計了52個問題，結果顯示ChatGPT-4o的一致率為73.07%，正確回答38題；而Gemini Advanced為69.23%，正確回答36題。兩者在臨床資訊一致率均為75%。Gemini在診斷性問題上表現較佳，但ChatGPT在治療性問題上較強。整體而言，這些模型在脊椎損傷管理上顯示潛力，但仍有改進空間。 PubMed DOI

Comparative analysis of ChatGPT and Gemini (Bard) in medical inquiry: a scoping review.
醫學查詢中 ChatGPT 與 Gemini (Bard) 的比較分析：範疇回顧。 Front Digit Health 2025-02-18

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度，基於2023年1月到10月的研究。從64篇論文中，11篇符合標準，涉及1,177個樣本。結果顯示，ChatGPT在準確性上普遍優於Gemini，尤其在放射學方面（87.43%對71%），且回應較短（907字元對1,428字元）。不過，Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示，ChatGPT在準確性和回應長度上均顯著優於Gemini，建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI

ChatGPT vs. Gemini: Comparative accuracy and efficiency in Lung-RADS score assignment from radiology reports.
ChatGPT 與 Gemini：在放射學報告中 Lung-RADS 分數分配的比較準確性與效率。 Clin Imaging 2025-03-16

這項研究評估了大型語言模型（LLMs）在根據低劑量電腦斷層掃描（LDCT）報告分配Lung-RADS分數的表現。分析了242份報告，測試了四個模型：ChatGPT-3.5、ChatGPT-4o、Google Gemini和Gemini Advanced。結果顯示，ChatGPT-4o準確率最高，達83.6%，而ChatGPT-3.5為70.1%。反應時間方面，ChatGPT-3.5最快，約4秒。雖然ChatGPT-4o表現優於其他模型，但仍未達到人類放射科醫生的準確性，未來需進一步研究以提升其臨床決策的可靠性。 PubMed DOI

Breaking Bones, Breaking Barriers: ChatGPT, DeepSeek, and Gemini in Hand Fracture Management.
打破骨頭，打破障礙：ChatGPT、DeepSeek 和 Gemini 在手部骨折管理中的應用。 J Clin Med 2025-03-27

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性，並與經驗豐富的外科醫生進行比較。結果顯示，ChatGPT-4o的準確率最高，但精確度較低；DeepSeek-V3表現中等，偶爾漏掉正確方案；而Gemini 1.5則表現不佳。結論指出，雖然AI能增強臨床流程，但在複雜案例中仍無法取代人類專業，且需解決倫理問題才能廣泛應用。 PubMed DOI

Comparative Analysis of ChatGPT-4o and Gemini Advanced Performance on Diagnostic Radiology In-Training Exams.
ChatGPT-4o 與 Gemini Advanced 在放射診斷住院醫師訓練考試表現的比較分析 Cureus 2025-04-21

這項研究發現，ChatGPT-4o在放射診斷住院醫師訓練考試的表現比Gemini Advanced好，尤其在影像型題目上較突出，但兩者在各子領域都沒有明顯領先。雖然兩款AI在文字題表現不錯，但影像判讀還有進步空間，顯示AI在放射學教育應用上仍需加強影像分析能力。 PubMed DOI

原始文章

站上相關主題文章列表