Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Comparison of Gemini Advanced and ChatGPT 4.0's Performances on the Ophthalmology Resident Ophthalmic Knowledge Assessment Program (OKAP) Examination Review Question Banks.
Gemini Advanced 與 ChatGPT 4.0 在眼科住院醫師眼科知識評估計畫 (OKAP) 考試複習題庫上的表現比較。 Cureus 2024-10-18

這項研究系統性評估了兩個語言學習模型，ChatGPT-4.0 和 Google Bard 的 Gemini Advanced，在眼科問題的回答表現。使用眼科知識評估計畫的題庫，測試了260道選擇題。結果顯示，ChatGPT-4.0 在文字問題上的準確率為57.14%，高於 Gemini Advanced 的46.72%；在簡單問題上，ChatGPT-4.0 得分68.99%，而 Gemini Advanced 為49.61%。在圖像問題上，ChatGPT-4.0 的正確率為39.58%，Gemini Advanced 為33.33%。研究結論認為，ChatGPT-4.0 在眼科選擇題上表現較佳，顯示其在醫學教育中的潛力，但仍需進一步評估其可靠性。 PubMed DOI

A Cross-Sectional Study Comparing Patient Information Guides Generated by ChatGPT and Google Gemini for Common Radiological Procedures.
比較 ChatGPT 和 Google Gemini 生成的常見放射學程序患者資訊指南的橫斷面研究。 Cureus 2025-01-01

這項研究評估了AI工具ChatGPT和Google Gemini在製作腹部超音波、CT掃描和MRI病患教育手冊的效果。研究於2024年6月進行，持續一週，分析了字數、句子數、可讀性和內容可靠性等指標。結果顯示，除了ChatGPT的字數和年級水平較高外，兩者在大多數指標上差異不大。兩個工具的內容在可讀性和可靠性上相似，但字數和複雜度的差異顯示需要更好地調整內容，以符合不同病患的識字能力。 PubMed DOI

Comparative Evaluation of Chatbot Responses on Coronary Artery Disease.
冠狀動脈疾病聊天機器人回應的比較評估。 Turk Kardiyol Dern Ars 2025-01-11

這項研究評估了幾款自然語言處理聊天機器人（如ChatGPT、Gemini和Bing）對冠狀動脈疾病（CAD）問題的回答準確性。每個機器人回答了五十個問題，並由兩位心臟科醫生評分。結果顯示，ChatGPT的正確回答達86%，而Gemini和Bing分別為68%和60%。在重現性方面，ChatGPT得分88%，Gemini為84%，Bing則是70%。總體來看，ChatGPT在提供CAD資訊的準確性和可靠性上表現最佳，顯示其在患者教育上的潛力。 PubMed DOI

Comparison of the performances between ChatGPT and Gemini in answering questions on viral hepatitis.
ChatGPT 與 Gemini 在回答病毒性肝炎問題上的表現比較。 Sci Rep 2025-01-11

這項研究首次評估了ChatGPT和Gemini聊天機器人在提供病毒性肝炎資訊的準確性與可靠性。研究共分析176個問題，結果顯示兩者的平均分數相近（3.55對3.57），且正確回答比例也相似（71.0%對78.4%）。在CDC問題上，兩者的正確率都很高，但在國際指導方針問題上則表現不佳。整體而言，雖然在CDC和社交媒體問題上表現良好，但在指導方針的準確性上仍有待加強。 PubMed DOI

Performance evaluation of ChatGPT-4.0 and Gemini on image-based neurosurgery board practice questions: A comparative analysis.
ChatGPT-4.0 與 Gemini 在影像基礎神經外科考試問題上的表現評估：比較分析。 J Clin Neurosci 2025-02-12

這項研究比較了兩個大型語言模型，ChatGPT-4.0 和 Gemini，在解釋神經外科影像問題上的表現。研究提出250個問題，結果顯示ChatGPT-4.0的正確回答率為33.6%，明顯優於Gemini的0.4%。在某本教科書的問題中，ChatGPT-4.0的正確率達50%，而另一個教科書則為17.7%。Gemini的「無法回答」率高，顯示其在影像解釋上存在困難。這些結果顯示，AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

Can ChatGPT and Gemini justify brain CT referrals? A comparative study with human experts and a custom prediction model.
ChatGPT 和 Gemini 能否為腦部 CT 轉診提供合理依據？與人類專家及自訂預測模型的比較研究。 Eur Radiol Exp 2025-02-18

這項研究評估了ChatGPT和Gemini在根據歐洲放射學會iGuide解釋成人腦部CT轉診的表現。結果顯示，歐洲影像轉診指導方針的採用不佳，導致許多不必要的CT掃描。雖然ChatGPT在分析美國指導方針時表現良好，但在這項研究中，兩個聊天機器人在辯護CT轉診方面的表現有限，特別是對模糊案例。研究建議，雖然聊天機器人有潛力，但仍需改進以應對真實世界的挑戰。自訂預測模型的表現則顯著優於聊天機器人。 PubMed DOI

Comparison of ChatGPT-4, Copilot, Bard and Gemini Ultra on an Otolaryngology Question Bank.
耳鼻喉科問題庫中 ChatGPT-4、Copilot、Bard 和 Gemini Ultra 的比較。 Clin Otolaryngol 2025-03-13

這項研究評估了四個大型語言模型（LLMs）的表現，包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra，專注於耳鼻喉科的題庫。共收集350道選擇題，結果顯示Gemini Ultra準確率最高，達79.8%，GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長，且包含解釋性圖片，而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題，顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI

ChatGPT vs. Gemini: Comparative accuracy and efficiency in Lung-RADS score assignment from radiology reports.
ChatGPT 與 Gemini：在放射學報告中 Lung-RADS 分數分配的比較準確性與效率。 Clin Imaging 2025-03-16

這項研究評估了大型語言模型（LLMs）在根據低劑量電腦斷層掃描（LDCT）報告分配Lung-RADS分數的表現。分析了242份報告，測試了四個模型：ChatGPT-3.5、ChatGPT-4o、Google Gemini和Gemini Advanced。結果顯示，ChatGPT-4o準確率最高，達83.6%，而ChatGPT-3.5為70.1%。反應時間方面，ChatGPT-3.5最快，約4秒。雖然ChatGPT-4o表現優於其他模型，但仍未達到人類放射科醫生的準確性，未來需進一步研究以提升其臨床決策的可靠性。 PubMed DOI

Comparative Analysis of ChatGPT-4o and Gemini Advanced Performance on Diagnostic Radiology In-Training Exams.
ChatGPT-4o 與 Gemini Advanced 在放射診斷住院醫師訓練考試表現的比較分析 Cureus 2025-04-21

這項研究發現，ChatGPT-4o在放射診斷住院醫師訓練考試的表現比Gemini Advanced好，尤其在影像型題目上較突出，但兩者在各子領域都沒有明顯領先。雖然兩款AI在文字題表現不錯，但影像判讀還有進步空間，顯示AI在放射學教育應用上仍需加強影像分析能力。 PubMed DOI

原始文章

站上相關主題文章列表