Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Claude, ChatGPT, Copilot, and Gemini Performance versus Students in Different Topics of Neuroscience.
Claude、ChatGPT、Copilot 和 Gemini 在不同神經科學主題上與學生的表現比較。 Adv Physiol Educ 2025-01-17

這項研究比較了多種AI聊天機器人在醫學神經科學課程的多選題表現，並與醫學生進行對照。結果顯示，這些聊天機器人平均正確率為67.2%，低於學生的74.6%。其中，Claude和GPT-4表現最佳，準確率分別為83%和81.7%，超過學生平均分數。研究還發現，神經細胞學和胚胎學的準確率較高，而腦幹和小腦則較低。整體而言，Claude和GPT-4在醫學神經科學的測驗中展現出優於一般醫學生的能力，顯示AI在醫學教育中的潛力。 PubMed DOI

Performance assessment of ChatGPT 4, ChatGPT 3.5, Gemini Advanced Pro 1.5 and Bard 2.0 to problem solving in pathology in French language.
法語病理學問題解決中 ChatGPT 4、ChatGPT 3.5、Gemini Advanced Pro 1.5 和 Bard 2.0 的性能評估。 Digit Health 2025-02-03

這項研究評估了多種人工智慧聊天機器人（如ChatGPT、Bard和Gemini）在醫學生病理學考試中的表現，考題範圍涵蓋2018至2022年。測試70道題目後發現，較新的聊天機器人在多選題上表現優於學生，但在高難度問題上，學生的表現則更佳。此外，聊天機器人的得分與學生的不同意見率有關，顯示提示設計影響回應。總體來看，雖然聊天機器人在複雜推理上表現中等，但也有生成不正確資訊的問題，顯示醫學教育中使用自然語言處理的挑戰。 PubMed DOI

Which current chatbot is more competent in urological theoretical knowledge? A comparative analysis by the European board of urology in-service assessment.
當前哪個聊天機器人在泌尿學理論知識方面更具能力？歐洲泌尿學委員會在職評估的比較分析。 World J Urol 2025-02-11

這項研究評估了五款AI聊天機器人在歐洲泌尿學會的在職評估測試中的表現。596道問題來自2017至2022年的考試，分為知識型和數據解釋型。結果顯示，除了Claude 3.5外，其他四款聊天機器人均達到60%以上的及格分數，其中Copilot Pro表現最佳，得分71.6%。Claude 3.5則明顯落後，得分僅56.2%。雖然這些聊天機器人具備理論知識，但在分析和解釋能力上仍有待加強。 PubMed DOI

Generative pre-trained transformer 4o (GPT-4o) in solving text-based multiple response questions for European Diploma in Radiology (EDiR): a comparative study with radiologists.
GPT-4o 在解決歐洲放射學文憑 (EDiR) 的文本多重回應問題中的應用：與放射科醫師的比較研究。 Insights Imaging 2025-03-22

這項研究評估了GPT-4o在回答歐洲放射學文憑考試的表現，並與人類考生進行比較。2024年10月，42名考生與26名使用GPT-4o的醫學生比較，結果顯示GPT-4o平均得分82.1%，遠高於考生的49.4%（p < 0.0001）。GPT-4o在放射學各子專科的真陽性率較高，假陽性率較低，僅在資訊學方面表現不佳。GPT-4o的回答一致性接近完美，而考生則中等。調查顯示參與者普遍使用複製和粘貼功能，73%的人尋求澄清。總體而言，GPT-4o在低階問題上表現優於人類考生，顯示其潛力。未來需進一步研究其在不同問題類型和考生背景中的有效性。 PubMed DOI

Comparative Analysis of ChatGPT-4o and Gemini Advanced Performance on Diagnostic Radiology In-Training Exams.
ChatGPT-4o 與 Gemini Advanced 在放射診斷住院醫師訓練考試表現的比較分析 Cureus 2025-04-21

這項研究發現，ChatGPT-4o在放射診斷住院醫師訓練考試的表現比Gemini Advanced好，尤其在影像型題目上較突出，但兩者在各子領域都沒有明顯領先。雖然兩款AI在文字題表現不錯，但影像判讀還有進步空間，顯示AI在放射學教育應用上仍需加強影像分析能力。 PubMed DOI

Enhancing sonologist examination performance with large language models: an analytical study of ChatGPT-4 and Claude 3.
利用大型語言模型提升超音波醫師檢查表現：ChatGPT-4 與 Claude 3 的分析性研究 Med Ultrason 2025-05-11

研究發現，ChatGPT-4和Claude 3都能有效幫助超音波醫師提升考試成績，特別是在基礎知識題目上。資淺醫師用這兩款AI都能進步，ChatGPT-4還能加強專業題表現；資深醫師則是Claude 3的解釋在各類題型都很有幫助。整體來說，兩種AI對考試表現都有明顯助益。 PubMed DOI

Comparative analysis of LLMs performance in medical embryology: A cross-platform study of ChatGPT, Claude, Gemini, and Copilot.
醫學胚胎學中 LLMs 表現的比較分析：ChatGPT、Claude、Gemini 與 Copilot 跨平台研究 Anat Sci Educ 2025-05-11

這項研究發現，GPT-4o 和 Claude 在美國醫師執照考試胚胎學題目上表現最好，正確率約九成，兩者差異不大。Copilot、Gemini 和 GPT-3.5 分數較低。頂尖AI模型有助於胚胎學教學，但還是需要專業醫師把關。 PubMed DOI

Chatbots' Role in Generating Single Best Answer Questions for Undergraduate Medical Student Assessment: Comparative Analysis.
Chatbots 在產生醫學生單一最佳答案題目中的角色：比較分析 JMIR Med Educ 2025-05-30

這項研究發現，不同AI聊天機器人在幫醫學生出單一最佳答案題目時，品質和一致性都有差異，沒有哪一個特別突出。所有AI產生的題目都還是需要專家審查，無法完全取代人類。AI出題也對傳統的認知能力分級方式帶來挑戰。 PubMed DOI

Can Artificial Intelligence Pass the Written European Board of Hand Surgery Exam?
人工智慧能通過歐洲手外科書面考試嗎？ Hand Surg Rehabil 2025-05-30

這項研究比較多款AI聊天機器人在手外科考試的表現，發現大多數都能通過考試，其中以ChatGPT-4o1最優秀。雖然AI在專科醫學領域展現不錯的專業能力，但不同AI的準確度和可靠性還是有落差。 PubMed DOI

原始文章

站上相關主題文章列表