Comparative analysis of ChatGPT and Bard in answering pathology examination questions requiring image interpretation.
ChatGPT 和 Bard 在回答需要圖像解釋的病理學考試問題方面的比較分析。 Am J Clin Pathol 2024-04-15

研究比較了ChatGPT和Bard在回答病理學問題和影像解讀的表現。結果顯示，在臨床情境下，ChatGPT-4的表現優異，準確率達100%，比Bard更優。然而，在無上下文情況下，ChatGPT-4的表現也不盡理想，準確率為52.3%，Bard為38.4%。總體而言，ChatGPT-4在系統病理學和基礎問題上持續優於Bard。研究強調了臨床背景對於準確解讀的重要性，提醒整合人工智慧時需謹慎。 PubMed DOI

Assessing ChatGPT 4.0's test performance and clinical diagnostic accuracy on USMLE STEP 2 CK and clinical case reports.
評估 ChatGPT 4.0 在美國醫師執照考試第二步臨床知識測驗（USMLE STEP 2 CK）和臨床病例報告中的測試表現和臨床診斷準確性。 Sci Rep 2024-04-23

研究發現，ChatGPT 4.0 在回答美國醫師執照考試問題及生成臨床鑑別診斷方面比 3.5 更準確。在74.6%案例中準確生成診斷，70.2%正確將診斷排第一。顯示ChatGPT在回答醫學問題上有進步，並展現臨床診斷能力。 PubMed DOI

Comparison of ChatGPT, Gemini, and Le Chat with physician interpretations of medical laboratory questions from an online health forum.
ChatGPT、Gemini 和 Le Chat 與醫師對線上健康論壇上醫學實驗室問題的解釋比較。 Clin Chem Lab Med 2024-05-28

越來越多病患用AI聊天機器人查檢驗結果，因為方便又好用。但研究發現，聊天機器人解釋不夠清楚、常錯誤。雖然有同理心，處理複雜問題時容易出錯，有時還會誤判病情。雖有免責聲明，病患仍可能相信錯誤資訊。必須進一步研究改進，確保病患了解並避免給醫療系統帶來負擔。 PubMed DOI

Appraisal of ChatGPT's Aptitude for Medical Education: Comparative Analysis With Third-Year Medical Students in a Pulmonology Examination.
ChatGPT 在醫學教育中的能力評估：與三年級醫學生在肺病學考試中的比較分析。 JMIR Med Educ 2024-07-23

這項研究評估了ChatGPT-3.5在肺病學考試中的表現，並與三年級醫學生進行比較。研究分為兩組：244名法語醫學生和ChatGPT，後者以無上下文（V1）和有上下文（V2）兩種格式測試。結果顯示，V1在放射學和胸外科表現佳，但在病理學和藥理學上不理想；V2則在所有類別中表現更準確，並在開放式問題上優於學生。V2通過考試的比例超過62.1%，而V1未能通過。總體而言，ChatGPT的表現與醫學生相似，受問題格式和複雜度影響，尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study.
AI 聊天機器人在英國醫學考試問題上的潛力與限制：一項比較性能研究。 Sci Rep 2024-08-14

這項研究評估了七個大型語言模型（LLMs）在模擬英國醫學考試問題上的表現，使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示，ChatGPT-4表現最佳，準確率達78.2%，其次是Bing和Claude。研究指出，LLMs在醫學教育中有潛力，但在依賴它們進行訓練前，仍需解決一些限制，並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

Human versus Artificial Intelligence: ChatGPT-4 Outperforming Bing, Bard, ChatGPT-3.5 and Humans in Clinical Chemistry Multiple-Choice Questions.
人類與人工智慧：ChatGPT-4 在臨床化學多選題中超越 Bing、Bard、ChatGPT-3.5 及人類。 Adv Med Educ Pract 2024-09-25

這項研究比較了AI聊天機器人（如ChatGPT-4、Bing和Bard）與醫學研究生在臨床化學多選題的表現。結果顯示，ChatGPT-4的平均得分為0.90，超過學生的0.68，其他AI的得分分別為0.77、0.73和0.67。研究指出，AI在記憶和理解的表現較佳，但在應用和分析上則較弱。雖然ChatGPT-4表現優秀，但也引發了對學術誠信及多選題使用的擔憂，值得重新思考其在高等教育中的適用性。 PubMed DOI

Large language models in pathology: A comparative study of ChatGPT and Bard with pathology trainees on multiple-choice questions.
病理學中的大型語言模型：ChatGPT 和 Bard 與病理學實習生在多選題上的比較研究。 Ann Diagn Pathol 2024-11-08

這項研究評估了大型語言模型（LLMs），特別是ChatGPT和Bard在病理學的表現，並與病理學實習生的回答進行比較。研究使用了150道選擇題，結果顯示ChatGPT的平均得分為82.2%，明顯優於Bard的49.5%和實習生的45.1%。在困難問題上，ChatGPT表現特別突出，而在簡單問題上，ChatGPT和實習生的表現相近。分析顯示，ChatGPT的一致性率高達80%-85%，而Bard僅54%-61%。這顯示ChatGPT在病理學教育中有潛力，但仍需持續發展和人類監督。 PubMed DOI

Comparing the performance of ChatGPT-3.5-Turbo, ChatGPT-4, and Google Bard with Iranian students in pre-internship comprehensive exams.
比較 ChatGPT-3.5-Turbo、ChatGPT-4 和 Google Bard 在伊朗學生預實習綜合考試中的表現。 Sci Rep 2024-11-18

這項研究評估了幾種AI語言模型的表現，包括ChatGPT-3.5-Turbo-0613、GPT-4-0613和Google Bard，針對波斯語和英語的醫學考試進行測試。結果顯示，GPT-4在所有考試中表現最佳，而Google Bard在波斯語考試中表現稍低，但仍可接受。ChatGPT-3.5則未能通過任何考試。雖然GPT-4在英語考試中表現優異，但與伊朗醫學生的表現差異並不顯著。研究指出，GPT-4在醫學應用上潛力巨大，但仍需進一步探討其限制。 PubMed DOI

Claude, ChatGPT, Copilot, and Gemini Performance versus Students in Different Topics of Neuroscience.
Claude、ChatGPT、Copilot 和 Gemini 在不同神經科學主題上與學生的表現比較。 Adv Physiol Educ 2025-01-17

這項研究比較了多種AI聊天機器人在醫學神經科學課程的多選題表現，並與醫學生進行對照。結果顯示，這些聊天機器人平均正確率為67.2%，低於學生的74.6%。其中，Claude和GPT-4表現最佳，準確率分別為83%和81.7%，超過學生平均分數。研究還發現，神經細胞學和胚胎學的準確率較高，而腦幹和小腦則較低。整體而言，Claude和GPT-4在醫學神經科學的測驗中展現出優於一般醫學生的能力，顯示AI在醫學教育中的潛力。 PubMed DOI

Comparative analysis of ChatGPT and Gemini (Bard) in medical inquiry: a scoping review.
醫學查詢中 ChatGPT 與 Gemini (Bard) 的比較分析：範疇回顧。 Front Digit Health 2025-02-18

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度，基於2023年1月到10月的研究。從64篇論文中，11篇符合標準，涉及1,177個樣本。結果顯示，ChatGPT在準確性上普遍優於Gemini，尤其在放射學方面（87.43%對71%），且回應較短（907字元對1,428字元）。不過，Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示，ChatGPT在準確性和回應長度上均顯著優於Gemini，建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI

原始文章

站上相關主題文章列表