Investigating the impact of innovative AI chatbot on post-pandemic medical education and clinical assistance: a comprehensive analysis.
探討創新人工智慧聊天機器人對後疫情醫學教育和臨床協助的影響：全面分析。 ANZ J Surg 2024-02-27

研究發現三款大型語言模型在醫療決策上的表現，ChatGPT最優，其次是Google的Bard和Bing的AI。結果顯示ChatGPT提供更易懂且符合指引的醫療建議，對初級醫生學習和臨床決策有潛力，但還需更多整合到教育中。 PubMed DOI

Evaluation of Large language model performance on the Multi-Specialty Recruitment Assessment (MSRA) exam.
大型語言模型在多專科招聘評估（MSRA）考試上的表現評估。 Comput Biol Med 2024-02-06

研究發現在醫學教育中使用大型語言模型（LLMs）回答多重選擇問題，Bing Chat效果最好，甚至超越人類。Llama 2表現較差，Google Bard和ChatGPT-3.5則接近人類水準。建議免費提供的LLMs在醫學考試中有潛力，特別是Bing Chat。研究也提到透過訓練可提升LLMs在醫學領域的應用。總結來說，這研究對LLMs在醫學教育和評估中的應用提供了有價值的見解。 PubMed DOI

ChatGPT Versus National Eligibility cum Entrance Test for Postgraduate (NEET PG).
ChatGPT 與國家研究生入學考試 (NEET PG) 的比較。 Cureus 2024-07-26

人工智慧（AI）工具逐漸融入醫學和教育領域，ChatGPT作為大型語言模型（LLM）引起了關注。本研究分析了2023年全國研究生入學考試（NEET-PG）中的200個問題，並使用GPT-4進行回答。結果顯示，ChatGPT-4正確回答了129個問題，主要涉及內科、婦產科、一般外科和病理學。研究顯示，ChatGPT在醫學教育和臨床實踐中具潛力，未來需進一步探討其應用與有效性。 PubMed DOI

A Comparative Analysis of ChatGPT and Medical Faculty Graduates in Medical Specialization Exams: Uncovering the Potential of Artificial Intelligence in Medical Education.
ChatGPT 與醫學院畢業生在醫學專業考試中的比較分析：揭示人工智慧在醫學教育中的潛力。 Cureus 2024-09-09

這項研究評估了ChatGPT在醫學專業考試中的表現，並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題，結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面，ChatGPT的表現相當優異，但在解剖學上則不如畢業生。研究指出，像ChatGPT這樣的AI模型能顯著提升醫學教育，提供互動支持和個性化學習，最終改善教育質量和學生成功率。 PubMed DOI

The Comparative Performance of Large Language Models on the Hand Surgery Self-Assessment Examination.
大型語言模型在手外科自我評估考試中的比較表現。 Hand (N Y) 2024-09-26

這項研究評估了生成式人工智慧模型，特別是 ChatGPT 4.0 和 Bing AI，在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題，結果顯示 ChatGPT 4.0 平均得分66.5%，而 Bing AI 則為75.3%，超過 ChatGPT 8.8%。兩者均超過最低及格分數50%，但在涉及圖片和視頻的問題上表現較差。整體來看，這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI

Evaluating the Performance of ChatGPT, Gemini, and Bing Compared with Resident Surgeons in the Otorhinolaryngology In-service Training Examination.
評估 ChatGPT、Gemini 和 Bing 在耳鼻喉科住院醫師在職訓練考試中的表現。 Turk Arch Otorhinolaryngol 2024-10-28

大型語言模型（LLMs）如ChatGPT（GPT-4）、Gemini和Bing在醫學教育上展現潛力，特別是在臨床管理和住院醫師考試準備方面。一項針對耳鼻喉科住院醫師的研究顯示，GPT-4的準確率為54.75%，優於Gemini（40.50%）和Bing（37.00%）。高年級住院醫師的準確率達75.5%，明顯高於LLMs。雖然LLMs能與準高年級住院醫師相當，但仍未達到更有經驗的住院醫師的準確性，顯示在醫學教育中有潛在應用價值。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

A Comparative Analysis of the Performance of Large Language Models and Human Respondents in Dermatology.
大型語言模型與人類受訪者在皮膚科表現的比較分析。 Indian Dermatol Online J 2025-03-24

這項研究探討大型語言模型（LLMs），如ChatGPT和Microsoft Bing Chat，在皮膚科、性病學和麻風問題上的回答效果。研究比較了這些AI模型與12位研究所學生的準確性，並評估了人工幻覺的情況。研究於2023年8月進行，包含60個問題。結果顯示，Bing Chat的表現最佳，平均正確率為78.2%，ChatGPT為59.8%，人類受訪者則為43%。Bing Chat在簡單和中等難度問題上表現更佳，而ChatGPT在較難問題上較強。研究指出，儘管LLMs表現優於人類，但在某些領域準確性仍不足，需制定規範以防止濫用。 PubMed DOI

Analyzing Question Characteristics Influencing ChatGPT's Performance in 3000 USMLE®-Style Questions.
分析影響 ChatGPT 在 3000 道 USMLE® 風格問題中表現的問題特徵。 Med Sci Educ 2025-03-27

這項研究評估了ChatGPT在回答美國醫學執照考試第二階段臨床知識問題的表現，分析了其在不同醫學專科、問題類型和難度上的準確性。總共評估了3,000道問題，結果顯示正確率為57.7%。在「男性生殖系統」類別中準確率最高（71.7%），而「免疫系統」最低（46.3%）。隨著問題難度和長度增加，表現下降，顯示較複雜問題更易錯誤。整體而言，ChatGPT的能力接近及格門檻，顯示其作為醫學生輔助學習工具的潛力，並強調了精煉AI模型和設計抗AI考題的重要性。 PubMed DOI

Evaluating the value of AI-generated questions for USMLE step 1 preparation: A study using ChatGPT-3.5.
評估 AI 生成問題在 USMLE Step 1 準備中的價值：使用 ChatGPT-3.5 的研究。 Med Teach 2025-03-27

學生們越來越依賴人工智慧（AI）工具，如ChatGPT，來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題，這些題目模仿美國醫學執照考試（USMLE）第一階段的格式。研究發現，83%的問題事實上是準確的，常見主題包括深靜脈血栓和心肌梗塞。研究建議，分開生成內容主題和問題可以提升多樣性。總體而言，ChatGPT-3.5能有效生成相關考題，但需謹慎提示以減少偏見，對醫學生準備USMLE考試有幫助。 PubMed DOI

原始文章

站上相關主題文章列表