ChatGPT-4 Performance on USMLE Step 1 Style Questions and Its Implications for Medical Education: A Comparative Study Across Systems and Disciplines.
ChatGPT-4 在美國醫師執照考試Step 1類型問題上的表現及其對醫學教育的影響：跨系統和學科的比較研究。 Med Sci Educ 2024-03-22

研究指出OpenAI的ChatGPT-4在美國醫師執照考試STEP 1問題上表現優秀，回答正確率高達86%，超過60%及格分數，且在臨床領域也表現不錯。這個新版本改進許多，各主題展現熟練度，可當作醫學教育的互動學習工具。作者建議AI可提供即時解釋和針對學生需求的個別化指導，有助於提升臨床前階段學習成果。 PubMed DOI

Appraisal of ChatGPT's Aptitude for Medical Education: Comparative Analysis With Third-Year Medical Students in a Pulmonology Examination.
ChatGPT 在醫學教育中的能力評估：與三年級醫學生在肺病學考試中的比較分析。 JMIR Med Educ 2024-07-23

這項研究評估了ChatGPT-3.5在肺病學考試中的表現，並與三年級醫學生進行比較。研究分為兩組：244名法語醫學生和ChatGPT，後者以無上下文（V1）和有上下文（V2）兩種格式測試。結果顯示，V1在放射學和胸外科表現佳，但在病理學和藥理學上不理想；V2則在所有類別中表現更準確，並在開放式問題上優於學生。V2通過考試的比例超過62.1%，而V1未能通過。總體而言，ChatGPT的表現與醫學生相似，受問題格式和複雜度影響，尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

Evaluation of ChatGPT as a diagnostic tool for medical learners and clinicians.
評估 ChatGPT 作為醫學學習者和臨床醫師的診斷工具。 PLoS One 2024-07-31

這項研究評估了ChatGPT在醫學訓練中的診斷準確性和教育效用。分析150個Medscape案例後，發現ChatGPT正確回答49%的案例，整體診斷準確率為74%。雖然在解讀實驗室數值和影像結果上有些限制，但它在教育上顯示出潛力，能有效排除某些鑑別診斷並建議後續步驟，讓複雜的醫學概念更易理解。未來研究應著重提升其教育能力。 PubMed DOI

Influence of Model Evolution and System Roles on ChatGPT's Performance in Chinese Medical Licensing Exams: Comparative Study.
模型演變與系統角色對 ChatGPT 在中國醫學執照考試中表現的影響：比較研究。 JMIR Med Educ 2024-08-14

這項研究評估了ChatGPT在中國國家醫學執照考試中的表現，特別是GPT-3.5和GPT-4.0版本。研究發現，GPT-4.0的及格率為72.7%，明顯高於GPT-3.5的54%。此外，GPT-4.0的回答變異性較低，且在15個醫學子專科中有14個超過準確性門檻，顯示其在醫學教育和臨床實踐中的潛在應用價值。總體而言，GPT-4.0在準確性和一致性上表現更佳，值得進一步探索。 PubMed DOI

A Language Model-Powered Simulated Patient With Automated Feedback for History Taking: Prospective Study.
一個由語言模型驅動的模擬病人及自動反饋的病史採集：前瞻性研究。 JMIR Med Educ 2024-08-16

這項研究探討了使用GPT-4模型，透過與模擬病人聊天機器人的互動，為醫學生提供病史採集技巧的反饋。研究對象為三年級醫學生，分析了106次對話中的1,894個問答對。結果顯示，GPT-4的回應在99%以上是醫學上合理的，且與人類評分者的協議幾乎完美（Cohen κ=0.832）。不過，在45個反饋類別中，有8個類別出現差異，顯示模型評估可能過於具體或與人類判斷不同。總體而言，研究認為GPT-4在提供結構化反饋上有效，並建議在醫學教育中謹慎整合AI反饋機制。 PubMed DOI

Critical Analysis of ChatGPT 4 Omni in USMLE Disciplines, Clinical Clerkships, and Clinical Skills.
對於 USMLE 學科、臨床實習和臨床技能的 ChatGPT 4 Omni 的關鍵分析。 JMIR Med Educ 2024-09-14

最近的研究顯示，像ChatGPT這樣的大型語言模型（LLMs）能有效通過美國醫學執照考試（USMLE），但對其在特定醫學領域的表現缺乏深入分析。研究比較了不同版本的ChatGPT（GPT-3.5、GPT-4和GPT-4 Omni）在750道臨床情境選擇題中的準確性。結果顯示，GPT-4 Omni的準確率最高，達90.4%，顯著超過其他版本及醫學生的平均準確率。這顯示出其在醫學教育中的潛在價值，但也強調了謹慎整合LLMs的重要性。 PubMed DOI

ChatGPT-4 Omni Performance in USMLE Disciplines and Clinical Skills: Comparative Analysis.
ChatGPT-4 在 USMLE 學科和臨床技能中的表現：比較分析。 JMIR Med Educ 2024-11-06

最近的研究顯示，像 ChatGPT 這樣的大型語言模型（LLMs）能有效通過美國醫學執照考試（USMLE）。本研究評估了不同版本的 ChatGPT（GPT-3.5、GPT-4 和 GPT-4 Omni）在醫學學科及臨床技能方面的表現。結果顯示，GPT-4 Omni 的準確率最高，達到90.4%，明顯超過其他版本及醫學生的平均準確率59.3%。這顯示出大型語言模型在醫學教育中的潛力，但也強調需要結構化課程來指導其整合及持續評估。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

Assessing the performance of ChatGPT in medical ethical decision-making: a comparative study with USMLE-based scenarios.
評估 ChatGPT 在醫學倫理決策中的表現：與 USMLE 基於情境的比較研究。 J Med Ethics 2025-01-25

人工智慧（AI）在醫療領域的應用帶來了機會與挑戰，尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現，使用了273道來自不同題庫的問題。結果顯示，GPT-3.5的正確回答率普遍低於醫學生的平均水平，而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力，但人類的推理能力仍然優於AI，未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI

AI-powered standardised patients: evaluating ChatGPT-4o's impact on clinical case management in intern physicians.
AI 驅動的標準化病人：評估 ChatGPT-4o 對實習醫生臨床案例管理的影響。 BMC Med Educ 2025-02-20

這項研究探討了使用ChatGPT-4o作為虛擬病人，協助醫學實習生的臨床訓練。研究在艾登阿德南門德雷斯大學進行，21名六年級醫學生參與，透過問卷、訪談和觀察收集數據。結果顯示，實習生的自我評估與實際表現正相關，但在問題解決和臨床推理上存在明顯差距，且時間壓力加劇不安感。儘管面臨技術問題，實習生對AI輔助訓練表示滿意，並願意參加類似訓練。研究建議ChatGPT-4o可成為提升臨床技能的有效工具。 PubMed DOI

原始文章

站上相關主題文章列表