ChatGPT-4 Performance on USMLE Step 1 Style Questions and Its Implications for Medical Education: A Comparative Study Across Systems and Disciplines.
ChatGPT-4 在美國醫師執照考試Step 1類型問題上的表現及其對醫學教育的影響：跨系統和學科的比較研究。 Med Sci Educ 2024-03-22

研究指出OpenAI的ChatGPT-4在美國醫師執照考試STEP 1問題上表現優秀，回答正確率高達86%，超過60%及格分數，且在臨床領域也表現不錯。這個新版本改進許多，各主題展現熟練度，可當作醫學教育的互動學習工具。作者建議AI可提供即時解釋和針對學生需求的個別化指導，有助於提升臨床前階段學習成果。 PubMed DOI

Multimodal ChatGPT-4V for ECG Interpretation: Promise and Limitations.
多模式 ChatGPT-4V 在心電圖解讀中的潛力與限制。 J Med Internet Res 2024-05-20

研究發現ChatGPT-4V在解釋心電圖並回答問題方面表現不錯，準確率達83.87%，但在計數問題上較弱。在臨床應用仍需改進，需要進一步研究。ChatGPT未來或許可協助醫護人員解讀心電圖和進行心血管護理。 PubMed DOI

Evaluation of responses to cardiac imaging questions by the artificial intelligence large language model ChatGPT.
ChatGPT對心臟影像問題回答的評估。 Clin Imaging 2024-05-31

研究比較了ChatGPT-3.5和ChatGPT-4在教育患者心臟影像方面的表現。結果顯示，在三次聊天中，ChatGPT-4在正確性和一致性方面優於ChatGPT-3.5。兩者都有超過一半問題回答正確，但仍需改進才能在教育患者心臟影像上更有效。 PubMed DOI

In-depth analysis of ChatGPT's performance based on specific signaling words and phrases in the question stem of 2377 USMLE step 1 style questions.
對 2377 道 USMLE Step 1 風格問題中特定提示詞和短語的 ChatGPT 表現進行深入分析 Sci Rep 2024-06-12

研究評估了ChatGPT在Amboss問題庫的2,377個USMLE Step 1練習問題上的表現。整體準確率為55.8%，顯示問題難度與表現呈反向關係。在血清學問題上表現不錯，但心電圖相關內容表現較差，病理生理學更差。研究強調了進一步瞭解ChatGPT在醫學教育和考試中的能力和限制的重要性。 PubMed DOI

Evaluating performance of ChatGPT on MKSAP cardiology board review questions.
評估 ChatGPT 在 MKSAP 心臟病學考試複習問題上的表現。 Int J Cardiol 2024-09-21

這項研究評估了ChatGPT（3.5和4版本）在心血管醫學問題上的表現，並與內科住院醫師和主治醫師進行比較。結果顯示，ChatGPT-4的準確率為74.5%，優於3.5版本的64.3%。它的表現與內科實習醫師（63.3%）和高年級住院醫師（63.3%）相當，但仍低於心臟科主治醫師的85.7%。雖然ChatGPT在某些領域顯示潛力，但仍需提升準確性，才能成為醫療專業人員的可靠工具。 PubMed DOI

Precision of artificial intelligence in paediatric cardiology multimodal image interpretation.
人工智慧在小兒心臟病學多模態影像解讀中的精確性。 Cardiol Young 2024-11-11

這項研究評估了ChatGPT-4在小兒心臟病學中解讀多模態影像的能力，針對100道包含心臟超音波、血管造影、X光和心電圖的選擇題進行測試。結果顯示，提供影像時正確率為41%，心電圖的準確率最高（54%），而血管造影最低（29%）。不提供影像時，表現稍降至37%。研究指出，ChatGPT-4在解讀影像的能力有限，強調需進一步訓練才能整合進臨床實踐，並需更多研究探討其臨床推理能力。 PubMed DOI

Evaluation of ChatGPT 4.0 in Thoracic Imaging and Diagnostics.
ChatGPT 4.0 在胸部影像學和診斷中的評估。 Cureus 2024-12-16

最近，自然語言處理（NLP）在醫療領域的進展顯著，特別是在數據分析和診斷方面。OpenAI的ChatGPT 4.0被評估在胸部影像診斷的表現，整體準確率達84.9%。它在術語和診斷徵象上表現優異，重症監護和正常解剖的準確率分別為90%和80%。在病理問題上，平均準確率為89.1%，但在某些疾病如肺癌的表現較差。總體來看，ChatGPT 4.0顯示出潛力，但仍需進一步研究以提升其臨床應用的可靠性。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

Performance of Chat Generative Pre-Trained Transformer on Personal Review of Learning in Obstetrics and Gynecology.
Chat Generative Pre-Trained Transformer 在婦產科學習個人評價中的表現。 South Med J 2025-01-30

這項研究評估了ChatGPT 3.5在婦產科個人學習回顧（PROLOG）中的表現，主要針對住院醫師的教育效果。結果顯示，ChatGPT在848個非視覺問題中正確率為57.8%，一級問題的表現（60.5%）優於高階問題（56.8%）。但在65個包含視覺資料的問題中，正確率僅有16.9%。由於PROLOG的及格分數是80%，ChatGPT未能達標，顯示其在專業知識和邏輯推理上仍有不足，無法成為可靠的教育工具。 PubMed DOI

Can ChatGPT-4 perform as a competent physician based on the Chinese critical care examination?
ChatGPT-4 能否根據中國重症醫學考試表現出色的醫生能力？ J Crit Care 2025-03-01

這項研究評估了ChatGPT-4在重症醫學的表現，使用的數據來自中國的健康專業技術考試。ChatGPT-4回答了600個問題，成功率達73.5%，超過60%的及格標準，基礎知識的準確率最高，達81.94%。單選題表現（76.72%）優於多選題（51.32%）。雖然它在臨床決策和醫學教育上顯示潛力，但仍需醫療專業人員的監督，以確保準確性和病人安全。 PubMed DOI

原始文章

站上相關主題文章列表