Performance of ChatGPT and GPT-4 on Neurosurgery Written Board Examinations.
ChatGPT 和 GPT-4 在神經外科筆試考試中的表現。 Neurosurgery 2024-02-22

對於像ChatGPT這樣的大型語言模型(LLMs)的興趣越來越高，未來可能應用在醫學考試上。研究發現，GPT-4在神經外科醫學委員會考試中的表現比ChatGPT好，得分更高且答對問題更多。ChatGPT在處理複雜問題時受限，但GPT-4則表現穩定。總體而言，兩者在考試中表現不錯，GPT-4明顯比ChatGPT進步。 PubMed DOI

Beyond human in neurosurgical exams: ChatGPT's success in the Turkish neurosurgical society proficiency board exams.
ChatGPT 在土耳其神經外科學會專業委員會考試中的成功。 Comput Biol Med 2024-03-08

這項研究比較了 Chat Generative Pre-Trained Transformer (ChatGPT) 與實際參加土耳其神經外科學會專業委員會考試 (TNSPBE) 的考生。相較於人類考生，ChatGPT 在不同難度水平的問題中表現出色，平均分數較高，回答也更清晰。 PubMed DOI

Probing artificial intelligence in neurosurgical training: ChatGPT takes a neurosurgical residents written exam.
探討人工智慧在神經外科培訓中的應用：ChatGPT 參加神經外科住院醫師筆試。 Brain Spine 2024-01-03

人工智慧工具如ChatGPT在各領域廣泛運用，包括醫學教育。一項研究測試ChatGPT在神經外科住院醫師考試問題上的表現，發現其分數較人類低，但能正確回答自行產生的問題。這凸顯了人工智慧在醫學教育中的潛力，同時也強調了必須明確訂定要求以產生問題。 PubMed DOI

Artificial intelligence performance in clinical neurology queries: the ChatGPT model.
臨床神經學查詢中的人工智慧表現：ChatGPT 模型。 Neurol Res 2024-03-24

這項研究評估了ChatGPT在臨床神經學醫學問題回答準確度。ChatGPT在回答問題時的正確率為65.3%，在需要批判性思考的問題上準確度較低。整體表現中等，但在批判性思考和某些專業領域上表現不足。使用者應該從可靠來源驗證AI模型提供的醫學資訊。 PubMed DOI

GPT-4/4V's performance on the Japanese National Medical Licensing Examination.
GPT-4/4V 在日本國家醫學資格考試中的表現。 Med Teach 2024-04-22

AI在醫學領域的進步可能會改變許多醫學專業人員的工作。一項研究評估了Open AI的ChatGPT在日本國家醫學資格考試（NMLE）上的表現，包括圖像問題。研究顯示，GPT-4/4V表現優秀，甚至達到或超越考生所需的最低分數。這研究凸顯了AI在醫學教育中的潛力。 PubMed DOI

Comparison of the Performance of Artificial Intelligence Versus Medical Professionals in the Polish Final Medical Examination.
人工智慧與醫療專業人員在波蘭最終醫學考試中的表現比較。 Cureus 2024-09-02

這項研究評估了OpenAI的ChatGPT在波蘭醫學考試中的表現，特別是3.5和4.0版本。分析196道選擇題後，發現3.5版本的正確率為50.51%，而4.0版本提升至77.55%，超過及格線56%。值得注意的是，3.5版本對正確答案的信心較高，而4.0版本則在準確性上表現一致。不同醫學領域的表現差異不大。總體來看，ChatGPT 4.0在醫學教育和評估中展現了潛力，未來版本如5.0預期會有更好表現。 PubMed DOI

Assessment of ChatGPT-4 in Family Medicine Board Examinations Using Advanced AI Learning and Analytical Methods: Observational Study.
使用先進的 AI 學習和分析方法評估 ChatGPT-4 在家庭醫學考試中的表現：觀察性研究。 JMIR Med Educ 2024-10-08

這項研究探討了ChatGPT-4在美國家庭醫學委員會（ABFM）認證考試中的表現，目的是評估其是否能達到及格標準。研究中，ChatGPT-4在模擬考試環境下，使用300道練習題進行測試，結果顯示其正確回答率為88.67%（自訂版本）和87.33%（常規版本），兩者差異不大。這顯示ChatGPT-4在處理醫學問題上具備高效能，並強調了AI在醫學教育中的潛力及持續改進的必要性。 PubMed DOI

Evaluating AI Competence in Specialized Medicine: Comparative Analysis of ChatGPT and Neurologists in a Neurology Specialist Examination in Spain.
評估人工智慧在專科醫學中的能力：ChatGPT 與神經科醫生在西班牙神經科專科考試中的比較分析。 JMIR Med Educ 2024-12-02

這項研究評估了ChatGPT在西班牙神經科專科考試中的表現，特別是版本3.5和4，並與人類醫生進行比較。考試包含80道多選題，結果顯示人類醫生中位數得分為5.91，32人未通過。ChatGPT-3.5得分3.94，正確率54.5%，排名第116；而ChatGPT-4得分7.57，正確率81.8%，排名第17，超越許多人類專家。研究顯示，ChatGPT-4在醫學知識評估中有顯著進步，顯示其在專業醫學教育中的潛在價值。 PubMed DOI

Can ChatGPT pass the Turkish Orthopedics and Traumatology Board Examination? Turkish orthopedic surgeons versus artificial intelligence.
ChatGPT 能否通過土耳其骨科與創傷學委員會考試？土耳其骨科醫生與人工智慧的對比。 Ulus Travma Acil Cerrahi Derg 2025-03-07

這項研究評估了ChatGPT在土耳其骨科與創傷學考試的表現，分析了過去四年400道公開考題的結果。結果顯示，ChatGPT的得分超過98.7%的考生，且具統計學意義，顯示其表現優於平均考生。儘管ChatGPT在理論部分表現出色，研究仍強調人類因素的重要性，因為這些因素結合了理論與實踐知識，對醫療實踐至關重要。這是首次在此醫學考試背景下評估ChatGPT的能力。 PubMed DOI

While GPT-3.5 is unable to pass the Physician Licensing Exam in Taiwan, GPT-4 successfully meets the criteria.
雖然 GPT-3.5 無法通過台灣的醫師執照考試，但 GPT-4 成功符合標準。 J Chin Med Assoc 2025-03-14

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答台灣醫師執照考試醫學問題的表現，特別關注繁體中文的能力。結果顯示，ChatGPT-3.5在基礎醫學科學的準確率為67.7%，臨床醫學為53.2%；而ChatGPT-4的表現明顯優於前者，準確率分別達到91.9%和90.7%。雖然問題類型對準確率影響不大，但ChatGPT-4在所有科目中均表現良好，顯示AI在醫學教育中的潛力，實施時仍需謹慎考量不同專業的變異性。 PubMed DOI

原始文章

站上相關主題文章列表