Performance of ChatGPT and GPT-4 on Neurosurgery Written Board Examinations.
ChatGPT 和 GPT-4 在神經外科筆試考試中的表現。 Neurosurgery 2024-02-22

對於像ChatGPT這樣的大型語言模型(LLMs)的興趣越來越高，未來可能應用在醫學考試上。研究發現，GPT-4在神經外科醫學委員會考試中的表現比ChatGPT好，得分更高且答對問題更多。ChatGPT在處理複雜問題時受限，但GPT-4則表現穩定。總體而言，兩者在考試中表現不錯，GPT-4明顯比ChatGPT進步。 PubMed DOI

ChatGPT Performs at the Level of a Third-Year Orthopaedic Surgery Resident on the Orthopaedic In-Training Examination.
ChatGPT在骨科住院醫師培訓考試中表現達到三年級骨科住院醫師水準。 JB JS Open Access 2024-04-19

研究發現AI語言模型ChatGPT在2021年骨科住院醫師培訓考試（OITE）中表現不錯，得分61.2%，跟一名平均第三年的醫師相當。評審間一致，回答合理。未來需進一步研究對學習和考試的長期影響。 PubMed DOI

Comparative Performance of ChatGPT 3.5 and GPT4 on Rhinology Standardized Board Examination Questions.
ChatGPT 3.5 和 GPT4 在鼻科標準化考試問題上的比較表現。 OTO Open 2024-06-28

研究比較了ChatGPT 3.5和GPT4在耳鼻喉科考試問題上的表現，並與住院醫師做了對比。結果顯示，GPT4在文本和圖像問題上表現優異，而ChatGPT 3.5則在文本問題上稍遜。這顯示了GPT4在耳鼻喉科教育中有潛力，展現了人工智慧未來在這領域的重要性。 PubMed DOI

Performance of Language Models on the Family Medicine In-Training Exam.
家庭醫學在職考試中語言模型的表現。 Fam Med 2024-08-29

這項研究評估了三個大型語言模型（LLMs）在家庭醫學住院醫師訓練考試中的表現，使用了2022年的193道選擇題。結果顯示，ChatGPT 4.0 獲得167分（86.5%），標準化分數730，顯示出100%通過專科考試的機會。相比之下，ChatGPT 3.5 和 Google Bard 的得分較低，分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示，ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI

ChatGPT-4 Surpasses Residents: A Study of Artificial Intelligence Competency in Plastic Surgery In-service Examinations and Its Advancements from ChatGPT-3.5.
ChatGPT-4 超越住院醫師：人工智慧在整形外科在職考試中的能力研究及其相較於 ChatGPT-3.5 的進展。 Plast Reconstr Surg Glob Open 2024-09-06

這項研究評估了ChatGPT-4在整形外科在職考試中的表現，並與醫學住院醫師及ChatGPT-3.5進行比較。分析了2018至2023年的1,292道考題，ChatGPT-4的正確率為74.4%，在核心外科原則上表現最佳（79.1%），顱顏面外科則最低（69.1%）。它的排名介於第61到第97百分位，明顯超越了ChatGPT-3.5的55.5%正確率和第23百分位。這顯示ChatGPT-4的知識已超越獨立住院醫師，達到第六年綜合住院醫師的水準。 PubMed DOI

The Comparative Performance of Large Language Models on the Hand Surgery Self-Assessment Examination.
大型語言模型在手外科自我評估考試中的比較表現。 Hand (N Y) 2024-09-26

這項研究評估了生成式人工智慧模型，特別是 ChatGPT 4.0 和 Bing AI，在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題，結果顯示 ChatGPT 4.0 平均得分66.5%，而 Bing AI 則為75.3%，超過 ChatGPT 8.8%。兩者均超過最低及格分數50%，但在涉及圖片和視頻的問題上表現較差。整體來看，這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI

Is ChatGPT 3.5 smarter than Otolaryngology trainees? A comparison study of board style exam questions.
ChatGPT 3.5 是否比耳鼻喉科實習生更聰明？一項關於考試題型的比較研究。 PLoS One 2024-09-26

這項研究評估了ChatGPT在考試中的表現，並與耳鼻喉科的實習生進行比較。31名醫學生和17名住院醫師回答了30道問題，結果顯示ChatGPT的表現超過了第一到第三年的醫學生，但不及第四和第五年的住院醫師。第四年醫學生和第一到第三年住院醫師的表現與ChatGPT相似。這顯示ChatGPT在死記硬背方面表現良好，但在臨床推理和解決複雜問題的能力上，仍無法與高年級實習生相比，顯示其臨床應用的限制。 PubMed DOI

Evaluating the Performance of ChatGPT, Gemini, and Bing Compared with Resident Surgeons in the Otorhinolaryngology In-service Training Examination.
評估 ChatGPT、Gemini 和 Bing 在耳鼻喉科住院醫師在職訓練考試中的表現。 Turk Arch Otorhinolaryngol 2024-10-28

大型語言模型（LLMs）如ChatGPT（GPT-4）、Gemini和Bing在醫學教育上展現潛力，特別是在臨床管理和住院醫師考試準備方面。一項針對耳鼻喉科住院醫師的研究顯示，GPT-4的準確率為54.75%，優於Gemini（40.50%）和Bing（37.00%）。高年級住院醫師的準確率達75.5%，明顯高於LLMs。雖然LLMs能與準高年級住院醫師相當，但仍未達到更有經驗的住院醫師的準確性，顯示在醫學教育中有潛在應用價值。 PubMed DOI

Performance Comparison of Junior Residents and ChatGPT in the Objective Structured Clinical Examination (OSCE) for Medical History Taking and Documentation of Medical Records: Development and Usability Study.
初級住院醫師與 ChatGPT 在醫學歷史採集及醫療紀錄文件的客觀結構化臨床考試 (OSCE) 中的表現比較：開發與可用性研究。 JMIR Med Educ 2024-12-02

這項研究探討大型語言模型（LLMs），如ChatGPT，在臨床環境中進行病史採集和文檔記錄的能力。研究比較了ChatGPT 3.5和4.0版本在模擬臨床情境中的表現，結果顯示ChatGPT-4.0在病歷文檔質量上有顯著改善，且與初級住院醫師的表現相當。雖然人類的整體質量仍優於機器，但ChatGPT-4.0在醫療記錄方面展現出良好能力，顯示LLMs在臨床實踐中的潛力與限制。人類專業知識仍然對高品質病人互動至關重要。 PubMed DOI

Comparing the performance of ChatGPT and ERNIE Bot in answering questions regarding liver cancer interventional radiology in Chinese and English contexts: A comparative study.
比較 ChatGPT 和 ERNIE Bot 在中英文語境下回答有關肝癌介入放射學問題的表現：一項比較研究。 Digit Health 2025-01-24

這項研究評估了兩個大型語言模型（LLMs），ERNIE Bot 和 ChatGPT，在回答肝癌介入放射學問題的有效性，特別是針對經動脈化療栓塞（TACE）和肝動脈灌注化療（HAIC）。共設計38個問題，由10位專業人士評估兩者的回答。結果顯示，ERNIE Bot 在中文環境中表現較佳，而 ChatGPT 在英文環境中更優。研究強調根據語言選擇合適的 LLM 以提供準確的治療資訊，但也指出兩者都需人工審查以確保資訊可靠性。 PubMed DOI

原始文章

站上相關主題文章列表