Applying GPT-4 to the Plastic Surgery Inservice Training Examination.
將 GPT-4 應用於整形外科住院醫師培訓考試。 J Plast Reconstr Aesthet Surg 2024-02-15

GPT-4被認為比GPT-3.5更可靠且有創造力，特別在整形外科教育上有潛力。研究指出，GPT-4在整形外科住院醫師培訓考試(PSITE)樣本題目中達到77.3%的正確率，在邏輯推理和資訊運用方面表現優秀。相較於GPT-3.5，GPT-4在正確性和可靠性上更勝一籌，顯示其對提升整形外科教育課程有潛力。 PubMed DOI

Comprehensive analysis of the performance of GPT-3.5 and GPT-4 on the American Urological Association self-assessment study program exams from 2012-2023.
2012年至2023年美國泌尿學會自我評估研究計畫考試中GPT-3.5和GPT-4表現的全面分析。 Can Urol Assoc J 2024-02-21

研究比較了GPT-3.5和GPT-4在醫學教育考試的表現，結果顯示GPT-4在大多數年份和泌尿學主題中表現優異，得分超過50%。GPT-4的總分為55%，顯著高於GPT-3.5的33%。研究結果指出，像GPT-4這樣的AI語言模型在回答臨床問題上有進步，但在醫學知識和臨床推理方面仍有挑戰。 PubMed DOI

Unveiling the Potential of AI in Plastic Surgery Education: A Comparative Study of Leading AI Platforms' Performance on In-training Examinations.
揭示人工智慧在整形外科教育中的潛力：對主要人工智慧平台在培訓考試中表現的比較研究。 Plast Reconstr Surg Glob Open 2024-06-24

AI聊天機器人ChatGPT-4.0在整形外科教育方面表現優異，PSITE考試準確率達79%，但在不同級別的住院醫師中表現有差異。建議在使用其他聊天機器人時要謹慎，因為其他平台的平均分數在48.6%至57.0%之間。這是首次比較多個AI聊天機器人在整形外科教育領域的研究。 PubMed DOI

Evaluating the performance of ChatGPT-3.5 and ChatGPT-4 on the Taiwan plastic surgery board examination.
評估 ChatGPT-3.5 和 ChatGPT-4 在台灣整形外科考試中的表現。 Heliyon 2024-08-16

這項研究評估了ChatGPT-3.5和ChatGPT-4在台灣整形外科考試的表現，分析了過去八年的1,375道題目。結果顯示，ChatGPT-4的正確回答率為59%，明顯優於ChatGPT-3.5的41%。ChatGPT-4通過了五年的考試，而ChatGPT-3.5則未通過任何一年。具體來說，ChatGPT-4在單選題得分66%，多選題43%；而ChatGPT-3.5的單選題和多選題得分分別為48%和23%。研究建議隨著AI模型的進步，應考慮改革考試方式，並利用AI提升考試準備和評估。 PubMed DOI

Performance Evaluation of the Generative Pre-trained Transformer (GPT-4) on the Family Medicine In-Training Examination.
Generative Pre-trained Transformer (GPT-4) 在家庭醫學訓練考試中的表現評估。 J Am Board Fam Med 2024-08-30

這項研究評估了GPT-4與GPT-3.5及家庭醫學住院醫師在2022年美國家庭醫學委員會考試中的表現。結果顯示，GPT-4的準確率達84%，明顯高於GPT-3.5的56%，標準分數提升410分。定性分析指出，GPT-4能整合新資訊並自我修正，展現高準確性和快速學習能力。研究強調，GPT-4在臨床決策中具潛力，同時也提醒醫生在運用人工智慧時，需具備批判性思考和終身學習的能力。 PubMed DOI

ChatGPT-4 Surpasses Residents: A Study of Artificial Intelligence Competency in Plastic Surgery In-service Examinations and Its Advancements from ChatGPT-3.5.
ChatGPT-4 超越住院醫師：人工智慧在整形外科在職考試中的能力研究及其相較於 ChatGPT-3.5 的進展。 Plast Reconstr Surg Glob Open 2024-09-06

這項研究評估了ChatGPT-4在整形外科在職考試中的表現，並與醫學住院醫師及ChatGPT-3.5進行比較。分析了2018至2023年的1,292道考題，ChatGPT-4的正確率為74.4%，在核心外科原則上表現最佳（79.1%），顱顏面外科則最低（69.1%）。它的排名介於第61到第97百分位，明顯超越了ChatGPT-3.5的55.5%正確率和第23百分位。這顯示ChatGPT-4的知識已超越獨立住院醫師，達到第六年綜合住院醫師的水準。 PubMed DOI

Prompt engineering to increase GPT3.5's performance on the Plastic Surgery In-Service Exams.
提升 GPT-3.5 在整形外科在職考試中的表現的提示工程。 J Plast Reconstr Aesthet Surg 2024-09-10

這項研究評估了ChatGPT（GPT-3.5）在2021年ASPS整形外科在職考試中的表現，使用了不同的提示和檢索增強生成（RAG）技術。結果顯示，當以「住院醫師」身份回應時，準確率最高為54%，而RAG的使用並未顯著改善表現，準確率僅微幅提升至54.3%。整體而言，ChatGPT的表現位於第10百分位，顯示出需要進一步微調及採用更先進的方法，以提升AI在複雜醫療任務中的有效性。 PubMed DOI

Class in Session: Analysis of GPT-4-created Plastic Surgery In-service Examination Questions.
課堂進行中：分析 GPT-4 創建的整形外科在職考試問題。 Plast Reconstr Surg Glob Open 2024-09-20

這項研究評估了GPT-4生成的整形外科在職訓練考試（PSITE）練習題的能力。結果顯示，雖然GPT-4能創建多選題，但質量普遍低於2022年的實際考題。GPT-4生成的問題可讀性較差，且問題較短，複雜度低。不同部分的可讀性差異明顯，核心外科原則較易讀，而顱顏面外科最難。總體來看，GPT-4的問題質量不佳，存在錯誤資訊。儘管如此，研究建議在有經驗醫生指導下，GPT-4仍可作為住院醫師的教育工具，但需謹慎使用。 PubMed DOI

Evaluating the Performance of ChatGPT4.0 Versus ChatGPT3.5 on the Hand Surgery Self-Assessment Exam: A Comparative Analysis of Performance on Image-Based Questions.
評估 ChatGPT4.0 與 ChatGPT3.5 在手外科自我評估考試中的表現：基於影像問題的表現比較分析。 Cureus 2025-02-17

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現，發現兩者在正確率上無顯著差異（分別為30.1%和28.7%）。雖然ChatGPT4.0提供的解釋較長，但對答案的信心卻較低，尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為，以促進AI在醫療中的應用。 PubMed DOI

Comparitive performance of artificial intelligence-based large language models on the orthopedic in-training examination.
人工智慧大型語言模型在骨科訓練考試中的比較表現。 J Orthop Surg (Hong Kong) 2025-03-03

這項研究評估了三個大型語言模型（LLMs）—OpenAI的GPT-4、GPT-3.5和Google Bard—在2022年骨科住院醫師訓練考試（OITE）中的表現。結果顯示，GPT-4的表現超過及格門檻，與高年級住院醫師相當，明顯優於GPT-3.5和Bard。GPT-3.5和Bard則未達及格，且在影像相關問題上，GPT-3.5表現顯著下降。整體來看，GPT-4在各類問題上展現出強大的能力，超越了考試的最低要求。 PubMed DOI

原始文章

站上相關主題文章列表