原始文章

ChatGPT 3.5 用來測驗近十年整形外科住院醫師考題(不含圖片),正確率只有約 46%,明顯低於住院醫師平均。它在基本知識和乳房、醫美題目表現較好,但遇到需要複雜推理或手部、下肢相關題目就比較弱。整體來說,ChatGPT 現階段還不適合拿來做臨床決策或考試準備。 PubMed


站上相關主題文章列表

研究發現,ChatGPT 在手部外科自我評估考題中表現一般,對文字問題回答率高於圖片問題。儘管提供額外解釋,但信心與正確性不一定成正比。總括而言,ChatGPT 表現不佳,不建議單獨依賴。在使用時應謹慎,因其仍有限制。 PubMed DOI

AI聊天機器人ChatGPT-4.0在整形外科教育方面表現優異,PSITE考試準確率達79%,但在不同級別的住院醫師中表現有差異。建議在使用其他聊天機器人時要謹慎,因為其他平台的平均分數在48.6%至57.0%之間。這是首次比較多個AI聊天機器人在整形外科教育領域的研究。 PubMed DOI

這項研究評估了ChatGPT(GPT-3.5)在骨科知識和推理能力的表現,測試了472道來自不同來源的考題。結果顯示,ChatGPT的正確回答率為55.9%,且92.8%的正確答案與資料解釋一致。雖然它運用了內外部資訊和邏輯推理,但在81.7%的錯誤回答中未能識別必要資訊。整體來看,ChatGPT的表現低於美國骨科外科醫學委員會考試的通過門檻,與實習醫生或二年級住院醫師相當,顯示出在準確識別資訊方面的重大限制。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4在台灣整形外科考試的表現,分析了過去八年的1,375道題目。結果顯示,ChatGPT-4的正確回答率為59%,明顯優於ChatGPT-3.5的41%。ChatGPT-4通過了五年的考試,而ChatGPT-3.5則未通過任何一年。具體來說,ChatGPT-4在單選題得分66%,多選題43%;而ChatGPT-3.5的單選題和多選題得分分別為48%和23%。研究建議隨著AI模型的進步,應考慮改革考試方式,並利用AI提升考試準備和評估。 PubMed DOI

這項研究評估了ChatGPT-4在整形外科在職考試中的表現,並與醫學住院醫師及ChatGPT-3.5進行比較。分析了2018至2023年的1,292道考題,ChatGPT-4的正確率為74.4%,在核心外科原則上表現最佳(79.1%),顱顏面外科則最低(69.1%)。它的排名介於第61到第97百分位,明顯超越了ChatGPT-3.5的55.5%正確率和第23百分位。這顯示ChatGPT-4的知識已超越獨立住院醫師,達到第六年綜合住院醫師的水準。 PubMed DOI

這項研究評估了ChatGPT(GPT-3.5)在2021年ASPS整形外科在職考試中的表現,使用了不同的提示和檢索增強生成(RAG)技術。結果顯示,當以「住院醫師」身份回應時,準確率最高為54%,而RAG的使用並未顯著改善表現,準確率僅微幅提升至54.3%。整體而言,ChatGPT的表現位於第10百分位,顯示出需要進一步微調及採用更先進的方法,以提升AI在複雜醫療任務中的有效性。 PubMed DOI

這項研究評估了GPT-4生成的整形外科在職訓練考試(PSITE)練習題的能力。結果顯示,雖然GPT-4能創建多選題,但質量普遍低於2022年的實際考題。GPT-4生成的問題可讀性較差,且問題較短,複雜度低。不同部分的可讀性差異明顯,核心外科原則較易讀,而顱顏面外科最難。總體來看,GPT-4的問題質量不佳,存在錯誤資訊。儘管如此,研究建議在有經驗醫生指導下,GPT-4仍可作為住院醫師的教育工具,但需謹慎使用。 PubMed DOI

這項研究評估了ChatGPT在骨科住院醫師考試(OITE)中的表現,分析了其對2022年考題的回答。結果顯示,ChatGPT的整體正確率為48.3%,在67.6%的問題中展現了邏輯推理能力,並在68.1%的案例中有效利用資訊。然而,回答中常見的問題是資訊謬誤,顯示出提供不正確資訊的傾向。雖然它在某些方面有能力,但目前的限制使其不太可能成為可靠的學習資源。 PubMed DOI

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現,發現兩者在正確率上無顯著差異(分別為30.1%和28.7%)。雖然ChatGPT4.0提供的解釋較長,但對答案的信心卻較低,尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為,以促進AI在醫療中的應用。 PubMed DOI

一項研究比較了GPT-4和GPT-3.5在2022年整形外科進修考試的表現,結果顯示GPT-4的準確率為63%,高於GPT-3.5的58%。研究使用了三種提示策略,開放式問題準確率54%,多選題67%,帶解釋的多選題68%。GPT-4在乳房與美容部分的準確率最高,達74%。儘管GPT-4表現較佳,但其最高分仍僅在第15百分位,顯示其在外科訓練中仍需改進,才能成為有效的教育工具。 PubMed DOI