原始文章

這項研究評估了ChatGPT在土耳其骨科與創傷學考試的表現,分析了過去四年400道公開考題的結果。結果顯示,ChatGPT的得分超過98.7%的考生,且具統計學意義,顯示其表現優於平均考生。儘管ChatGPT在理論部分表現出色,研究仍強調人類因素的重要性,因為這些因素結合了理論與實踐知識,對醫療實踐至關重要。這是首次在此醫學考試背景下評估ChatGPT的能力。 PubMed DOI


站上相關主題文章列表

最新的人工智慧模型ChatGPT在醫學領域表現不如預期,尤其在骨科考試問題上只有47%的正確率,比不上第五年住院醫師。雖然無法通過手術筆試,但在學習和教育上有應用價值。 PubMed DOI

這項研究比較了 Chat Generative Pre-Trained Transformer (ChatGPT) 與實際參加土耳其神經外科學會專業委員會考試 (TNSPBE) 的考生。相較於人類考生,ChatGPT 在不同難度水平的問題中表現出色,平均分數較高,回答也更清晰。 PubMed DOI

研究指出,ChatGPT在骨科住院醫師培訓考試中表現優異,尤其在基礎科學、腫瘤學、肩膀/肘部和運動方面表現突出。問題分為管理、診斷和知識回憶三類,ChatGPT在提供委員會風格問題的臨床結論方面有潛力。然而,其推理能力仍需進一步評估。ChatGPT在臨床教育中有廣泛應用前景,有助於準確解答臨床問題。 PubMed DOI

研究發現ChatGPT 4.0在回答骨科手術問題時表現良好,尤其在無需圖像的情況下更為準確。儘管人工智慧在骨科領域有潛力,仍需提升準確性。未來研究應致力於有效運用人工智慧來輔助而非取代醫生的技能。 PubMed DOI

研究發現AI語言模型ChatGPT在2021年骨科住院醫師培訓考試(OITE)中表現不錯,得分61.2%,跟一名平均第三年的醫師相當。評審間一致,回答合理。未來需進一步研究對學習和考試的長期影響。 PubMed DOI

研究發現,在骨科創傷手術中使用ChatGPT表現良好,對患者、非骨科醫生和專家骨科外科醫生的回答準確率分別為52.9%、64.7%和70.5%。ChatGPT的回答完整性得分也很高,分別為52.9%、73.5%和82.4%。整體而言,ChatGPT在骨科創傷手術中為不同對象提供有價值和準確回答的潛力表現出色。 PubMed DOI

這項研究評估了ChatGPT(GPT-3.5)在骨科知識和推理能力的表現,測試了472道來自不同來源的考題。結果顯示,ChatGPT的正確回答率為55.9%,且92.8%的正確答案與資料解釋一致。雖然它運用了內外部資訊和邏輯推理,但在81.7%的錯誤回答中未能識別必要資訊。整體來看,ChatGPT的表現低於美國骨科外科醫學委員會考試的通過門檻,與實習醫生或二年級住院醫師相當,顯示出在準確識別資訊方面的重大限制。 PubMed DOI

這項研究評估了ChatGPT 4.0在2019年骨科住院醫師訓練考試中的表現。結果顯示,ChatGPT在純文字問題的正確率為49%,而帶有圖片的問題為48%。當圖片描述由AI生成時,表現下降6%。整體來看,ChatGPT的表現低於所有住院醫師班級,尤其比一年級住院醫師低4%。研究指出,雖然ChatGPT在醫學考試中有一定能力,但仍未達到住院醫師的水準,顯示AI在醫學教育中的潛力與限制。 PubMed DOI

這項研究評估了ChatGPT 4.0在2022年骨科與創傷學專科考試的多選題表現,分析了95道題目,正確率為61.05%。結果顯示,無論問題字數或分類,表現差異不大。雖然ChatGPT在骨科知識上表現不錯,但仍需進一步發展和人類監督,以確保其有效性。這項研究屬於第四級證據,屬於病例系列。 PubMed DOI

這項研究發現,ChatGPT-4o在土耳其骨科專科考試的表現比實際考生還好,總分拿到70.2分(考生平均58分)。它答對圖片題的機率有62%,文字題則有70%。GPT-4o在基礎醫學表現突出,但重建手術題較弱。無論AI還是考生,下肢和足部題目都最難。整體來說,GPT-4o在醫學教育上很有潛力,有些領域甚至比人類還強。 PubMed DOI