原始文章

ChatGPT 在通用外科考試拿到 72.7 分,超過及格線,生理學和選擇題表現不錯,但解剖學和需要分析的題目比較弱。雖然有潛力協助醫學教育,但還有不少限制,未來要再多研究和評估,才能廣泛應用。 PubMed DOI


站上相關主題文章列表

生成式人工智慧如CHATGPT在臨床護理和醫學教育中被應用。一項研究評估了CHATGPT 4在模擬加拿大泌尿科醫學委員會考試中的表現,結果顯示得分為46%,低於即將畢業的泌尿科住院醫師平均分數。CHATGPT在不同主題上表現有差異,尤其在腫瘤學方面表現較差。研究建議持續評估生成式人工智慧的能力,並進一步開發和訓練以提升在泌尿科領域的應用價值。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現,發現兩者在正確率上無顯著差異(分別為30.1%和28.7%)。雖然ChatGPT4.0提供的解釋較長,但對答案的信心卻較低,尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為,以促進AI在醫療中的應用。 PubMed DOI

這項研究評估了ChatGPT在土耳其骨科與創傷學考試的表現,分析了過去四年400道公開考題的結果。結果顯示,ChatGPT的得分超過98.7%的考生,且具統計學意義,顯示其表現優於平均考生。儘管ChatGPT在理論部分表現出色,研究仍強調人類因素的重要性,因為這些因素結合了理論與實踐知識,對醫療實踐至關重要。這是首次在此醫學考試背景下評估ChatGPT的能力。 PubMed DOI

這項研究評估了ChatGPT 4o在美國手外科學會(ASSH)自我評估問題上的表現,並與先前版本比較。研究使用2008至2013年的ASSH考試數據,透過OpenAI的API進行統計分析。結果顯示,ChatGPT 4o在增強技術的幫助下,表現與人類考生相當,明顯超越ChatGPT 3.5,且測試的可靠性很高。這些發現顯示,人工智慧,特別是ChatGPT,能有效支持醫學教育和臨床實踐,達到與人類專家相似的評估水平。 PubMed DOI

研究用360題心臟科考題測試ChatGPT,初始得分54.44%,給予學習資料後提升到79.16%,接近人類平均。ChatGPT在基礎科學和藥理學表現佳,但解剖學較弱,且無法處理圖片等視覺資料。顯示AI能透過學習進步,但還有待改進,未來需更多研究優化醫學教育應用。 PubMed DOI

這項研究發現,ChatGPT在麻醉與重症醫學考試中,表現比初階住院醫師好,但比資深住院醫師差一點,整體成績和住院醫師差不多。未來有機會把ChatGPT應用在麻醉和重症醫學的教學上,當作輔助學習的工具。 PubMed DOI

AI(像 ChatGPT)在整形外科教育有潛力,能協助學習和考試,但內容偶有錯誤,證據也還不夠多。AI 可輔助基礎教學和技能評估,但無法取代專業醫師。未來需更多研究、提升技術及明確規範,才能安全有效應用。 PubMed DOI

ChatGPT-4參加西班牙醫師考試,200題答對150題,成績約在1,900到2,300名之間,已能申請多數醫學專科。它在有無圖片題目表現差不多,難題表現較弱,跟人類類似。研究認為AI有教育潛力,但會出錯,不能取代醫師,答案還是要專業審查。 PubMed DOI

ChatGPT 3.5 用來測驗近十年整形外科住院醫師考題(不含圖片),正確率只有約 46%,明顯低於住院醫師平均。它在基本知識和乳房、醫美題目表現較好,但遇到需要複雜推理或手部、下肢相關題目就比較弱。整體來說,ChatGPT 現階段還不適合拿來做臨床決策或考試準備。 PubMed