原始文章

這項研究發現,ChatGPT-4在有選擇題選項時,答對率超過86%,但沒選項時最低只有61.5%。它在管理問題上比診斷問題更容易出錯。雖然GPT-4能處理臨床資訊,但不是真的懂臨床情境。未來如果和專業醫療人員搭配,有機會幫助臨床工作,但還需要更多測試來確保安全和有效。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT在歐洲泌尿學會的考試表現,特別是版本3.5和4。分析了2017至2022年的多選題,結果顯示ChatGPT-4在所有考試中表現優於3.5,且每次考試都達到及格分數(≥60%)。不過,ChatGPT-4在某些子主題如尿失禁和移植的表現有所下降。整體來看,研究指出ChatGPT-4能有效回答複雜醫學問題,但仍需人類驗證其回應在醫療環境中的可靠性。 PubMed DOI

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人,特別是在病史採集方面。研究分為兩個階段:第一階段評估其可行性,模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性,並調整提示以增強回應。 結果顯示,ChatGPT能有效區分不同質量的回應,經過修訂的提示使其準確性提高了4.926倍。整體而言,研究表明ChatGPT可作為模擬醫學評估的工具,並有潛力改善醫學訓練。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

人工智慧(AI)在醫療領域的應用帶來了機會與挑戰,尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現,使用了273道來自不同題庫的問題。結果顯示,GPT-3.5的正確回答率普遍低於醫學生的平均水平,而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力,但人類的推理能力仍然優於AI,未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI

這項研究評估了ChatGPT-4在重症醫學的表現,使用的數據來自中國的健康專業技術考試。ChatGPT-4回答了600個問題,成功率達73.5%,超過60%的及格標準,基礎知識的準確率最高,達81.94%。單選題表現(76.72%)優於多選題(51.32%)。雖然它在臨床決策和醫學教育上顯示潛力,但仍需醫療專業人員的監督,以確保準確性和病人安全。 PubMed DOI

ChatGPT的進步對醫學教育產生了顯著影響,透過創新的評估和學習工具,提升醫生的評估效果。一項研究評估了ChatGPT-3.5 Turbo和ChatGPT-4o mini在2023年葡萄牙語專科訓練入學考試中的表現。結果顯示,ChatGPT-4o mini的準確率達65%,超越了ChatGPT-3.5 Turbo及部分醫學考生的表現。這強調了ChatGPT在醫學教育中的潛力,但也提醒需在教師監督下謹慎使用,並需進一步研究。 PubMed DOI

這項研究評估了ChatGPT在回答美國醫學執照考試第二階段臨床知識問題的表現,分析了其在不同醫學專科、問題類型和難度上的準確性。總共評估了3,000道問題,結果顯示正確率為57.7%。在「男性生殖系統」類別中準確率最高(71.7%),而「免疫系統」最低(46.3%)。隨著問題難度和長度增加,表現下降,顯示較複雜問題更易錯誤。整體而言,ChatGPT的能力接近及格門檻,顯示其作為醫學生輔助學習工具的潛力,並強調了精煉AI模型和設計抗AI考題的重要性。 PubMed DOI

ChatGPT-4o 在英美醫師執照考試表現亮眼,即使遇到全新題目也能高分,證明不是只靠背題庫。不過,遇到圖片型選項時表現就變差。這說明單靠出新題或圖片題,無法完全防堵 AI 作弊,還是得有嚴格監考和安全措施,才能確保考試公平。 PubMed DOI

ChatGPT-4參加西班牙醫師考試,200題答對150題,成績約在1,900到2,300名之間,已能申請多數醫學專科。它在有無圖片題目表現差不多,難題表現較弱,跟人類類似。研究認為AI有教育潛力,但會出錯,不能取代醫師,答案還是要專業審查。 PubMed DOI

這項研究發現,ChatGPT 3.5在伊朗醫師執照考試中,用英文作答的正確率(61.4%)明顯高於波斯語(35.7%),整體正確率為48.5%,一致性高達91%。在基礎醫學和實習前考試有及格表現,住院醫師前考試則僅達最低標準,顯示其在醫學教育上有潛力,但語言能力仍有限。 PubMed DOI