原始文章

人工智慧(AI)在醫療領域的應用帶來了機會與挑戰,尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現,使用了273道來自不同題庫的問題。結果顯示,GPT-3.5的正確回答率普遍低於醫學生的平均水平,而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力,但人類的推理能力仍然優於AI,未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI


站上相關主題文章列表

研究評估了ChatGPT-3.5在回答生物倫理問題上對美國第三和第四年醫學生的表現。ChatGPT的準確率為59.6%,在某些生倫類別和專業領域表現較佳,但在知情同意問題上有困難。研究強調了有必要進一步研究醫學生對於人工智慧系統在生物倫理上的能力和限制。 PubMed DOI

研究指出ChatGPT 4在USMLE Step 3模擬測驗中表現優異,準確率高達84.7%,比3.5版本的56.9%好很多。雖然在各難度等級上表現不錯,但在應用理論概念的問題上稍嫌不足,尤其是在心臟病學和神經學領域。研究指出AI在醫學教育和診斷上有潛力,也提到了防止AI作弊的重要性。 PubMed DOI

AI聊天機器人,特別是GPT-3.5和GPT-4,在專業精神和道德測試中表現優異,相較於醫學院申請者表現更好。它們得分較高,並且大多數問題回答正確,顯示了它們在醫療培訓和決策方面的潛力。這凸顯了在線評估中使用聊天機器人的優勢和風險。 PubMed DOI

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現,結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分,尤其在倫理問題上。AI有助於醫師,但不應取代人類專業知識,需進一步研究整合到臨床環境中的方法。 PubMed DOI

研究評估了ChatGPT 3.5和4.0的道德能力,結果顯示ChatGPT 4.0在整體道德偏好和C-指數分數上表現較佳。兩者偏好Kohlberg理論的後期階段,顯示中等道德能力,但分數有變異性,需要進一步訓練。ChatGPT可用於評估論點,協助醫師在倫理情境中做決策。 PubMed DOI

這項研究回顧了ChatGPT在醫學執照考試的表現,分析了2022年1月到2024年3月間的45項研究。結果顯示,GPT-4的準確率達81%,優於GPT-3.5的58%。GPT-4在29項考試中通過26項,並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現,但對GPT-4無影響。兩者在問題類型上表現不同,GPT-3.5在短文本問題上較佳,而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力,但也指出準確性不一致及各國知識差異的挑戰,旨在提供教育者和政策制定者相關資訊。 PubMed DOI

這項研究評估了ChatGPT(3.5和4版本)在回答美國醫學執照考試(USMLE)風格的醫學倫理問題的表現,並與醫學知識問題進行比較。研究使用54個問題進行測試,結果顯示: - 兩個版本在醫學倫理問題上的表現不如知識問題。 - GPT-4在倫理問題的準確率比知識問題下降18%,GPT-3.5則下降7%(差異不顯著)。 - GPT-4在倫理問題上比GPT-3.5好22%,知識問題上好33%。 - GPT-4的回答變異性較低,顯示其穩定性較佳。 這些結果強調了持續評估ChatGPT在醫學教育,特別是醫學倫理領域的必要性。 PubMed DOI

這項研究評估了OpenAI的ChatGPT在波蘭醫學考試中的表現,特別是3.5和4.0版本。分析196道選擇題後,發現3.5版本的正確率為50.51%,而4.0版本提升至77.55%,超過及格線56%。值得注意的是,3.5版本對正確答案的信心較高,而4.0版本則在準確性上表現一致。不同醫學領域的表現差異不大。總體來看,ChatGPT 4.0在醫學教育和評估中展現了潛力,未來版本如5.0預期會有更好表現。 PubMed DOI

本研究評估了ChatGPT在回答中國超聲醫學中級專業技術資格考試問題的有效性,並探討其在超聲醫學教育中的應用潛力。共選取100道題目,包含70道單選題和30道多選題,涵蓋基礎知識、臨床知識、專業知識及實踐。 測試結果顯示,ChatGPT 3.5版本在單選題準確率為35.7%,多選題30.0%;而4.0版本則提升至61.4%和50.0%。雖然4.0版本有明顯進步,但仍未達及格標準,且在專業實踐方面表現不佳。儘管如此,ChatGPT在基礎醫學知識上的表現顯示其作為醫學教育輔助工具的潛力。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI