原始文章

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT在美國醫師執照考試Step 1和Step 2的表現介於42%到64.4%之間,比InstructGPT和GPT-3表現更好。雖然在較難的問題上表現較差,但仍可提供合理答案和內部問題資訊。研究建議ChatGPT可能成為醫學教育中有用的工具,因為它準確且有邏輯性。 PubMed DOI

研究指出ChatGPT 4在USMLE Step 3模擬測驗中表現優異,準確率高達84.7%,比3.5版本的56.9%好很多。雖然在各難度等級上表現不錯,但在應用理論概念的問題上稍嫌不足,尤其是在心臟病學和神經學領域。研究指出AI在醫學教育和診斷上有潛力,也提到了防止AI作弊的重要性。 PubMed DOI

研究指出OpenAI的ChatGPT-4在美國醫師執照考試STEP 1問題上表現優秀,回答正確率高達86%,超過60%及格分數,且在臨床領域也表現不錯。這個新版本改進許多,各主題展現熟練度,可當作醫學教育的互動學習工具。作者建議AI可提供即時解釋和針對學生需求的個別化指導,有助於提升臨床前階段學習成果。 PubMed DOI

這項研究回顧了ChatGPT在醫學執照考試的表現,分析了2022年1月到2024年3月間的45項研究。結果顯示,GPT-4的準確率達81%,優於GPT-3.5的58%。GPT-4在29項考試中通過26項,並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現,但對GPT-4無影響。兩者在問題類型上表現不同,GPT-3.5在短文本問題上較佳,而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力,但也指出準確性不一致及各國知識差異的挑戰,旨在提供教育者和政策制定者相關資訊。 PubMed DOI

這項研究評估了ChatGPT在醫學專業考試中的表現,並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題,結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面,ChatGPT的表現相當優異,但在解剖學上則不如畢業生。研究指出,像ChatGPT這樣的AI模型能顯著提升醫學教育,提供互動支持和個性化學習,最終改善教育質量和學生成功率。 PubMed DOI

最近的研究顯示,像 ChatGPT 這樣的大型語言模型(LLMs)能有效通過美國醫學執照考試(USMLE)。本研究評估了不同版本的 ChatGPT(GPT-3.5、GPT-4 和 GPT-4 Omni)在醫學學科及臨床技能方面的表現。結果顯示,GPT-4 Omni 的準確率最高,達到90.4%,明顯超過其他版本及醫學生的平均準確率59.3%。這顯示出大型語言模型在醫學教育中的潛力,但也強調需要結構化課程來指導其整合及持續評估。 PubMed DOI

本研究評估了ChatGPT在回答中國超聲醫學中級專業技術資格考試問題的有效性,並探討其在超聲醫學教育中的應用潛力。共選取100道題目,包含70道單選題和30道多選題,涵蓋基礎知識、臨床知識、專業知識及實踐。 測試結果顯示,ChatGPT 3.5版本在單選題準確率為35.7%,多選題30.0%;而4.0版本則提升至61.4%和50.0%。雖然4.0版本有明顯進步,但仍未達及格標準,且在專業實踐方面表現不佳。儘管如此,ChatGPT在基礎醫學知識上的表現顯示其作為醫學教育輔助工具的潛力。 PubMed DOI

人工智慧(AI)在醫療領域的應用帶來了機會與挑戰,尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現,使用了273道來自不同題庫的問題。結果顯示,GPT-3.5的正確回答率普遍低於醫學生的平均水平,而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力,但人類的推理能力仍然優於AI,未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI

這項研究評估了ChatGPT在回答美國醫學執照考試第二階段臨床知識問題的表現,分析了其在不同醫學專科、問題類型和難度上的準確性。總共評估了3,000道問題,結果顯示正確率為57.7%。在「男性生殖系統」類別中準確率最高(71.7%),而「免疫系統」最低(46.3%)。隨著問題難度和長度增加,表現下降,顯示較複雜問題更易錯誤。整體而言,ChatGPT的能力接近及格門檻,顯示其作為醫學生輔助學習工具的潛力,並強調了精煉AI模型和設計抗AI考題的重要性。 PubMed DOI

學生們越來越依賴人工智慧(AI)工具,如ChatGPT,來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題,這些題目模仿美國醫學執照考試(USMLE)第一階段的格式。研究發現,83%的問題事實上是準確的,常見主題包括深靜脈血栓和心肌梗塞。研究建議,分開生成內容主題和問題可以提升多樣性。總體而言,ChatGPT-3.5能有效生成相關考題,但需謹慎提示以減少偏見,對醫學生準備USMLE考試有幫助。 PubMed DOI