原始文章

DeepSeek 這款新 AI 在腸胃科專科考試表現比舊版 ChatGPT 更好,分數都超過及格線。不過,DeepSeek 對冷門題目還是有盲點,也還沒辦法看影像,實際應用還需要專科醫師再確認。 PubMed DOI


站上相關主題文章列表

這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現,分析了1,077道文字題和60道圖片題。結果顯示,GPT-4的表現最佳,得分78.7%,而ChatGPT和Bard分別為55.3%和61.7%(p<0.001)。所有模型在簡單問題上表現較好,GPT-4在各子專科得分也較高,僅過敏科差異不顯著。雖然GPT-4表現良好,但在醫學教育和病人護理中的應用仍需謹慎。 PubMed DOI

這項研究評估了ChatGPT在醫學專業考試中的表現,並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題,結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面,ChatGPT的表現相當優異,但在解剖學上則不如畢業生。研究指出,像ChatGPT這樣的AI模型能顯著提升醫學教育,提供互動支持和個性化學習,最終改善教育質量和學生成功率。 PubMed DOI

這項研究探討了ChatGPT-4在美國家庭醫學委員會(ABFM)認證考試中的表現,目的是評估其是否能達到及格標準。研究中,ChatGPT-4在模擬考試環境下,使用300道練習題進行測試,結果顯示其正確回答率為88.67%(自訂版本)和87.33%(常規版本),兩者差異不大。這顯示ChatGPT-4在處理醫學問題上具備高效能,並強調了AI在醫學教育中的潛力及持續改進的必要性。 PubMed DOI

本研究評估了ChatGPT在回答中國超聲醫學中級專業技術資格考試問題的有效性,並探討其在超聲醫學教育中的應用潛力。共選取100道題目,包含70道單選題和30道多選題,涵蓋基礎知識、臨床知識、專業知識及實踐。 測試結果顯示,ChatGPT 3.5版本在單選題準確率為35.7%,多選題30.0%;而4.0版本則提升至61.4%和50.0%。雖然4.0版本有明顯進步,但仍未達及格標準,且在專業實踐方面表現不佳。儘管如此,ChatGPT在基礎醫學知識上的表現顯示其作為醫學教育輔助工具的潛力。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

研究用360題心臟科考題測試ChatGPT,初始得分54.44%,給予學習資料後提升到79.16%,接近人類平均。ChatGPT在基礎科學和藥理學表現佳,但解剖學較弱,且無法處理圖片等視覺資料。顯示AI能透過學習進步,但還有待改進,未來需更多研究優化醫學教育應用。 PubMed DOI

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示,ChatGPT-4.0和Gemini Advanced部分表現較佳,但整體水準還是普通。三款AI都無法正確判斷癌症分期,且有不少引用文獻是假的。研究認為,AI雖然進步中,但臨床應用前還是需要專家把關。 PubMed DOI

ChatGPT-4參加西班牙醫師考試,200題答對150題,成績約在1,900到2,300名之間,已能申請多數醫學專科。它在有無圖片題目表現差不多,難題表現較弱,跟人類類似。研究認為AI有教育潛力,但會出錯,不能取代醫師,答案還是要專業審查。 PubMed DOI

ChatGPT 在通用外科考試拿到 72.7 分,超過及格線,生理學和選擇題表現不錯,但解剖學和需要分析的題目比較弱。雖然有潛力協助醫學教育,但還有不少限制,未來要再多研究和評估,才能廣泛應用。 PubMed DOI

這項研究比較DeepSeek-V3和ChatGPT-4o在回答腹腔鏡膽囊切除術常見病人問題的表現。由兩位外科醫師評分後,發現DeepSeek-V3在適切性、正確性和易讀性都勝出,顯示它在這類病人衛教上可能更有優勢。 PubMed DOI