原始文章

這項研究發現,免費版GPT-3.5和Gemini在回答大一醫學選擇題時,常出現重複答題模式,且比學生更容易被干擾選項誤導,反覆犯同樣錯誤。整體來說,這些AI在技術性題目上的表現都不如受訓學生或專家,顯示醫學評量還是需要人類監督,也讓人質疑AI理解情境的能力。 PubMed DOI


站上相關主題文章列表

最近生成式人工智慧(AI)在醫學教育上有了新進展,特別是解決考題庫短缺的問題。研究使用OpenAI的GPT-4生成220道符合醫學院評估標準的單選題,經專家評估後,69%的題目經小幅修改後可用於考試。結果顯示,AI生成的題目與人類撰寫的題目在學生表現上無顯著差異。這表明AI能有效生成符合教育標準的考題,但仍需進行質量把關,為醫學教育提供了新的評估資源。 PubMed DOI

這項研究評估了三個生成式人工智慧模型—ChatGPT、Gemini 和 Copilot—在回答美國醫學執照考試的多選題準確性。結果顯示,ChatGPT的準確率最高,達70%,與醫學教師的回答一致性強。Copilot的準確率為60%,而Gemini最低,僅50%。整體一致性較差,顯示AI模型在醫學教育中的表現仍需謹慎對待。雖然ChatGPT表現較好,但仍不及合格的醫學教師。 PubMed DOI

這項研究發現,Gemini 和 DeepSeek 在病理診斷推理上比 OpenAI 模型更有深度和邏輯性,也更常用專家級推理策略。雖然各模型正確率差不多,但在啟發式和模式識別推理上表現較弱。Gemini 和 DeepSeek 答案較一致但不夠精簡。整體來說,先進 LLMs 雖有專家級潛力,但在情境理解和啟發式推理上還有待加強,臨床應用前需再改進。 PubMed DOI

這項研究比較六款免費大型語言模型在40題血液生理學選擇題的表現,結果以Claude最優(正確率95%),DeepSeek和Grok次之(93%),ChatGPT(90%)、Gemini(88%),Le Chat最低(70%)。題目難度和品質對結果沒明顯影響。整體來說,這些AI工具,尤其是Claude、DeepSeek和Grok,能當作醫學教育的輔助,但還是建議搭配傳統教學和專家指導使用。 PubMed DOI

這份研究比較了ChatGPT-4、Copilot和Gemini三款大型語言模型在美國外科住院醫師考題上的表現。結果顯示,ChatGPT和Copilot的正確率都接近八成,表現差不多;但Gemini的正確率只有五成多,尤其在定義題和臨床案例題上更弱。總結來說,Gemini的準確度明顯落後。 PubMed DOI

ChatGPT-3.5 在治療學考試的表現明顯不如藥學系學生,分數只有 53%,學生平均則有 82%。它在需要應用和案例分析的題目上特別吃力,只有在記憶型題目表現較好,顯示生成式 AI 在複雜醫學教育任務上還有不少限制。 PubMed DOI

研究發現,GPT-4產生的醫學選擇題品質大致接近專家水準,但錯誤率較高,像是答案標示錯或選項排列不當。雖然AI能寫出高品質題目,仍需專家審核把關,確保正確性與品質。 PubMed DOI

這項研究發現,不同AI聊天機器人在幫醫學生出單一最佳答案題目時,品質和一致性都有差異,沒有哪一個特別突出。所有AI產生的題目都還是需要專家審查,無法完全取代人類。AI出題也對傳統的認知能力分級方式帶來挑戰。 PubMed DOI

研究發現,AI產生的醫學選擇題在難度和鑑別度上跟人類寫的差不多,整體品質也很高。不過,AI出的干擾選項效果比新手差一點,但跟專家差不多。總結來說,AI能出不錯的題目,但還是需要人類幫忙審查,才能讓選項更有品質。 PubMed DOI

五款主流大型語言模型(如ChatGPT-4、Gemini等)在麻醉學考題測試中都拿到高分,彼此表現差不多,顯示未來有望協助醫學教育和臨床決策。不過,還需要更多研究來確認它們的可靠性、倫理問題及對病患照護的實際影響。 PubMed DOI