原始文章

這項研究發現,免費版GPT-3.5和Gemini在回答大一醫學選擇題時,常出現重複答題模式,且比學生更容易被干擾選項誤導,反覆犯同樣錯誤。整體來說,這些AI在技術性題目上的表現都不如受訓學生或專家,顯示醫學評量還是需要人類監督,也讓人質疑AI理解情境的能力。 PubMed DOI


站上相關主題文章列表

這項研究評估了三個大型語言模型(LLMs)—GPT-3.5、GPT-4 和 Google Gemini(Bard)在回答60道乳腺癌護理相關的多選題的表現。結果顯示,GPT-4的準確率最高,正確回答了95%的問題,接著是GPT-3.5的90%和Google Gemini的80%。研究還發現,來自公共數據庫的問題與乳腺放射科醫師新制定的問題在答案準確性上並無顯著差異,顯示LLMs在乳腺癌護理方面有良好的應用潛力,但仍需進一步訓練以提升表現。 PubMed DOI

這項研究探討大型語言模型(LLMs)在醫學教育中自動短答案評分的應用,使用GPT-4和Gemini 1.0 Pro對2288名學生的答案進行評分。主要發現包括:GPT-4的分數低於人類評估者,但假陽性率較低;Gemini 1.0 Pro的評分與教師相似。兩者與人類評分有中等一致性,且高品質答案的評分行為一致。學生答案的長度與評分關聯性弱,LLM可能存在偏見風險,仍需人類監督。整體而言,LLM在醫學教育評估中具潛力,但人類參與仍不可或缺。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是OpenAI的GPT-4 1106和Google的Bard Gemini Pro,在影像醫學問題上的表現。分析1,070個來自AMBOSS平台的問題後,發現GPT-4 1106的準確率為56.9%,高於Bard的44.6%。不過,GPT-4 1106未回答的問題比例較高,達16.1%。若只看已回答的問題,GPT-4 1106的準確率提升至67.8%。兩者在德語表現優於英語,學生的準確率達94.5%,顯著超越這兩個AI模型。研究顯示,這些LLMs在醫學教育中有潛力,但仍需優化以應對多語言環境的挑戰。 PubMed DOI

最近生成式人工智慧(AI)在醫學教育上有了新進展,特別是解決考題庫短缺的問題。研究使用OpenAI的GPT-4生成220道符合醫學院評估標準的單選題,經專家評估後,69%的題目經小幅修改後可用於考試。結果顯示,AI生成的題目與人類撰寫的題目在學生表現上無顯著差異。這表明AI能有效生成符合教育標準的考題,但仍需進行質量把關,為醫學教育提供了新的評估資源。 PubMed DOI

這項研究比較六款免費大型語言模型在40題血液生理學選擇題的表現,結果以Claude最優(正確率95%),DeepSeek和Grok次之(93%),ChatGPT(90%)、Gemini(88%),Le Chat最低(70%)。題目難度和品質對結果沒明顯影響。整體來說,這些AI工具,尤其是Claude、DeepSeek和Grok,能當作醫學教育的輔助,但還是建議搭配傳統教學和專家指導使用。 PubMed DOI

這份研究比較了ChatGPT-4、Copilot和Gemini三款大型語言模型在美國外科住院醫師考題上的表現。結果顯示,ChatGPT和Copilot的正確率都接近八成,表現差不多;但Gemini的正確率只有五成多,尤其在定義題和臨床案例題上更弱。總結來說,Gemini的準確度明顯落後。 PubMed DOI

研究發現,GPT-4產生的醫學選擇題品質大致接近專家水準,但錯誤率較高,像是答案標示錯或選項排列不當。雖然AI能寫出高品質題目,仍需專家審核把關,確保正確性與品質。 PubMed DOI

這項研究發現,不同AI聊天機器人在幫醫學生出單一最佳答案題目時,品質和一致性都有差異,沒有哪一個特別突出。所有AI產生的題目都還是需要專家審查,無法完全取代人類。AI出題也對傳統的認知能力分級方式帶來挑戰。 PubMed DOI

研究發現,AI產生的醫學選擇題在難度和鑑別度上跟人類寫的差不多,整體品質也很高。不過,AI出的干擾選項效果比新手差一點,但跟專家差不多。總結來說,AI能出不錯的題目,但還是需要人類幫忙審查,才能讓選項更有品質。 PubMed DOI