原始文章

這項研究評估了三個生成式人工智慧模型—ChatGPT、Gemini 和 Copilot—在回答美國醫學執照考試的多選題準確性。結果顯示,ChatGPT的準確率最高,達70%,與醫學教師的回答一致性強。Copilot的準確率為60%,而Gemini最低,僅50%。整體一致性較差,顯示AI模型在醫學教育中的表現仍需謹慎對待。雖然ChatGPT表現較好,但仍不及合格的醫學教師。 PubMed DOI


站上相關主題文章列表

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

這項研究評估了六種大型語言模型(LLMs)在回答牙科多選題的表現,分析了1490道來自美國國家牙科考試的題目。測試的模型包括ChatGPT 4.0 omni、Gemini Advanced 1.5 Pro等。結果顯示,Copilot(85.5%)、Claude(84.0%)和ChatGPT(83.8%)的準確性最佳。雖然這些模型在文字型問題上表現良好,但在影像型問題上則較弱。研究建議牙科專業人士和學生應使用更新的模型,以提升教育和臨床需求的滿足。 PubMed DOI

這項研究評估了ChatGPT-4o在生成高品質多選題(MCQs)的效果,並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生,回答了兩組各100題的MCQs。 主要發現包括:AI生成的題目較容易,且兩組題目的區分能力相似,但AI題目中有更多不準確及不適當的內容,且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。 結論指出,雖然ChatGPT-4o能有效生成MCQs,但在深度上仍不足,強調人類審核的重要性,結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

這項研究分析了三種生成式人工智慧工具—ChatGPT-4、Copilot 和 Google Gemini—在心血管藥理學問題上的表現。研究使用了45道多選題和30道短答題,並由專家評估AI生成的答案準確性。結果顯示,這三種AI在簡單和中等難度的多選題上表現良好,但在高難度題目上表現不佳,特別是Gemini。ChatGPT-4在所有題型中表現最佳,Copilot次之,而Gemini則需改進。這些結果顯示AI在醫學教育中的潛力與挑戰。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra,專注於耳鼻喉科的題庫。共收集350道選擇題,結果顯示Gemini Ultra準確率最高,達79.8%,GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長,且包含解釋性圖片,而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題,顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI

學生們越來越依賴人工智慧(AI)工具,如ChatGPT,來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題,這些題目模仿美國醫學執照考試(USMLE)第一階段的格式。研究發現,83%的問題事實上是準確的,常見主題包括深靜脈血栓和心肌梗塞。研究建議,分開生成內容主題和問題可以提升多樣性。總體而言,ChatGPT-3.5能有效生成相關考題,但需謹慎提示以減少偏見,對醫學生準備USMLE考試有幫助。 PubMed DOI

研究比較四款大型語言模型在2021年土耳其醫學專科考試的表現,ChatGPT 4正確率最高(88.75%),Llama 3 70B(79.17%)、Gemini 1.5 Pro(78.13%)次之,Command R+僅50%。ChatGPT 4在基礎和臨床醫學題目都很強,顯示它和Llama 3 70B有潛力協助土耳其語醫學教育與臨床應用,其他兩款則還需加強。 PubMed DOI

這項研究比較六款免費大型語言模型在40題血液生理學選擇題的表現,結果以Claude最優(正確率95%),DeepSeek和Grok次之(93%),ChatGPT(90%)、Gemini(88%),Le Chat最低(70%)。題目難度和品質對結果沒明顯影響。整體來說,這些AI工具,尤其是Claude、DeepSeek和Grok,能當作醫學教育的輔助,但還是建議搭配傳統教學和專家指導使用。 PubMed DOI

這項研究發現,GPT-4o 和 Claude 在美國醫師執照考試胚胎學題目上表現最好,正確率約九成,兩者差異不大。Copilot、Gemini 和 GPT-3.5 分數較低。頂尖AI模型有助於胚胎學教學,但還是需要專業醫師把關。 PubMed DOI

五款主流大型語言模型(如ChatGPT-4、Gemini等)在麻醉學考題測試中都拿到高分,彼此表現差不多,顯示未來有望協助醫學教育和臨床決策。不過,還需要更多研究來確認它們的可靠性、倫理問題及對病患照護的實際影響。 PubMed DOI