原始文章

這項研究發現,不同AI聊天機器人在幫醫學生出單一最佳答案題目時,品質和一致性都有差異,沒有哪一個特別突出。所有AI產生的題目都還是需要專家審查,無法完全取代人類。AI出題也對傳統的認知能力分級方式帶來挑戰。 PubMed DOI


站上相關主題文章列表

這項研究比較了多種AI聊天機器人在醫學神經科學課程的多選題表現,並與醫學生進行對照。結果顯示,這些聊天機器人平均正確率為67.2%,低於學生的74.6%。其中,Claude和GPT-4表現最佳,準確率分別為83%和81.7%,超過學生平均分數。研究還發現,神經細胞學和胚胎學的準確率較高,而腦幹和小腦則較低。整體而言,Claude和GPT-4在醫學神經科學的測驗中展現出優於一般醫學生的能力,顯示AI在醫學教育中的潛力。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

這項研究評估了多種人工智慧聊天機器人(如ChatGPT、Bard和Gemini)在醫學生病理學考試中的表現,考題範圍涵蓋2018至2022年。測試70道題目後發現,較新的聊天機器人在多選題上表現優於學生,但在高難度問題上,學生的表現則更佳。此外,聊天機器人的得分與學生的不同意見率有關,顯示提示設計影響回應。總體來看,雖然聊天機器人在複雜推理上表現中等,但也有生成不正確資訊的問題,顯示醫學教育中使用自然語言處理的挑戰。 PubMed DOI

這項研究評估了ChatGPT-4o在生成高品質多選題(MCQs)的效果,並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生,回答了兩組各100題的MCQs。 主要發現包括:AI生成的題目較容易,且兩組題目的區分能力相似,但AI題目中有更多不準確及不適當的內容,且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。 結論指出,雖然ChatGPT-4o能有效生成MCQs,但在深度上仍不足,強調人類審核的重要性,結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

最近生成式人工智慧(AI)在醫學教育上有了新進展,特別是解決考題庫短缺的問題。研究使用OpenAI的GPT-4生成220道符合醫學院評估標準的單選題,經專家評估後,69%的題目經小幅修改後可用於考試。結果顯示,AI生成的題目與人類撰寫的題目在學生表現上無顯著差異。這表明AI能有效生成符合教育標準的考題,但仍需進行質量把關,為醫學教育提供了新的評估資源。 PubMed DOI

學生們越來越依賴人工智慧(AI)工具,如ChatGPT,來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題,這些題目模仿美國醫學執照考試(USMLE)第一階段的格式。研究發現,83%的問題事實上是準確的,常見主題包括深靜脈血栓和心肌梗塞。研究建議,分開生成內容主題和問題可以提升多樣性。總體而言,ChatGPT-3.5能有效生成相關考題,但需謹慎提示以減少偏見,對醫學生準備USMLE考試有幫助。 PubMed DOI

這項研究發現,用AI(像是ChatGPT和Gemini)產生的選擇題,經專家審核後,能有效評量醫學生在泌尿科實習期間的知識進步。AI題目內容正確,特別適合用於臨床情境的評量,但在分辨學生程度上還有侷限,高風險考試仍需專家審查。整體來說,AI題目很有潛力應用在醫學教育的形成性評量。 PubMed DOI

這項研究發現,免費版GPT-3.5和Gemini在回答大一醫學選擇題時,常出現重複答題模式,且比學生更容易被干擾選項誤導,反覆犯同樣錯誤。整體來說,這些AI在技術性題目上的表現都不如受訓學生或專家,顯示醫學評量還是需要人類監督,也讓人質疑AI理解情境的能力。 PubMed DOI

這項研究比較四款聊天機器人在口腔健康探究式學習的表現。結果發現,ChatGPT 3.5 最會出自我評量題,Microsoft Copilot 答題最準。不同機器人在不同主題和難度下表現不一,簡單題目答得比較好。整體來說,聊天機器人有潛力,但還沒辦法完全取代真人老師。 PubMed DOI

這項研究比較四款AI聊天機器人在外科選擇題的表現,發現Copilot表現最佳,ChatGPT次之,Bard和Medical Chat較弱。各專科表現有落差,尤其耳鼻喉科和腸胃科最明顯。所有AI在診斷題的表現都優於處置題,Bard差異最大。結果顯示AI在外科教育和臨床應用各有優缺點。 PubMed DOI