原始文章

**重點摘要:** ChatGPT 可以產生美國醫師執照考試(USMLE/COMLEX)風格的醫學考題,這些題目作為起點還算不錯,但大約有一半有寫作上的瑕疵,約五分之一有事實錯誤。在用於教學前,專家審查和修正是非常必要的。 PubMed DOI


站上相關主題文章列表

研究發現,在醫學院環境中,ChatGPT在回答多重選擇題時表現不錯,但若答案不正確,解釋準確性會下降。ChatGPT可作為學習輔助工具,但需謹慎使用,建議教師審查和補充解釋以確保學習效果。若有錯誤答案,學生應主動向教師求證。 PubMed DOI

生成式 AI 模型如 ChatGPT 正逐漸融入醫學教育,許多學生利用它來學習和準備考試,包括美國醫學執照考試(USMLE)。根據2023年5月的調查,96% 的醫學生知道 ChatGPT,52% 曾使用過它來完成課業。學生常用它解釋醫學概念、協助診斷及文法檢查。不過,對於不準確性、病人隱私和抄襲的擔憂也浮現,顯示出制定規範以確保道德使用的必要性。了解學生的看法對於建立負責任的使用指導方針至關重要。 PubMed DOI

這項研究評估了ChatGPT 3.5生成的耳鼻喉科選擇題問卷,結果顯示雖然問題語法正確且適合醫學生,但仍有一些缺陷。包括一題偏離主題、三題有錯誤答案及三題有多個正確答案,且問題在各子領域分佈不均,頭頸部問題較多。整體質量中等,雖然難度適合醫學生,但對住院醫師和顧問來說過於簡單。內部一致性為0.69,未來需專家審查和修訂。 PubMed DOI

這項研究評估了ChatGPT-4o在生成高品質多選題(MCQs)的效果,並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生,回答了兩組各100題的MCQs。 主要發現包括:AI生成的題目較容易,且兩組題目的區分能力相似,但AI題目中有更多不準確及不適當的內容,且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。 結論指出,雖然ChatGPT-4o能有效生成MCQs,但在深度上仍不足,強調人類審核的重要性,結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

這項研究探討了ChatGPT在生成高品質的案例導向解剖學多選題(MCQs)的有效性,特別針對內分泌和泌尿生殖系統。研究使用結構化框架進行AI輔助題目生成,經專家評估後在502名二年級醫學生中測試。結果顯示,生成的題目在區分高低表現學生方面有效,且大多數題目難度適中,適合醫學考試。研究指出,ChatGPT是醫學教育者的有用工具,但人類專業知識仍然重要,以確保題目質量。未來可探討AI在其他解剖學主題的題目生成能力。 PubMed DOI

學生們越來越依賴人工智慧(AI)工具,如ChatGPT,來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題,這些題目模仿美國醫學執照考試(USMLE)第一階段的格式。研究發現,83%的問題事實上是準確的,常見主題包括深靜脈血栓和心肌梗塞。研究建議,分開生成內容主題和問題可以提升多樣性。總體而言,ChatGPT-3.5能有效生成相關考題,但需謹慎提示以減少偏見,對醫學生準備USMLE考試有幫助。 PubMed DOI

這項研究比較六款免費大型語言模型在40題血液生理學選擇題的表現,結果以Claude最優(正確率95%),DeepSeek和Grok次之(93%),ChatGPT(90%)、Gemini(88%),Le Chat最低(70%)。題目難度和品質對結果沒明顯影響。整體來說,這些AI工具,尤其是Claude、DeepSeek和Grok,能當作醫學教育的輔助,但還是建議搭配傳統教學和專家指導使用。 PubMed DOI

研究發現,GPT-4產生的醫學選擇題品質大致接近專家水準,但錯誤率較高,像是答案標示錯或選項排列不當。雖然AI能寫出高品質題目,仍需專家審核把關,確保正確性與品質。 PubMed DOI

研究發現,ChatGPT雖然常能正確回答初階麻醉學問題,但有時會出現重大錯誤,像是引用錯誤、混淆概念或受偏見影響。這些錯誤若發生在臨床上,可能會有風險。因此,ChatGPT的答案沒經專家審查前,不適合直接用在醫學教育。 PubMed DOI

最新研究發現,像 ChatGPT-4 Omni 這類大型語言模型,在 CPT 和歐洲處方考試的表現跟醫學生差不多,甚至更厲害,特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方,不只適合當教學工具,也有助於改進考題品質。 PubMed DOI