原始文章

這項研究比較了使用生成預訓練變壓器(GPT)與傳統方法開發的臨床與專業技能評估(CPSA)項目的有效性、考官看法及成本。研究對象為最後一年醫學生,開發了兩組各六個案例,其中一個是用GPT創建的。分析239名學生的表現,結果顯示兩者在難度和區分能力上無顯著差異。考官反饋認為GPT案例具挑戰性和現實性,且使用GPT可節省57%的成本。研究顯示GPT能以較低成本產生相似質量的CPSA項目,未來可探討其在其他臨床領域的應用。 PubMed DOI


站上相關主題文章列表

LLMs(大型語言模型)如ChatGPT展現了理解和生成人類文本的潛力。研究評估了ChatGPT在英國醫學執照考試中的表現,結果顯示在某些專業領域表現不錯,但在其他領域表現較差。ChatGPT在67.5%的問題中提供了正確答案,顯示其在醫學教育中有潛力成為輔助學習工具,但需要適當監督。 PubMed DOI

研究比較了大型語言模型GPT-3.5和不同H指數的醫學研究人員在寫重症監護臨床研究問題背景的能力。來自20個國家的研究人員評估後發現,GPT-3.5在背景部分表現不錯,但在區分人類內容方面稍遜。總結來說,GPT-3.5能夠創造出和高H指數醫學研究人員相當的背景研究內容。 PubMed DOI

研究比較了ChatGPT和Bard兩個大型語言模型在MRCS Part A考試300題上的表現。結果顯示ChatGPT比Bard表現更優秀,回答更有深度。兩者一致性高,對醫學教育和評估有潛力。雖然LLMs能有效取得臨床知識,但需留意資訊可能不準確或過時。ChatGPT在考試中表現準確,在醫療領域有重要價值需受到監督。 PubMed DOI

製作醫學考題很費時,但好問題能幫助學生學習。使用像ChatGPT這樣的大型語言模型來出題可能有幫助,但目前還沒有研究比較學生在LLM出題和人類出題上的表現。一項研究發現,學生在兩種問題來源下表現沒有太大差異,但人類出的問題更有區分度。學生能正確分辨問題來源的機率約為57%。需要進一步研究不同情境和問題類型的影響。 PubMed DOI

這篇評論討論了使用大型語言模型(LLMs)製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效,但需注意部分問題不適合醫學考試,需修改。未來研究應解決這些限制,LLMs可作為撰寫醫學多重選擇題的工具,但應謹慎使用。 PubMed DOI

這項研究評估了大型語言模型如GPT-3.5和GPT-4在回答CFPC考試中的短答管理問題時的表現。結果顯示,這兩個模型提供了準確的答案,其中GPT-4的表現優於GPT-3.5。該研究建議這些模型可能有助於協助考生準備CFPC考試,但在家庭醫學教育中應用它們仍需要進一步的研究。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

這項研究評估了ChatGPT 3.5在評分一年級醫學生撰寫的臨床筆記的效果,並與標準化病人進行比較。研究涵蓋168名學生,結果顯示ChatGPT的錯誤評分率僅1.0%,而標準化病人則為7.2%。平均錯誤數方面,ChatGPT為12,標準化病人則高達85,且差異顯著(P=.002)。這項研究顯示,GPT模型在評分臨床筆記上具有潛力,未來可能在醫療教育中提供即時反饋,標誌著醫學教育的一大進步。 PubMed DOI

這項研究探討了使用GPT-4模型,透過與模擬病人聊天機器人的互動,為醫學生提供病史採集技巧的反饋。研究對象為三年級醫學生,分析了106次對話中的1,894個問答對。結果顯示,GPT-4的回應在99%以上是醫學上合理的,且與人類評分者的協議幾乎完美(Cohen κ=0.832)。不過,在45個反饋類別中,有8個類別出現差異,顯示模型評估可能過於具體或與人類判斷不同。總體而言,研究認為GPT-4在提供結構化反饋上有效,並建議在醫學教育中謹慎整合AI反饋機制。 PubMed DOI

這項研究探討大型語言模型(LLMs)在理解醫學研究論文的能力,特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現,包括GPT-3.5-Turbo和GPT-4系列,與專業醫學教授的評估。分析了50篇來自PubMed的論文,結果顯示GPT-3.5-Turbo的準確率最高(66.9%),而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力,但也指出需進一步研究以克服現有限制。 PubMed DOI