原始文章

這項研究發現,GPT模型能針對虛擬病人案例產生臨床推理概念圖,找出的醫學概念甚至比醫師還多。雖然召回率和精確率各有高低,但這些概念圖能幫助老師提供更多診斷、檢查或治療建議,對教學教材製作和學生回饋都很有幫助。 PubMed DOI


站上相關主題文章列表

最近的人工智慧進展讓大型語言模型能針對特定領域進行客製化,像是醫學教育。本研究評估了一個專為提升醫學生和醫師臨床知識的客製化GPT模型,結果顯示其準確率達83.6%,高於一般AI模型。住院醫師對此模型的滿意度高,特別是它能促進學習獨立性和信心。這些發現顯示,客製化GPT有潛力改善醫學教育,但學習者和教育者仍需批判性地評估AI生成的內容。 PubMed DOI

這項研究探討了Gemini Advanced這個大型語言模型(LLM)在生成臨床小案例和導師指南的有效性,並評估其與問題導向學習(PBL)課程的學習目標的對齊程度。研究結果顯示,LLM生成的臨床小案例在對齊學習目標上得分較高,但原始案例在教育適切性和遵循PBL設計方面表現較佳。導師指南方面,LLM版本在流程和內容全面性上表現優異,但缺乏視覺元素。總體而言,建議醫學教育者利用LLM創造創新的學習體驗,同時注意其局限性。 PubMed DOI

這項研究評估了兩個人工智慧系統,ChatGPT 4.0 和 Algor,在生成耳鼻喉科概念圖的表現。八位專家根據概念識別、關係建立等標準進行評估。結果顯示,兩者各有優勢,ChatGPT 在交叉連結和佈局上表現佳,特別是鼻整形手術方面;而 Algor 在識別主題和區分概念上更出色,尤其在 BPVV 和鼓膜通氣管的指導方針中。研究建議需進一步探討 AI 在醫學教育中的應用潛力與限制。 PubMed DOI

這項研究建立了一個自訂的GPT-3.5模型,用來評估一年級物理治療學生的解剖學作業,並將其表現與專業領域的專家進行比較。結果顯示,人工智慧的評分可以減輕工作負擔,同時確保評估的一致性和高品質。這表明人工智慧有潛力提升醫學教育的效率和個性化。 PubMed DOI

這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示,這些模型生成了60個問題,並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題,結果顯示AI問題的正確率與專家問題相當,且AI生成問題的準備效率顯著提升。然而,仍有19個問題被認為無法使用,顯示專家審查的重要性。結合AI效率與專家驗證的方式,可能是改善醫學教育的最佳策略。 PubMed DOI

GPT-4 這類大型語言模型能產出高品質、完整又準確的臨床案例,對醫學教育很有幫助,專家也給予高度肯定,認為風險和偏見都很低。不過,目前在族群多元性上還有待加強。未來若能補足這點,LLM 有機會讓醫學教育更大規模、也更客製化。 PubMed DOI

像 ChatGPT、Gemini、Claude 這類生成式 AI,能大幅簡化醫學教育裡虛擬病人模擬的製作流程,像是自動產生病人圖片、臨床報告和評量題目,幫老師省下不少時間和資源。雖然現在還有些限制,但這些 AI 進步很快,未來會讓模擬內容更真實、效率更高,也能提升學生的參與感。 PubMed DOI

研究發現,GPT-4產生的醫學選擇題品質大致接近專家水準,但錯誤率較高,像是答案標示錯或選項排列不當。雖然AI能寫出高品質題目,仍需專家審核把關,確保正確性與品質。 PubMed DOI

這項研究發現,透過反覆回饋修正,GPT-4o能快速產出高品質的跨專業教育臨床情境,品質甚至不輸人類導師設計,學生也分辨不出差異。這方法能有效減輕教師負擔,對資源有限的教學環境特別有幫助。 PubMed DOI

DeepSeek-R1 是一款開源大型語言模型,醫療診斷表現和 GPT-4 差不多,正確診斷率分別為 35% 和 39%。不過,DeepSeek-R1 把正確診斷列入鑑別診斷的機率較低,且清單較長但多元。整體來說,DeepSeek-R1 準確度不輸 GPT-4,且有開源優勢,但在診斷排序上還有進步空間。 PubMed DOI