原始文章

這項研究發現,GPT模型能針對虛擬病人案例產生臨床推理概念圖,找出的醫學概念甚至比醫師還多。雖然召回率和精確率各有高低,但這些概念圖能幫助老師提供更多診斷、檢查或治療建議,對教學教材製作和學生回饋都很有幫助。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT在醫學訓練中的診斷準確性和教育效用。分析150個Medscape案例後,發現ChatGPT正確回答49%的案例,整體診斷準確率為74%。雖然在解讀實驗室數值和影像結果上有些限制,但它在教育上顯示出潛力,能有效排除某些鑑別診斷並建議後續步驟,讓複雜的醫學概念更易理解。未來研究應著重提升其教育能力。 PubMed DOI

這項研究探討了使用GPT-4模型,透過與模擬病人聊天機器人的互動,為醫學生提供病史採集技巧的反饋。研究對象為三年級醫學生,分析了106次對話中的1,894個問答對。結果顯示,GPT-4的回應在99%以上是醫學上合理的,且與人類評分者的協議幾乎完美(Cohen κ=0.832)。不過,在45個反饋類別中,有8個類別出現差異,顯示模型評估可能過於具體或與人類判斷不同。總體而言,研究認為GPT-4在提供結構化反饋上有效,並建議在醫學教育中謹慎整合AI反饋機制。 PubMed DOI

這項研究比較了使用生成預訓練變壓器(GPT)與傳統方法開發的臨床與專業技能評估(CPSA)項目的有效性、考官看法及成本。研究對象為最後一年醫學生,開發了兩組各六個案例,其中一個是用GPT創建的。分析239名學生的表現,結果顯示兩者在難度和區分能力上無顯著差異。考官反饋認為GPT案例具挑戰性和現實性,且使用GPT可節省57%的成本。研究顯示GPT能以較低成本產生相似質量的CPSA項目,未來可探討其在其他臨床領域的應用。 PubMed DOI

這項研究探討了使用生成式人工智慧GPT-4-0613來創建日文臨床小案例,評估其醫學和語法準確性。根據特定提示生成的202個小案例中,118個被認為「足夠有用且可立即使用」,78個「部分不足需修改」,只有6個在醫學準確性上被評為「不足」。語言準確性方面,142個案例得分較高,僅4個不足。總體來看,97%的案例經醫療專業人員確認後被視為實用,顯示人工智慧能顯著簡化臨床案例的創建過程。 PubMed DOI

這項研究比較了ChatGPT生成的回饋與專家回饋對一年級醫學生臨床推理技能的影響。129名學生被隨機分為兩組,分別接受專家回饋和ChatGPT回饋。結果顯示,兩組在整體表現上沒有顯著差異,但對照組在複雜案例中表現較好。實驗組在了解AI角色後,對AI的批判性思維有明顯提升。這表明ChatGPT可作為專家回饋的替代方案,但在處理複雜案例上可能不足,並促進學生對AI的批判性認識。 PubMed DOI

最近的人工智慧進展讓大型語言模型能針對特定領域進行客製化,像是醫學教育。本研究評估了一個專為提升醫學生和醫師臨床知識的客製化GPT模型,結果顯示其準確率達83.6%,高於一般AI模型。住院醫師對此模型的滿意度高,特別是它能促進學習獨立性和信心。這些發現顯示,客製化GPT有潛力改善醫學教育,但學習者和教育者仍需批判性地評估AI生成的內容。 PubMed DOI

這項研究評估了兩個人工智慧系統,ChatGPT 4.0 和 Algor,在生成耳鼻喉科概念圖的表現。八位專家根據概念識別、關係建立等標準進行評估。結果顯示,兩者各有優勢,ChatGPT 在交叉連結和佈局上表現佳,特別是鼻整形手術方面;而 Algor 在識別主題和區分概念上更出色,尤其在 BPVV 和鼓膜通氣管的指導方針中。研究建議需進一步探討 AI 在醫學教育中的應用潛力與限制。 PubMed DOI

GPT-4 這類大型語言模型能產出高品質、完整又準確的臨床案例,對醫學教育很有幫助,專家也給予高度肯定,認為風險和偏見都很低。不過,目前在族群多元性上還有待加強。未來若能補足這點,LLM 有機會讓醫學教育更大規模、也更客製化。 PubMed DOI

這項研究發現,透過反覆回饋修正,GPT-4o能快速產出高品質的跨專業教育臨床情境,品質甚至不輸人類導師設計,學生也分辨不出差異。這方法能有效減輕教師負擔,對資源有限的教學環境特別有幫助。 PubMed DOI

DeepSeek-R1 是一款開源大型語言模型,醫療診斷表現和 GPT-4 差不多,正確診斷率分別為 35% 和 39%。不過,DeepSeek-R1 把正確診斷列入鑑別診斷的機率較低,且清單較長但多元。整體來說,DeepSeek-R1 準確度不輸 GPT-4,且有開源優勢,但在診斷排序上還有進步空間。 PubMed DOI