原始文章

這項研究探討了Gemini Advanced這個大型語言模型(LLM)在生成臨床小案例和導師指南的有效性,並評估其與問題導向學習(PBL)課程的學習目標的對齊程度。研究結果顯示,LLM生成的臨床小案例在對齊學習目標上得分較高,但原始案例在教育適切性和遵循PBL設計方面表現較佳。導師指南方面,LLM版本在流程和內容全面性上表現優異,但缺乏視覺元素。總體而言,建議醫學教育者利用LLM創造創新的學習體驗,同時注意其局限性。 PubMed DOI


站上相關主題文章列表

這項研究探討了訓練大型語言模型(LLMs)來根據美國住院醫師教育認證委員會(ACGME)的標準分類受訓者的反饋。研究發現,雖然複雜的模型未必能提高分類準確率,但較小的模型如BERT-mini在性能上與FastText相當,且在個人設備上部署時更具優勢,能提升速度和數據隱私。這項研究有助於理解如何有效整合LLMs於醫學教育中。 PubMed DOI

這項研究探討大型語言模型(LLMs)在醫學倫理教育中的角色,特別是如何促進未來醫療人員的美德。研究指出,LLMs能有效模擬人類溝通,成為醫學教育的寶貴工具。透過混合方法論,將LLMs視為倫理討論的範例和顧問,並強調將人工智慧倫理納入醫學課程的重要性。研究認為,LLMs可作為「第二最佳」解決方案,增強學習體驗,並促進道德知識的獲取。最終,研究認為像ChatGPT這樣的工具能顯著改善醫學倫理教育環境。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示,Med-Go 的中位數得分為37.5,優於其他模型,而 Gemini 得分最低,為33.0,差異顯著(p < 0.001)。所有模型在鑑別診斷上表現較弱,但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練,以提升效能,並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

這項研究建立了一個自訂的GPT-3.5模型,用來評估一年級物理治療學生的解剖學作業,並將其表現與專業領域的專家進行比較。結果顯示,人工智慧的評分可以減輕工作負擔,同時確保評估的一致性和高品質。這表明人工智慧有潛力提升醫學教育的效率和個性化。 PubMed DOI

大型語言模型(LLMs)在醫療保健中展現出顯著潛力,能增強醫學教育、臨床決策支持及醫療管理。文獻回顧顯示,LLMs可作為虛擬病人和個性化導師,並在醫學知識評估中超越初級實習生。在臨床決策中,它們協助診斷和治療建議,但效果因專科而異。此外,LLMs能自動化臨床筆記和報告生成,減輕醫療人員的負擔。然而,仍需解決幻覺、偏見及病人隱私等挑戰。未來的整合需謹慎,並強調倫理與合作。 PubMed DOI

進展測試醫學 (PTM) 是柏林夏里特醫學大學針對醫學生的評估,每年進行兩次,提供學生優缺點的數字反饋。為了改善具體主題的學習需求,開發了一個七步驟的方法,結合大型語言模型和統計分析。透過 ChatGPT 4.0,識別問題關鍵字並與醫學主題標題 (MeSH) 匹配,分析答案模式,建立問題與 MeSH 標題的關聯。模擬結果顯示,1,401 名參與者在14.67%到21.76%的主題中存在知識空白,並能生成涵蓋243個醫學主題的個性化反饋,幫助學生更有效學習。 PubMed DOI

大型語言模型在醫學教育應用越來越普遍,不只幫助老師設計課程、製作教材,也能給予學生回饋,提升語言和寫作能力。這篇綜述分析實際案例,說明LLMs對師生的好處,並討論遇到的挑戰及解方。研究建議醫學教育應更廣泛運用LLMs,以提升學習成效和病人安全。 PubMed DOI

研究比較四款大型語言模型在2021年土耳其醫學專科考試的表現,ChatGPT 4正確率最高(88.75%),Llama 3 70B(79.17%)、Gemini 1.5 Pro(78.13%)次之,Command R+僅50%。ChatGPT 4在基礎和臨床醫學題目都很強,顯示它和Llama 3 70B有潛力協助土耳其語醫學教育與臨床應用,其他兩款則還需加強。 PubMed DOI

這項研究發現,大型語言模型(LLMs)在有明確、結構化提示下,能準確且一致地評分醫學生臨床紀錄,但如果只給簡單指示,結果會不穩定。LLM有時會算錯總分,需要外部協助。整體來說,經過優化後,LLM有潛力成為醫學教育自動評分工具,但針對更複雜的評分系統還需進一步研究。 PubMed DOI

最新研究發現,像 ChatGPT-4 Omni 這類大型語言模型,在 CPT 和歐洲處方考試的表現跟醫學生差不多,甚至更厲害,特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方,不只適合當教學工具,也有助於改進考題品質。 PubMed DOI