原始文章

這篇研究發現,大型語言模型在製作日本放射技術師國考教材時,對文字題表現不錯,但計算題和影像判讀較弱。建議搭配程式工具解計算題,影像題則用關鍵字輔助。老師要主動監督和驗證內容。隨著LLM進步,教學方法也要跟著調整,才能確保非英語環境下的教學品質。 PubMed DOI


站上相關主題文章列表

最近大型語言模型(LLMs)在醫療領域的應用逐漸增加,特別是OpenAI-o1在日本醫師國家考試中表現優異。本研究評估了OpenAI-o1和GPT-4o在2024年日本物理治療師國家考試的表現。結果顯示,OpenAI-o1的正確率達97.0%,解釋準確率為86.4%;而GPT-4o的正確率僅56.5%。這顯示OpenAI-o1在物理治療內容上具備高適應性,未來在醫學教育和遠程健康照護中有潛在應用價值。GPT-4o則需進一步優化以提升影像推理能力。 PubMed DOI

本研究探討大型語言模型(LLMs)在生成日本物理治療師國家執照考試多選題的應用,特別是定制的ChatGPT模型「Physio Exam GPT」。研究利用第57和58屆考試的340道題目,生成的題目在準確率上達到100%。評估結果顯示,題目的清晰度、臨床相關性及難度等方面表現良好,平均分數在7.0到9.8之間。研究顯示LLMs在非英語環境中能有效生成高品質教育資源,對教育工作者有幫助,並為未來的應用奠定基礎。 PubMed DOI

大型語言模型在醫學教育應用越來越普遍,不只幫助老師設計課程、製作教材,也能給予學生回饋,提升語言和寫作能力。這篇綜述分析實際案例,說明LLMs對師生的好處,並討論遇到的挑戰及解方。研究建議醫學教育應更廣泛運用LLMs,以提升學習成效和病人安全。 PubMed DOI

這項研究比較多款大型語言模型(LLM)在核子醫學題目的表現,發現結合檢索增強生成(RAG)的 GPT-4o 準確率最高。RAG 整體有助提升答題表現。雖然 LLM 在教育和臨床輔助有潛力,但對複雜指引和影像題還不夠理想,未來還需再優化才能安心用於醫療領域。 PubMed DOI

這項研究讓四款大型語言模型參加泰國醫師執照模擬考,發現它們分數都超過及格線,GPT-4表現最好,正確率高達88.9%。雖然大多數醫學主題都答得不錯,但在遺傳學和心血管題目上較弱。圖片題有進步空間,純文字題表現較佳。整體來說,LLMs對泰國醫學生準備考試很有幫助,但還需加強某些主題和圖片題的能力。 PubMed DOI

這項研究發現,OpenAI 的推理型語言模型在日本放射科專科考題上表現比基礎模型好,但運算成本和處理速度都比較高。雖然正確率提升不少,但要考慮到費用和時間的增加。 PubMed DOI

這項研究發現,GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好,特別是在難題和鑑別度高的題目上,推理方式也很接近人類。結果顯示,這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

這項研究發現,ChatGPT-4 和 Copilot 在日本護理師國考題目上表現及格,ChatGPT-3.5 則沒過關。三款模型在涉及日本特有法律和社會保障制度的題目上表現最差,顯示需要在地知識時,LLMs 容易出錯。整體來說,較新版本的 LLMs 準確度較高。 PubMed DOI

這項研究發現,多款主流大型語言模型在以色列基層醫療執照考試中表現不錯,尤其用結構化和範例提示時更明顯。最佳模型分數高達 85.5%,解釋也多半正確有邏輯,但偶爾還是會出現捏造資訊。雖然 LLM 在家庭醫學考試很有潛力,但還無法取代臨床技能或與病人互動。未來應加強減少幻覺、檢查偏誤及提升實務應用。 PubMed DOI

最新研究發現,像 ChatGPT-4 Omni 這類大型語言模型,在 CPT 和歐洲處方考試的表現跟醫學生差不多,甚至更厲害,特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方,不只適合當教學工具,也有助於改進考題品質。 PubMed DOI