Evaluating the Effectiveness of advanced large language models in medical Knowledge: A Comparative study using Japanese national medical examination.
評估先進大型語言模型在醫學知識中的有效性：使用日本國家醫學考試的比較研究。 Int J Med Inform 2024-10-29

這項研究評估了先進語言模型（LLMs）在醫學知識的準確性，特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus，並使用日本國家醫學考試作為評估工具。研究發現，GPT-4o在整體準確率上達到89.2%，在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題，且在「消化內科與肝臟病學」的表現最差。研究顯示，出版數量與模型表現正相關，強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

Large language models (LLMs) in radiology exams for medical students: Performance and consequences.
放射科考試中大型語言模型（LLMs）對醫學生的影響與表現。 Rofo 2024-11-04

這項研究分析了大型語言模型（LLMs），特別是OpenAI的GPT-3.5和GPT-4，在醫學生放射學考試中的表現。使用151道選擇題，結果顯示GPT-3.5的正確率為67.6%，而GPT-4則達到88.1%（p<0.001），表現明顯優於前者。GPT-4在各類問題上都表現良好，顯示其在醫學教育中的潛力。不過，研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看，LLMs在放射學教育上有提升的可能性。 PubMed DOI

Performance of Multimodal Large Language Models in Japanese Diagnostic Radiology Board Examinations (2021-2023).
2021-2023 年日本診斷放射學考試中多模態大型語言模型的表現。 Acad Radiol 2024-11-09

這項研究評估了五種多模態大型語言模型（LLMs）在日本診斷放射學委員會考試中的表現，涵蓋2021至2023年的考題。測試模型包括GPT-4o、Claude 3 Opus等，準確率介於30.21%到45.00%之間，GPT-4o表現最佳。雖然Claude 3 Opus在無圖像問題中表現較好，但添加圖像並未顯著提升準確性，甚至有模型表現下降。所有模型均未達到60%的及格標準，顯示目前LLMs在放射學的應用仍需進一步發展。 PubMed DOI

Exploring Radiology Postgraduate Students' Engagement with Large Language Models for Educational Purposes: A Study of Knowledge, Attitudes, and Practices.
探索放射科研究生對大型語言模型在教育用途中的參與：知識、態度和實踐的研究。 Indian J Radiol Imaging 2024-12-19

本研究探討放射科研究生對大型語言模型（LLMs）的認識及其在醫學教育中的實用性。透過線上調查，共252名研究生參與，結果顯示約47.62%的人對LLMs有了解，71.82%認為將其與傳統教學結合有潛力。大多數受訪者願意使用LLMs作為學習工具，但對其局限性仍有擔憂。整體來看，研究生對LLMs持正面態度，並認同其在教育中的潛在好處。 PubMed DOI

Potential of Large Language Models in Generating Multiple-Choice Questions for the Japanese National Licensure Examination for Physical Therapists.
大型語言模型在生成日本物理治療師國家執照考試多選題的潛力。 Cureus 2025-03-20

本研究探討大型語言模型（LLMs）在生成日本物理治療師國家執照考試多選題的應用，特別是定制的ChatGPT模型「Physio Exam GPT」。研究利用第57和58屆考試的340道題目，生成的題目在準確率上達到100%。評估結果顯示，題目的清晰度、臨床相關性及難度等方面表現良好，平均分數在7.0到9.8之間。研究顯示LLMs在非英語環境中能有效生成高品質教育資源，對教育工作者有幫助，並為未來的應用奠定基礎。 PubMed DOI

Delving into the Practical Applications and Pitfalls of Large Language Models in Medical Education: Narrative Review.
探討大型語言模型於醫學教育中的實際應用與陷阱：敘述性回顧 Adv Med Educ Pract 2025-04-24

大型語言模型在醫學教育應用越來越普遍，不只幫助老師設計課程、製作教材，也能給予學生回饋，提升語言和寫作能力。這篇綜述分析實際案例，說明LLMs對師生的好處，並討論遇到的挑戰及解方。研究建議醫學教育應更廣泛運用LLMs，以提升學習成效和病人安全。 PubMed DOI

Comparison of Large Language Models' Performance on 600 Nuclear Medicine Technology Board Examination-Style Questions.
大型語言模型在600題核醫技術師國家考試題型上的表現比較 J Nucl Med Technol 2025-05-09

這項研究比較多款大型語言模型（LLM）在核子醫學題目的表現，發現結合檢索增強生成（RAG）的 GPT-4o 準確率最高。RAG 整體有助提升答題表現。雖然 LLM 在教育和臨床輔助有潛力，但對複雜指引和影像題還不夠理想，未來還需再優化才能安心用於醫療領域。 PubMed DOI

Performance of large language models on Thailand's national medical licensing examination: a cross-sectional study.
大型語言模型在泰國國家醫師執照考試中的表現：一項橫斷面研究 J Educ Eval Health Prof 2025-05-12

這項研究讓四款大型語言模型參加泰國醫師執照模擬考，發現它們分數都超過及格線，GPT-4表現最好，正確率高達88.9%。雖然大多數醫學主題都答得不錯，但在遺傳學和心血管題目上較弱。圖片題有進步空間，純文字題表現較佳。整體來說，LLMs對泰國醫學生準備考試很有幫助，但還需加強某些主題和圖片題的能力。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

Performance evaluation of large language models for the national nursing examination in Japan.
日本國家護理考試中大型語言模型的表現評估 Digit Health 2025-05-29

這項研究發現，ChatGPT-4 和 Copilot 在日本護理師國考題目上表現及格，ChatGPT-3.5 則沒過關。三款模型在涉及日本特有法律和社會保障制度的題目上表現最差，顯示需要在地知識時，LLMs 容易出錯。整體來說，較新版本的 LLMs 準確度較高。 PubMed DOI

原始文章

站上相關主題文章列表