Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Factors Associated With the Accuracy of Large Language Models in Basic Medical Science Examinations: Cross-Sectional Study.
與大型語言模型在基礎醫學科學考試準確性相關的因素：橫斷面研究。 JMIR Med Educ 2025-01-23

這項研究評估了幾種大型語言模型（LLMs）的準確性，包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing，針對基本醫學科學考試的多選題。結果顯示，GPT-4的準確率最高，達89.07%，明顯優於其他模型。Microsoft Bing以83.69%緊隨其後，GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出，問題的難度與模型表現有關，GPT-4的關聯性最強。整體來看，GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具，特別是對於簡單問題。 PubMed DOI

An Evaluation of the Performance of OpenAI-o1 and GPT-4o in the Japanese National Examination for Physical Therapists.
對於 OpenAI-o1 和 GPT-4o 在日本物理治療師國家考試中的表現評估。 Cureus 2025-02-06

最近大型語言模型（LLMs）在醫療領域的應用逐漸增加，特別是OpenAI-o1在日本醫師國家考試中表現優異。本研究評估了OpenAI-o1和GPT-4o在2024年日本物理治療師國家考試的表現。結果顯示，OpenAI-o1的正確率達97.0%，解釋準確率為86.4%；而GPT-4o的正確率僅56.5%。這顯示OpenAI-o1在物理治療內容上具備高適應性，未來在醫學教育和遠程健康照護中有潛在應用價值。GPT-4o則需進一步優化以提升影像推理能力。 PubMed DOI

Evaluating the performance of GPT-3.5, GPT-4, and GPT-4o in the Chinese National Medical Licensing Examination.
GPT-3.5、GPT-4 與 GPT-4o 在中國國家醫師執照考試中的表現評估 Sci Rep 2025-04-24

這項研究發現，GPT-4o在中國醫師執照考試的表現最好，正確率明顯高於GPT-4和GPT-3.5，尤其在消化系統和複雜題型上更突出。這顯示GPT-4o在中文醫學考試的理解和解題能力很強，未來在醫學教育和臨床應用上很有發展空間。 PubMed DOI

Evaluating the Performance of Reasoning Large Language Models on Japanese Radiology Board Examination Questions.
以推理為主的大型語言模型在日本放射科專科醫師考試題目上的表現評估 Acad Radiol 2025-05-18

這項研究發現，OpenAI 的推理型語言模型在日本放射科專科考題上表現比基礎模型好，但運算成本和處理速度都比較高。雖然正確率提升不少，但要考慮到費用和時間的增加。 PubMed DOI

A Comparative Analysis of GPT-4o and ERNIE Bot in a Chinese Radiation Oncology Exam.
GPT-4o 與 ERNIE Bot 在中國放射腫瘤學考試中的比較分析 J Cancer Educ 2025-05-26

這項研究比較GPT-4o和ERNIE Bot在中文放射腫瘤學考試的表現，兩者都達及格分，GPT-4o得分79.3%，ERNIE Bot為76.9%，差異不大。僅在「相關知識」部分GPT-4o較優。兩款AI在各種題型都表現穩定，答題一致時正確率更高（84.5%）。結果顯示，這兩款AI有助於中文醫學教育，對非英語醫學訓練很有潛力。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

Advancing medical AI: GPT-4 and GPT-4o surpass GPT-3.5 in Taiwanese medical licensing exams.
推進醫療 AI：GPT-4 與 GPT-4o 在台灣醫師國考中表現超越 GPT-3.5 PLoS One 2025-06-04

這項研究發現，GPT-4和GPT-4o在台灣SPTEMD醫學考題（不含圖片題）上的正確率都超過95%，明顯優於GPT-3.5的66%。兩者在中英文題目表現都很穩定，且已達醫學考試標準。未來建議進一步探討AI在醫學教育和考試上的應用方式。 PubMed DOI

A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options.
近期以隨機重排選項題目評估大型語言模型（LLMs）於放射腫瘤物理學表現 Front Oncol 2025-06-09

這項研究發現，最新的五款大型語言模型在放射腫瘤物理學選擇題上表現都達到專家水準，甚至有模型超越醫學物理師。不過，當答案設計成「以上皆非」時，模型表現明顯下滑，顯示推理還有待加強。用「先解釋再作答」等提示，部分模型推理能力會提升。整體來說，這些模型已具備專業領域的專家能力。 PubMed DOI

Performance of large language models on family medicine licensing exams.
大型語言模型在家庭醫學執照考試中的表現 Fam Pract 2025-06-09

這項研究發現，多款主流大型語言模型在以色列基層醫療執照考試中表現不錯，尤其用結構化和範例提示時更明顯。最佳模型分數高達 85.5%，解釋也多半正確有邏輯，但偶爾還是會出現捏造資訊。雖然 LLM 在家庭醫學考試很有潛力，但還無法取代臨床技能或與病人互動。未來應加強減少幻覺、檢查偏誤及提升實務應用。 PubMed DOI

原始文章

站上相關主題文章列表