Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力：大型語言模型挑戰考試準備考題。 J Nucl Cardiol 2024-12-01

這項研究評估了四個大型語言模型（LLMs），包括 GPT-4、GPT-4 Turbo、GPT-4omni（GPT-4o）和 Gemini，針對 2023 年美國核心臟病學會的考題進行測試。結果顯示，GPT-4o 的正確回答中位數為 63.1%，表現最佳，其次是 GPT-4 Turbo（60.7%）、GPT-4（56.8%）和 Gemini（40.5%）。雖然 GPT-4o 在文字題上表現優異，但在醫學影像解讀方面仍需改進。研究建議這些模型可在臨床環境中協助醫生，特別是處理文字相關問題時。 PubMed DOI

A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options.
最近對大型語言模型在放射腫瘤物理學表現的評估，使用隨機打亂選項的問題。 ArXiv 2025-01-13

這項研究評估了大型語言模型（LLMs）在回答放射腫瘤物理問題的表現。研究人員使用100道由專家設計的選擇題，測試了五個LLM，包括OpenAI o1-preview和GPT-4o等。結果顯示，所有模型的表現達到專家水準，o1-preview在某些情況下甚至超越醫學物理學家。不過，當正確答案被移除時，模型表現明顯下降，顯示需改進。透過解釋優先和逐步提示的方式，LLaMA 3.1等模型的推理能力有所增強，顯示這些LLM在放射腫瘤物理教育上有潛力。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

An Evaluation of the Performance of OpenAI-o1 and GPT-4o in the Japanese National Examination for Physical Therapists.
對於 OpenAI-o1 和 GPT-4o 在日本物理治療師國家考試中的表現評估。 Cureus 2025-02-06

最近大型語言模型（LLMs）在醫療領域的應用逐漸增加，特別是OpenAI-o1在日本醫師國家考試中表現優異。本研究評估了OpenAI-o1和GPT-4o在2024年日本物理治療師國家考試的表現。結果顯示，OpenAI-o1的正確率達97.0%，解釋準確率為86.4%；而GPT-4o的正確率僅56.5%。這顯示OpenAI-o1在物理治療內容上具備高適應性，未來在醫學教育和遠程健康照護中有潛在應用價值。GPT-4o則需進一步優化以提升影像推理能力。 PubMed DOI

Retrieval-augmented generation enhances large language model performance on the Japanese orthopedic board examination.
檢索增強生成提升大型語言模型在日本骨科考試中的表現。 J Orthop Sci 2025-03-29

這項研究探討檢索增強生成（RAG）對大型語言模型（LLMs）在醫學領域的影響，特別針對2024年日本骨科專家考試。研究團隊建立了專門資料庫，評估了GPT-3.5 Turbo、GPT-4o和o1-preview的表現。結果顯示，GPT-3.5 Turbo使用RAG後準確率未見提升，仍為28%；而GPT-4o和o1-preview的準確率分別從62%和67%提升至72%和84%。分析指出，GPT-3.5 Turbo在利用檢索數據上表現不佳，顯示其推理能力不足。總體而言，RAG顯著提升了GPT-4o和o1-preview的表現，特別是o1-preview達到臨床實踐的水準。 PubMed DOI

Reasoning Beyond Accuracy: Expert Evaluation of Large Language Models in Diagnostic Pathology.
超越準確性的思考：專家對大型語言模型於診斷病理學中的評估 medRxiv 2025-04-29

這項研究發現，Gemini 和 DeepSeek 在病理診斷推理上比 OpenAI 模型更有深度和邏輯性，也更常用專家級推理策略。雖然各模型正確率差不多，但在啟發式和模式識別推理上表現較弱。Gemini 和 DeepSeek 答案較一致但不夠精簡。整體來說，先進 LLMs 雖有專家級潛力，但在情境理解和啟發式推理上還有待加強，臨床應用前需再改進。 PubMed DOI

Comparison of Large Language Models' Performance on 600 Nuclear Medicine Technology Board Examination-Style Questions.
大型語言模型在600題核醫技術師國家考試題型上的表現比較 J Nucl Med Technol 2025-05-09

這項研究比較多款大型語言模型（LLM）在核子醫學題目的表現，發現結合檢索增強生成（RAG）的 GPT-4o 準確率最高。RAG 整體有助提升答題表現。雖然 LLM 在教育和臨床輔助有潛力，但對複雜指引和影像題還不夠理想，未來還需再優化才能安心用於醫療領域。 PubMed DOI

The Advanced Reasoning Capabilities of Large Language Models for Detecting Contraindicated Options in Medical Exams.
大型語言模型於醫學考試中偵測禁忌選項的進階推理能力 JMIR Med Inform 2025-05-12

**重點整理：** OpenAI-o1 具備更優秀的推理能力，在 15 題日本醫師執照考試題目中表現優於 GPT-4（正確率 100% 對 80%；辨識禁忌選項的正確率 87% 對 73%），但由於樣本數較少，這些結果僅供初步參考。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options.
近期以隨機重排選項題目評估大型語言模型（LLMs）於放射腫瘤物理學表現 Front Oncol 2025-06-09

這項研究發現，最新的五款大型語言模型在放射腫瘤物理學選擇題上表現都達到專家水準，甚至有模型超越醫學物理師。不過，當答案設計成「以上皆非」時，模型表現明顯下滑，顯示推理還有待加強。用「先解釋再作答」等提示，部分模型推理能力會提升。整體來說，這些模型已具備專業領域的專家能力。 PubMed DOI

原始文章

站上相關主題文章列表