Large Language Models as Tools to Generate Radiology Board-Style Multiple-Choice Questions.
利用大型語言模型生成放射學委員會風格的多重選擇題。 Acad Radiol 2024-07-16

使用Llama 2和GPT-4創建放射學教育的多重選擇題，供放射科醫師評估。GPT-4在清晰度、相關性、難度、干擾項質量和答案準確性方面表現優異。這些先進的語言模型有助於提升放射學考試準備資料，擴大問題庫。 PubMed DOI

Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力：大型語言模型挑戰考試準備考試。 medRxiv 2024-07-29

這項研究評估了四個大型語言模型（LLMs）的表現，包括 GPT-4、GPT-4 Turbo、GPT-4omni（GPT-4o）和 Gemini，針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題，結果顯示 GPT-4o 的正確回答中位數為 63.1%，優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳，但在醫學影像解讀方面仍需改進。 PubMed DOI

Evaluating GPT-4o's Performance in the Official European Board of Radiology Exam: A Comprehensive Assessment.
評估 GPT-4o 在歐洲放射學官方考試中的表現：全面評估。 Acad Radiol 2024-09-18

這項研究評估了GPT-4o在歐洲放射學委員會考試中的表現，結果顯示它在選擇題和短案例問題上超過了平均放射科醫生的分數（70.2%對58.4%）。不過，在臨床推理部分，GPT-4o的得分低於平均及及格分數（52.9%對66.1%）。該模型在超聲影像問題上表現優異（87.5-100%），但在影片問題上則較差（50.6%）。整體來看，這項研究顯示大型語言模型如GPT-4o在協助放射科醫生方面的潛力。 PubMed DOI

Evaluating the Effectiveness of advanced large language models in medical Knowledge: A Comparative study using Japanese national medical examination.
評估先進大型語言模型在醫學知識中的有效性：使用日本國家醫學考試的比較研究。 Int J Med Inform 2024-10-29

這項研究評估了先進語言模型（LLMs）在醫學知識的準確性，特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus，並使用日本國家醫學考試作為評估工具。研究發現，GPT-4o在整體準確率上達到89.2%，在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題，且在「消化內科與肝臟病學」的表現最差。研究顯示，出版數量與模型表現正相關，強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

Large language models (LLMs) in radiology exams for medical students: Performance and consequences.
放射科考試中大型語言模型（LLMs）對醫學生的影響與表現。 Rofo 2024-11-04

這項研究分析了大型語言模型（LLMs），特別是OpenAI的GPT-3.5和GPT-4，在醫學生放射學考試中的表現。使用151道選擇題，結果顯示GPT-3.5的正確率為67.6%，而GPT-4則達到88.1%（p<0.001），表現明顯優於前者。GPT-4在各類問題上都表現良好，顯示其在醫學教育中的潛力。不過，研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看，LLMs在放射學教育上有提升的可能性。 PubMed DOI

Comparing Large Language Model and Human Reader Accuracy with <i>New England Journal of Medicine</i> Image Challenge Case Image Inputs.
比較大型語言模型與人類讀者在《新英格蘭醫學雜誌》影像挑戰案例影像輸入的準確性。 Radiology 2024-12-10

這項研究評估了多模態大型語言模型（LLMs）在解讀放射影像的準確性，並與不同經驗的人類讀者進行比較。研究回顧了272個案例，使用了如GPT-4 Omni等LLMs，並收集了初任教職放射科醫師、臨床醫師和醫學生的回應。主要發現包括：GPT-4 Omni的準確率為59.6%，超過醫學生的47.1%，但仍低於初任教職的80.9%和訓練中的放射科醫師的70.2%。LLMs在較長文本輸入下表現較佳，顯示文本長度對準確性有顯著影響。總體來說，LLMs的準確性不錯，但仍需注意文本長度的影響。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Comparison of Large Language Models' Performance on 600 Nuclear Medicine Technology Board Examination-Style Questions.
大型語言模型在600題核醫技術師國家考試題型上的表現比較 J Nucl Med Technol 2025-05-09

這項研究比較多款大型語言模型（LLM）在核子醫學題目的表現，發現結合檢索增強生成（RAG）的 GPT-4o 準確率最高。RAG 整體有助提升答題表現。雖然 LLM 在教育和臨床輔助有潛力，但對複雜指引和影像題還不夠理想，未來還需再優化才能安心用於醫療領域。 PubMed DOI

Evaluating the Performance of Reasoning Large Language Models on Japanese Radiology Board Examination Questions.
以推理為主的大型語言模型在日本放射科專科醫師考試題目上的表現評估 Acad Radiol 2025-05-18

這項研究發現，OpenAI 的推理型語言模型在日本放射科專科考題上表現比基礎模型好，但運算成本和處理速度都比較高。雖然正確率提升不少，但要考慮到費用和時間的增加。 PubMed DOI

A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options.
近期以隨機重排選項題目評估大型語言模型（LLMs）於放射腫瘤物理學表現 Front Oncol 2025-06-09

這項研究發現，最新的五款大型語言模型在放射腫瘤物理學選擇題上表現都達到專家水準，甚至有模型超越醫學物理師。不過，當答案設計成「以上皆非」時，模型表現明顯下滑，顯示推理還有待加強。用「先解釋再作答」等提示，部分模型推理能力會提升。整體來說，這些模型已具備專業領域的專家能力。 PubMed DOI

原始文章

站上相關主題文章列表