Diagnostic accuracy of vision-language models on Japanese diagnostic radiology, nuclear medicine, and interventional radiology specialty board examinations.
視覺-語言模型在日本診斷放射學、核醫學和介入放射學專科考試中的診斷準確性。 Jpn J Radiol 2024-07-20

這項研究評估了不同視覺語言模型（VLMs）在放射學診斷的準確性，特別針對日本的專業考試。比較的模型包括GPT-4o、GPT-4V和Claude-3。分析了383個JDR考題、300個JNM考題和322個JIR考題。結果顯示，GPT-4o在所有考試中表現最佳，JDR得分49%、JNM得64%、JIR得43%。對於有圖片的問題，JDR得48%、JNM得59%、JIR得34%。統計分析顯示，GPT-4o在大多數評估中顯著優於其他模型，顯示其在放射學診斷中的潛力。 PubMed DOI

Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力：大型語言模型挑戰考試準備考試。 medRxiv 2024-07-29

這項研究評估了四個大型語言模型（LLMs）的表現，包括 GPT-4、GPT-4 Turbo、GPT-4omni（GPT-4o）和 Gemini，針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題，結果顯示 GPT-4o 的正確回答中位數為 63.1%，優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳，但在醫學影像解讀方面仍需改進。 PubMed DOI

Evaluating the Effectiveness of advanced large language models in medical Knowledge: A Comparative study using Japanese national medical examination.
評估先進大型語言模型在醫學知識中的有效性：使用日本國家醫學考試的比較研究。 Int J Med Inform 2024-10-29

這項研究評估了先進語言模型（LLMs）在醫學知識的準確性，特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus，並使用日本國家醫學考試作為評估工具。研究發現，GPT-4o在整體準確率上達到89.2%，在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題，且在「消化內科與肝臟病學」的表現最差。研究顯示，出版數量與模型表現正相關，強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

Role of visual information in multimodal large language model performance: an evaluation using the Japanese nuclear medicine board examination.
視覺信息在多模態大型語言模型表現中的角色：以日本核醫學考試為評估。 Ann Nucl Med 2024-11-13

這項研究評估了幾款先進的多模態大型語言模型（LLMs），如GPT-4o、Claude 3 Opus和Gemini 1.5 Pro，針對日本核醫學考試（JNMBE）問題的表現。分析了92道問題，結果顯示在使用文字和圖片的情況下，模型的準確性並無顯著差異。GPT-4o和Claude 3 Opus在多模態下的準確率為54.3%，而僅用文字時達71.7%。Gemini 1.5 Pro的表現則較差。研究指出，當前LLMs在核醫學的診斷能力不足，需加強圖片資訊的使用，以提升其在教育和實踐中的有效性。 PubMed DOI

Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力：大型語言模型挑戰考試準備考題。 J Nucl Cardiol 2024-12-01

這項研究評估了四個大型語言模型（LLMs），包括 GPT-4、GPT-4 Turbo、GPT-4omni（GPT-4o）和 Gemini，針對 2023 年美國核心臟病學會的考題進行測試。結果顯示，GPT-4o 的正確回答中位數為 63.1%，表現最佳，其次是 GPT-4 Turbo（60.7%）、GPT-4（56.8%）和 Gemini（40.5%）。雖然 GPT-4o 在文字題上表現優異，但在醫學影像解讀方面仍需改進。研究建議這些模型可在臨床環境中協助醫生，特別是處理文字相關問題時。 PubMed DOI

Large Language Models with Vision on Diagnostic Radiology Board Exam Style Questions.
具備視覺的大型語言模型在診斷放射學考試風格問題上的應用。 Acad Radiol 2024-12-04

這項研究評估了大型語言模型（LLMs）在回答放射科考試問題時的表現，特別是當問題包含影像時。研究選取了280個問題，測試了三個模型：GPT-4V、Gemini 1.5 Pro和Claude 3.5 Sonnet，使用多模態、僅影像和僅文字三種提示格式。結果顯示，GPT-4V和Gemini 1.5 Pro的正確回答率約54-57%，而Claude 3.5 Sonnet在僅文字（63%）和多模態（66%）的表現上明顯優於僅影像（48%）。整體來看，這些模型未能有效利用影像來提升表現，顯示出進一步研究的潛力。 PubMed DOI

Comparing Large Language Model and Human Reader Accuracy with <i>New England Journal of Medicine</i> Image Challenge Case Image Inputs.
比較大型語言模型與人類讀者在《新英格蘭醫學雜誌》影像挑戰案例影像輸入的準確性。 Radiology 2024-12-10

這項研究評估了多模態大型語言模型（LLMs）在解讀放射影像的準確性，並與不同經驗的人類讀者進行比較。研究回顧了272個案例，使用了如GPT-4 Omni等LLMs，並收集了初任教職放射科醫師、臨床醫師和醫學生的回應。主要發現包括：GPT-4 Omni的準確率為59.6%，超過醫學生的47.1%，但仍低於初任教職的80.9%和訓練中的放射科醫師的70.2%。LLMs在較長文本輸入下表現較佳，顯示文本長度對準確性有顯著影響。總體來說，LLMs的準確性不錯，但仍需注意文本長度的影響。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Evaluating the Performance of Reasoning Large Language Models on Japanese Radiology Board Examination Questions.
以推理為主的大型語言模型在日本放射科專科醫師考試題目上的表現評估 Acad Radiol 2025-05-18

這項研究發現，OpenAI 的推理型語言模型在日本放射科專科考題上表現比基礎模型好，但運算成本和處理速度都比較高。雖然正確率提升不少，但要考慮到費用和時間的增加。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

原始文章

站上相關主題文章列表