Diagnostic accuracy of vision-language models on Japanese diagnostic radiology, nuclear medicine, and interventional radiology specialty board examinations.
視覺-語言模型在日本診斷放射學、核醫學和介入放射學專科考試中的診斷準確性。 Jpn J Radiol 2024-07-20

這項研究評估了不同視覺語言模型（VLMs）在放射學診斷的準確性，特別針對日本的專業考試。比較的模型包括GPT-4o、GPT-4V和Claude-3。分析了383個JDR考題、300個JNM考題和322個JIR考題。結果顯示，GPT-4o在所有考試中表現最佳，JDR得分49%、JNM得64%、JIR得43%。對於有圖片的問題，JDR得48%、JNM得59%、JIR得34%。統計分析顯示，GPT-4o在大多數評估中顯著優於其他模型，顯示其在放射學診斷中的潛力。 PubMed DOI

Performance of GPT-4 with Vision on Text- and Image-based ACR Diagnostic Radiology In-Training Examination Questions.
GPT-4 with Vision 在基於文本和圖像的 ACR 診斷放射學訓練考試問題中的表現。 Radiology 2024-09-03

這項研究評估了具備視覺功能的GPT-4（GPT-4V）在放射科考試中的表現，涵蓋文字和影像問題。研究期間為2023年9月至2024年3月，分析了386道美國放射學會的退役問題。結果顯示，GPT-4V正確回答65.3%的問題，其中文字問題得分81.5%，而影像問題僅47.8%。研究還發現，思維鏈提示對文字問題的表現較佳，但影像問題的提示效果差異不大。總體來看，GPT-4V在文字問題上表現優異，但在影像解讀上則較為薄弱。 PubMed DOI

Analysis of Responses of GPT-4 V to the Japanese National Clinical Engineer Licensing Examination.
GPT-4 V 對日本國家臨床工程師執照考試反應的分析。 J Med Syst 2024-09-11

這項研究評估了GPT-4 V在日本國家臨床工程師執照考試的表現，分析了2012至2023年的2,155道題目。該模型的平均正確率為86.0%，在臨床醫學和基礎醫學領域特別高（≥ 90%）。不過，在醫療設備安全管理等領域的表現較差，正確率僅64.8%到76.5%。涉及圖形和計算的問題準確率更低，特別是需要了解日本工業標準的問題，正確率僅31.0%。研究指出ChatGPT在圖像識別和理解特定標準方面的局限性，使用時需謹慎。 PubMed DOI

Evaluating GPT-4o's Performance in the Official European Board of Radiology Exam: A Comprehensive Assessment.
評估 GPT-4o 在歐洲放射學官方考試中的表現：全面評估。 Acad Radiol 2024-09-18

這項研究評估了GPT-4o在歐洲放射學委員會考試中的表現，結果顯示它在選擇題和短案例問題上超過了平均放射科醫生的分數（70.2%對58.4%）。不過，在臨床推理部分，GPT-4o的得分低於平均及及格分數（52.9%對66.1%）。該模型在超聲影像問題上表現優異（87.5-100%），但在影片問題上則較差（50.6%）。整體來看，這項研究顯示大型語言模型如GPT-4o在協助放射科醫生方面的潛力。 PubMed DOI

Performance Assessment of GPT 4.0 on the Japanese Medical Licensing Examination.
GPT 4.0 在日本醫學執照考試中的表現評估。 Curr Med Sci 2024-10-26

這項研究評估了GPT-4.0在2021至2023年日本醫學執照考試的表現，重點在於準確性和醫學知識解析能力。問題依難度和類型分類，包括一般和臨床部分，以及單選和多選題。GPT-4.0的正確回答率達80.4%，顯示出合格的表現，但不同問題的準確性有顯著差異。研究結果顯示，雖然GPT-4.0在醫學教育和研究中有價值，但仍需大量醫學數據來提升準確性，整合ChatGPT進醫學領域可能帶來新機會。 PubMed DOI

Evaluating the Effectiveness of advanced large language models in medical Knowledge: A Comparative study using Japanese national medical examination.
評估先進大型語言模型在醫學知識中的有效性：使用日本國家醫學考試的比較研究。 Int J Med Inform 2024-10-29

這項研究評估了先進語言模型（LLMs）在醫學知識的準確性，特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus，並使用日本國家醫學考試作為評估工具。研究發現，GPT-4o在整體準確率上達到89.2%，在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題，且在「消化內科與肝臟病學」的表現最差。研究顯示，出版數量與模型表現正相關，強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

Large Language Model Ability to Translate CT and MRI Free-Text Radiology Reports Into Multiple Languages.
大型語言模型將 CT 和 MRI 自由文本放射學報告翻譯成多種語言的能力。 Radiology 2024-12-17

這項研究評估大型語言模型（LLMs）在翻譯放射科報告的效果。由於合格翻譯者不足，這對病人護理造成挑戰。研究團隊將100份合成報告翻譯成九種語言，並使用十個LLM進行自動翻譯，結果由18位放射科醫生評估。發現GPT-4的翻譯品質最佳，特別是在英德、英希、英泰和英土語言對上表現突出。雖然LLMs在清晰度和一致性上表現良好，但醫學術語的準確性仍需改進。總體來說，LLMs能有效翻譯放射科報告，但不同模型和語言的表現有所差異。 PubMed DOI

Performance Evaluation of GPT-4o and o1-Preview Using the Certification Examination for the Japanese 'Operations Chief of Radiography With X-rays'.
使用日本「X光放射技術部門主任」認證考試評估 GPT-4o 和 o1-Preview 的表現。 Cureus 2024-12-23

這項研究評估了大型語言模型（LLMs），特別是GPT-4o和o1-preview，在安全管理及日本法律下處理X光的能力。研究使用了2023年4月至2024年10月的四套考題，結果顯示GPT-4o的準確率在57.5%到70.0%之間，大部分科目通過，但法律法規表現不佳。相對而言，o1-preview的準確率更高，達71.1%到86.5%，且在所有科目中均通過，尤其在法律法規方面表現優異。總體來看，o1-preview的表現明顯優於GPT-4o。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Generative pre-trained transformer 4o (GPT-4o) in solving text-based multiple response questions for European Diploma in Radiology (EDiR): a comparative study with radiologists.
GPT-4o 在解決歐洲放射學文憑 (EDiR) 的文本多重回應問題中的應用：與放射科醫師的比較研究。 Insights Imaging 2025-03-22

這項研究評估了GPT-4o在回答歐洲放射學文憑考試的表現，並與人類考生進行比較。2024年10月，42名考生與26名使用GPT-4o的醫學生比較，結果顯示GPT-4o平均得分82.1%，遠高於考生的49.4%（p < 0.0001）。GPT-4o在放射學各子專科的真陽性率較高，假陽性率較低，僅在資訊學方面表現不佳。GPT-4o的回答一致性接近完美，而考生則中等。調查顯示參與者普遍使用複製和粘貼功能，73%的人尋求澄清。總體而言，GPT-4o在低階問題上表現優於人類考生，顯示其潛力。未來需進一步研究其在不同問題類型和考生背景中的有效性。 PubMed DOI

原始文章

站上相關主題文章列表