Performance evaluation of ChatGPT, GPT-4, and Bard on the official board examination of the Japan Radiology Society.
ChatGPT、GPT-4和Bard在日本放射學會官方考試中的表現評估。 Jpn J Radiol 2024-02-06

研究評估大型語言模型在臨床放射學問題上的表現，使用JRBE考題，發現GPT-4比其他模型表現更好。GPT-4在簡單問題、單一答案及核醫學方面表現優異，顯示在日本放射學領域有應用潛力。 PubMed DOI

Evaluating the performance of Generative Pre-trained Transformer-4 (GPT-4) in standardizing radiology reports.
評估 Generative Pre-trained Transformer-4 (GPT-4) 在標準化放射學報告中的表現。 Eur Radiol 2023-11-08

研究發現，比較放射科醫師和GPT-4 AI生成的放射學報告，發現兩者在質量和內容上相當，但AI報告更為簡潔，且結構稍有不同。這顯示GPT-4可能是一個可靠的工具，有助於提升臨床效率和溝通。然而，仍需解決道德問題和限制，以確保安全實施。 PubMed DOI

Generative pretrained transformer-4, an artificial intelligence text predictive model, has a high capability for passing novel written radiology exam questions.
生成預訓練轉換器-4（GPT-4）是一種人工智慧文本預測模型，具有高度能力通過新穎的放射學考試問題。 Int J Comput Assist Radiol Surg 2024-03-29

卷積神經網路在放射學影像解讀方面的能力越來越強。大型語言模型如GPT-3和GPT-4已在放射學考試中取得高準確率，且GPT-4表現更優。研究正探索這些人工智慧模型在臨床放射學應用的可能性。 PubMed DOI

Performance of GPT-4 on the American College of Radiology In-training Examination: Evaluating Accuracy, Model Drift, and Fine-tuning.
GPT-4在美國放射學院在職培訓考試中的表現：評估準確性、模型漂移和微調。 Acad Radiol 2024-04-23

研究評估GPT-4在放射學考試中的表現，整體準確率為58.5%，比PGY-3低、比PGY-2高。對正確答案信心高，但在影像問題表現較差。重複問題時25.5%答案不同，但準確性不變。微調未改善表現。研究強調AI模型在放射學的潛力和風險，特別提醒在影像問題上應謹慎使用。 PubMed DOI

Towards Improved Radiological Diagnostics: Investigating the Utility and Limitations of GPT-3.5 Turbo and GPT-4 with Quiz Cases.
探討改進放射學診斷：研究 GPT-3.5 Turbo 和 GPT-4 的效用和限制，並使用測驗案例。 AJNR Am J Neuroradiol 2024-05-08

研究使用GPT-3.5 Turbo和GPT-4等語言模型在神經放射學案例上進行診斷，結果顯示在不同任務上有不同表現。結合案例搜尋和直接診斷可提升GPT-3.5 Turbo表現，但整體仍有改進空間，需注意模型限制。結果顯示這些模型在特定情況下可作為輔助診斷工具。 PubMed DOI

GPT-4 Turbo with Vision fails to outperform text-only GPT-4 Turbo in the Japan Diagnostic Radiology Board Examination.
GPT-4 Turbo with Vision 在日本放射診斷醫學委員會考試中未能超越僅文字的 GPT-4 Turbo。 Jpn J Radiol 2024-05-11

研究比較了處理文字和圖像輸入的GPT-4 Turbo with Vision（GPT-4TV）與僅處理文字輸入的GPT-4 Turbo（GPT-4 T）在回答日本放射診斷醫學會考試（JDRBE）問題的表現。結果顯示，兩者準確度差不多，但放射科醫師對GPT-4TV的可信度較低。總結來說，加入圖像輸入的GPT-4TV對於JDRBE問題的回答並沒有明顯提升。 PubMed DOI

Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力：大型語言模型挑戰考試準備考試。 medRxiv 2024-07-29

這項研究評估了四個大型語言模型（LLMs）的表現，包括 GPT-4、GPT-4 Turbo、GPT-4omni（GPT-4o）和 Gemini，針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題，結果顯示 GPT-4o 的正確回答中位數為 63.1%，優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳，但在醫學影像解讀方面仍需改進。 PubMed DOI

GPT-4o's competency in answering the simulated written European Board of Interventional Radiology exam compared to a medical student and experts in Germany and its ability to generate exam items on interventional radiology: a descriptive study.
GPT-4o 在回答模擬歐洲介入放射學考試中的能力，與德國的醫學生和專家相比，以及其生成介入放射學考題的能力：一項描述性研究。 J Educ Eval Health Prof 2024-08-20

這項研究評估了ChatGPT-4o在模擬歐洲介入放射學委員會（EBIR）考試的表現，正確率達67.0%。GPT-4o還為醫學生和EBIR考生生成不同難度的考題。四位參與者的表現顯示，醫學生在學生級別考題得分46.0%，EBIR持有者在學生級別得74.0%。所有參與者對學生級別考題的正確回答率在82.0%至92.0%之間，顯示其訓練效果良好，且僅有0.3%的考題被認為不合理。總體來看，GPT-4o在模擬EBIR考試及生成考題方面表現出色。 PubMed DOI

Assessing GPT-4 multimodal performance in radiological image analysis.
評估 GPT-4 多模態在放射影像分析中的表現。 Eur Radiol 2024-08-30

這項研究評估了多模態人工智慧模型 GPT-4V 在解讀放射影像的表現，包括超音波、電腦斷層掃描和 X 光。分析230張急診影像後，模型在影像識別上達到100%準確率，但在解剖和病理識別上表現不佳，尤其是病理識別僅35.2%。儘管有潛力，GPT-4V 的診斷錯誤率超過40%，引發臨床使用的可靠性擔憂。研究強調需進一步開發以提升準確性，確保病人安全，並指出目前不宜作為獨立診斷工具。 PubMed DOI

Performance of GPT-4 with Vision on Text- and Image-based ACR Diagnostic Radiology In-Training Examination Questions.
GPT-4 with Vision 在基於文本和圖像的 ACR 診斷放射學訓練考試問題中的表現。 Radiology 2024-09-03

這項研究評估了具備視覺功能的GPT-4（GPT-4V）在放射科考試中的表現，涵蓋文字和影像問題。研究期間為2023年9月至2024年3月，分析了386道美國放射學會的退役問題。結果顯示，GPT-4V正確回答65.3%的問題，其中文字問題得分81.5%，而影像問題僅47.8%。研究還發現，思維鏈提示對文字問題的表現較佳，但影像問題的提示效果差異不大。總體來看，GPT-4V在文字問題上表現優異，但在影像解讀上則較為薄弱。 PubMed DOI

原始文章

站上相關主題文章列表