Performance of GPT-4 and GPT-3.5 in generating accurate and comprehensive diagnoses across medical subspecialties.
GPT-4和GPT-3.5在各醫學專科中生成準確和全面診斷的表現。 J Chin Med Assoc 2024-03-06

研究比較了最新的人工智慧模型 GPT-4 與前身 GPT-3.5 在81個複雜醫學案例的表現。GPT-4 在主要診斷準確率達38.3%，在不同診斷方面提高至71.6%。它在84.0%的案例提出主要診斷建議，大多數領域優於GPT-3.5，除了藥物反應。GPT-4 在感染性疾病和藥物反應方面表現優異，但在認知障礙案例中稍差。總的來說，GPT-4 在準確診斷、全面不同診斷和適當調查方面展現潛力，雖然表現因醫學專業領域而略有不同。 PubMed DOI

Hidden Flaws Behind Expert-Level Accuracy of GPT-4 Vision in Medicine.
GPT-4在醫學視覺方面專家級準確度背後的隱藏缺陷。 ArXiv 2024-03-04

最新研究指出，GPT-4V在醫學挑戰中超越了人類醫生，尤其在多選問題上表現更準確。研究還探討了GPT-4V在NEJM圖像挑戰中的表現，包括圖像理解、醫學知識回憶和多模態推理。結果顯示，GPT-4V在多選問題上比人類醫生更準確，即使醫生出錯時也是如此。然而，在圖像理解方面，GPT-4V常提供不完整的解釋。在應用於臨床前，有必要進一步評估其推理能力。 PubMed DOI

GPT-4 Turbo with Vision fails to outperform text-only GPT-4 Turbo in the Japan Diagnostic Radiology Board Examination.
GPT-4 Turbo with Vision 在日本放射診斷醫學委員會考試中未能超越僅文字的 GPT-4 Turbo。 Jpn J Radiol 2024-05-11

研究比較了處理文字和圖像輸入的GPT-4 Turbo with Vision（GPT-4TV）與僅處理文字輸入的GPT-4 Turbo（GPT-4 T）在回答日本放射診斷醫學會考試（JDRBE）問題的表現。結果顯示，兩者準確度差不多，但放射科醫師對GPT-4TV的可信度較低。總結來說，加入圖像輸入的GPT-4TV對於JDRBE問題的回答並沒有明顯提升。 PubMed DOI

Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine.
多模態 GPT-4 視覺在醫學中專家級準確性背後的隱藏缺陷。 NPJ Digit Med 2024-07-23

最近研究顯示，具視覺功能的GPT-4V在某些醫療挑戰中超越人類醫師，特別是在多選題準確性上。透過《新英格蘭醫學雜誌》的影像挑戰，我們分析了GPT-4V在影像理解、醫學知識回憶和多模態推理的表現。結果顯示，GPT-4V的多選題準確率為81.6%，人類醫師則為77.8%。不過，GPT-4V在影像理解方面的推理常有缺陷，出現率高達35.5%。儘管準確率高，研究強調在GPT-4V能有效應用於臨床前，需更深入評估其推理能力。 PubMed DOI

Assessing GPT-4 multimodal performance in radiological image analysis.
評估 GPT-4 多模態在放射影像分析中的表現。 Eur Radiol 2024-08-30

這項研究評估了多模態人工智慧模型 GPT-4V 在解讀放射影像的表現，包括超音波、電腦斷層掃描和 X 光。分析230張急診影像後，模型在影像識別上達到100%準確率，但在解剖和病理識別上表現不佳，尤其是病理識別僅35.2%。儘管有潛力，GPT-4V 的診斷錯誤率超過40%，引發臨床使用的可靠性擔憂。研究強調需進一步開發以提升準確性，確保病人安全，並指出目前不宜作為獨立診斷工具。 PubMed DOI

Performance of GPT-4 with Vision on Text- and Image-based ACR Diagnostic Radiology In-Training Examination Questions.
GPT-4 with Vision 在基於文本和圖像的 ACR 診斷放射學訓練考試問題中的表現。 Radiology 2024-09-03

這項研究評估了具備視覺功能的GPT-4（GPT-4V）在放射科考試中的表現，涵蓋文字和影像問題。研究期間為2023年9月至2024年3月，分析了386道美國放射學會的退役問題。結果顯示，GPT-4V正確回答65.3%的問題，其中文字問題得分81.5%，而影像問題僅47.8%。研究還發現，思維鏈提示對文字問題的表現較佳，但影像問題的提示效果差異不大。總體來看，GPT-4V在文字問題上表現優異，但在影像解讀上則較為薄弱。 PubMed DOI

Evaluation of GPT Large Language Model Performance on RSNA 2023 Case of the Day Questions.
RSNA 2023 每日案例問題中 GPT 大型語言模型表現的評估。 Radiology 2024-10-01

這項研究評估了具備視覺能力的AI模型GPT-4V在解讀放射影像的表現，並與放射科醫師及住院醫師進行比較。研究涵蓋72個放射案例，結果顯示GPT-4V的整體準確率為43%。在影像和非影像依賴的案例中，醫師的表現並未顯著優於GPT-4V。特別是，GPT-4V在僅使用文字輸入時的準確率較高（50%），而僅使用影像輸入則為38%。總體來看，GPT-4V的表現與人類相當，且未能提升人類的解讀準確性。 PubMed DOI

Revolution or risk?-Assessing the potential and challenges of GPT-4V in radiologic image interpretation.
革命還是風險？- 評估 GPT-4V 在放射影像解讀中的潛力與挑戰。 Eur Radiol 2024-10-18

這項研究評估了ChatGPT-4 Vision在解讀臨床影像（如X光、CT、MRI等）的表現。分析了206個影像研究，結果顯示提供臨床上下文能顯著提高診斷準確率，從8.3%提升至29.1%和63.6%。但在30天和90天後重新評估時，準確率下降多達30%。雖然建議診斷與實際發現匹配率高達92.7%，但GPT-4V仍虛構了258個發現，並錯誤識別了65個案例。總體來看，GPT-4V目前無法可靠解讀放射影像，需進一步改進以確保病人安全。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

原始文章

站上相關主題文章列表