Diagnostic performances of GPT-4o, Claude 3 Opus, and Gemini 1.5 Pro in "Diagnosis Please" cases.
在「診斷請求」案例中，GPT-40、Claude 3 Opus和Gemini 1.5 Pro的診斷表現。 Jpn J Radiol 2024-07-02

大型語言模型（LLMs）如GPT-4o、Claude 3 Opus和Gemini 1.5 Pro在解讀病患病史和影像檢查結果上有潛力。研究比較它們在Radiology Diagnosis Please Cases數據的表現，發現Claude 3 Opus在解決放射學測驗案例時表現最佳。這些LLMs可能有助於放射科醫師更準確地評估和描述影像檢查結果。 PubMed DOI

Diagnostic performances of Claude 3 Opus and Claude 3.5 Sonnet from patient history and key images in Radiology's "Diagnosis Please" cases.
Claude 3 Opus 和 Claude 3.5 Sonnet 在放射學「診斷請求」案例中，根據病史和關鍵影像的診斷表現。 Jpn J Radiol 2024-08-03

這項研究評估了兩個大型語言AI模型，Claude 3 Opus和Claude 3.5 Sonnet，在放射影像和臨床歷史下的診斷表現。測試分為三種條件：僅臨床歷史、臨床歷史加影像發現，以及臨床歷史加關鍵影像。結果顯示，Sonnet的表現普遍較佳，尤其在條件3中，正確診斷率達30.1%。統計分析顯示，加入關鍵影像和臨床歷史能顯著提高診斷準確性。總體而言，提供全面資料能提升這兩個AI模型的診斷能力。 PubMed DOI

Claude 3 Opus and ChatGPT With GPT-4 in Dermoscopic Image Analysis for Melanoma Diagnosis: Comparative Performance Analysis.
Claude 3 Opus 與 ChatGPT 在皮膚鏡影像分析中對於黑色素瘤診斷的比較性能分析。 JMIR Med Inform 2024-08-06

最近在人工智慧（AI）和大型語言模型（LLMs）方面的進展，特別是在皮膚科，顯示出良好的潛力。本研究比較了Claude 3 Opus和ChatGPT（GPT-4）在分析皮膚鏡影像以檢測黑色素瘤的表現。結果顯示，Claude 3 Opus在惡性區分上表現較佳，敏感度和特異度均高於ChatGPT。雖然兩者在診斷上有其潛力，但仍存在錯誤，強調了AI與臨床醫生合作的重要性，以開發更可靠的診斷工具。 PubMed DOI

Diagnostic Performance of GPT-4o and Claude 3 Opus in Determining Causes of Death From Medical Histories and Postmortem CT Findings.
GPT-4o 和 Claude 3 Opus 在根據醫療歷史和屍體 CT 發現確定死亡原因的診斷表現。 Cureus 2024-09-20

這項研究評估了兩個大型語言模型（LLMs），GPT-4o 和 Claude 3 Opus，在根據病歷和屍體CT掃描識別死亡原因的能力。研究涵蓋100個經解剖確認的成人案例。結果顯示，GPT-4o在根本死亡原因的準確率為78%、72%和78%，而Claude 3 Opus則為72%、56%和75%。在即時死亡原因方面，GPT-4o的準確率較低，分別為55%、58%和62%，而Claude 3 Opus稍高，為60%、62%和63%。整體而言，兩者在診斷死亡原因上表現不俗。 PubMed DOI

Assessing the feasibility of ChatGPT-4o and Claude 3-Opus in thyroid nodule classification based on ultrasound images.
基於超聲影像評估 ChatGPT-4o 和 Claude 3-Opus 在甲狀腺結節分類中的可行性。 Endocrine 2024-10-11

這項研究探討了大型語言模型（LLMs），特別是ChatGPT-4o和Claude 3-Opus，在超音波影像中分類甲狀腺結節的表現。研究涵蓋112位患者的116個結節，結果顯示ChatGPT-4o的Kappa值為0.116，Claude 3-Opus更低，僅0.034，而初級放射科醫師的Kappa值為0.450，顯示中等協議。ROC曲線方面，ChatGPT-4o的AUC為57.0%，Claude 3-Opus為52.0%，醫師則為72.4%。兩個LLM的不必要活檢率也高，分別為41.4%和43.1%，醫師僅12.1%。這顯示LLMs在醫學影像的診斷準確性仍有限，需謹慎使用。 PubMed DOI

Comparative study of Claude 3.5-Sonnet and human physicians in generating discharge summaries for patients with renal insufficiency: assessment of efficiency, accuracy, and quality.
Claude 3.5-Sonnet 與人類醫生在為腎功能不全患者生成出院摘要的比較研究：效率、準確性和質量的評估。 Front Digit Health 2024-12-20

這項研究評估了AI模型Claude 3.5-Sonnet在為腎功能不全患者生成出院摘要的表現，並與人類醫師進行比較。研究在寧波杭州灣醫院進行，涵蓋100名患者。結果顯示，AI的準確性與醫師相似，但生成摘要的效率顯著更高，僅需約30秒，而醫師則超過15分鐘。質量評分也相當，未見顯著差異。整體而言，Claude 3.5-Sonnet展現了高效率和可靠性，顯示AI在醫療文檔處理上有潛力，並需進一步研究以解決倫理和隱私問題。 PubMed DOI

[The use of large language models in medicine and in radiology in particular].
「大型語言模型在醫學中的應用，特別是在放射學中的應用。」 Radiologie (Heidelb) 2025-03-19

將大型語言模型（LLMs）如Claude AI整合進放射學，為報告增強、工作流程優化及臨床決策提供了新機會。Claude在生成結構化內容和識別放射學應用方面表現出色，但使用時需謹慎，因其效果依賴於使用者的批判性評估能力。解決與LLMs相關的倫理和實際挑戰，對維持技術與醫療專業人員的自主性至關重要。隨著生成式AI的發展，謹慎實施將有助於最大化臨床利益並降低風險，確保放射學的安全與有效使用。 PubMed DOI

Comparative Performance of Anthropic Claude and OpenAI GPT Models in Basic Radiological Imaging Tasks.
Anthropic Claude 與 OpenAI GPT 模型在基本放射影像任務中的比較表現。 J Med Imaging Radiat Oncol 2025-04-08

這項研究評估了幾個公開的視覺語言模型（VLMs），特別是Anthropic的Claude和OpenAI的GPT，在解讀放射影像的能力。研究使用ROCOv2和MURAv1.1數據集，測試六個VLM在識別影像模式、解剖結構及檢測X光片骨折的表現。結果顯示，某些模型在模式識別上達到高準確率，但解剖識別的準確率僅在61%到85%之間。雖然Claude-3.5-Sonnet和GPT-4o在特定任務上表現不錯，但整體準確性仍不足以支持臨床應用，需進一步開發和標準化測試。 PubMed DOI

Evaluating generative AI models for explainable pathological feature extraction in lung adenocarcinoma grading assessment and prognostic model construction.
用於肺腺癌分級評估與預後模型建構之可解釋性病理特徵擷取的生成式AI模型評估 Int J Surg 2025-05-28

這項研究比較三款主流視覺生成式AI（GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro）在辨識與分級肺腺癌組織學型態的表現。結果發現，Claude-3.5-Sonnet的分級準確率最高，穩定性也不錯，且結合臨床資料後，預後預測效果佳。整體來說，生成式AI，尤其是Claude-3.5-Sonnet，對肺腺癌病理評估和預後有很大幫助。 PubMed DOI

Comparative analysis of large language models in clinical diagnosis: performance evaluation across common and complex medical cases.
大型語言模型於臨床診斷的比較分析：於常見與複雜醫療案例中的表現評估 JAMIA Open 2025-06-13

這項研究比較了多款主流大型語言模型（如Claude、GPT、Gemini）在臨床診斷上的表現。結果顯示，這些AI在常見病例的診斷準確率都超過九成，Claude 3.7甚至有滿分表現；在複雜案例中，Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調，未來應把AI工具實際整合進臨床與醫學教育，提升照護品質。 PubMed DOI

原始文章

站上相關主題文章列表