Towards Improved Radiological Diagnostics: Investigating the Utility and Limitations of GPT-3.5 Turbo and GPT-4 with Quiz Cases.
探討改進放射學診斷：研究 GPT-3.5 Turbo 和 GPT-4 的效用和限制，並使用測驗案例。 AJNR Am J Neuroradiol 2024-05-08

研究使用GPT-3.5 Turbo和GPT-4等語言模型在神經放射學案例上進行診斷，結果顯示在不同任務上有不同表現。結合案例搜尋和直接診斷可提升GPT-3.5 Turbo表現，但整體仍有改進空間，需注意模型限制。結果顯示這些模型在特定情況下可作為輔助診斷工具。 PubMed DOI

Diagnostic performances of GPT-4o, Claude 3 Opus, and Gemini 1.5 Pro in "Diagnosis Please" cases.
在「診斷請求」案例中，GPT-40、Claude 3 Opus和Gemini 1.5 Pro的診斷表現。 Jpn J Radiol 2024-07-02

大型語言模型（LLMs）如GPT-4o、Claude 3 Opus和Gemini 1.5 Pro在解讀病患病史和影像檢查結果上有潛力。研究比較它們在Radiology Diagnosis Please Cases數據的表現，發現Claude 3 Opus在解決放射學測驗案例時表現最佳。這些LLMs可能有助於放射科醫師更準確地評估和描述影像檢查結果。 PubMed DOI

Comparing Diagnostic Accuracy of Radiologists versus GPT-4V and Gemini Pro Vision Using Image Inputs from Diagnosis Please Cases.
比較放射科醫師與 GPT-4V 及 Gemini Pro Vision 在使用來自「請診斷」案例的影像輸入時的診斷準確性。 Radiology 2024-07-09

研究比較了GPT-4V和Gemini Pro Vision等大型語言模型在診斷能力上的表現，結果顯示隨著溫度設定提高，準確性也增加。儘管放射科醫師整體表現較佳，尤其在高溫度下，但這些模型在診斷決策上顯示出潛力成為輔助工具。 PubMed DOI

Diagnostic accuracy of vision-language models on Japanese diagnostic radiology, nuclear medicine, and interventional radiology specialty board examinations.
視覺-語言模型在日本診斷放射學、核醫學和介入放射學專科考試中的診斷準確性。 Jpn J Radiol 2024-07-20

這項研究評估了不同視覺語言模型（VLMs）在放射學診斷的準確性，特別針對日本的專業考試。比較的模型包括GPT-4o、GPT-4V和Claude-3。分析了383個JDR考題、300個JNM考題和322個JIR考題。結果顯示，GPT-4o在所有考試中表現最佳，JDR得分49%、JNM得64%、JIR得43%。對於有圖片的問題，JDR得48%、JNM得59%、JIR得34%。統計分析顯示，GPT-4o在大多數評估中顯著優於其他模型，顯示其在放射學診斷中的潛力。 PubMed DOI

Claude 3 Opus and ChatGPT With GPT-4 in Dermoscopic Image Analysis for Melanoma Diagnosis: Comparative Performance Analysis.
Claude 3 Opus 與 ChatGPT 在皮膚鏡影像分析中對於黑色素瘤診斷的比較性能分析。 JMIR Med Inform 2024-08-06

最近在人工智慧（AI）和大型語言模型（LLMs）方面的進展，特別是在皮膚科，顯示出良好的潛力。本研究比較了Claude 3 Opus和ChatGPT（GPT-4）在分析皮膚鏡影像以檢測黑色素瘤的表現。結果顯示，Claude 3 Opus在惡性區分上表現較佳，敏感度和特異度均高於ChatGPT。雖然兩者在診斷上有其潛力，但仍存在錯誤，強調了AI與臨床醫生合作的重要性，以開發更可靠的診斷工具。 PubMed DOI

Assessing the use of the novel tool Claude 3 in comparison to ChatGPT 4.0 as an artificial intelligence tool in the diagnosis and therapy of primary head and neck cancer cases.
評估新工具 Claude 3 與 ChatGPT 4.0 在診斷和治療原發性頭頸癌病例中的人工智慧工具使用情況。 Eur Arch Otorhinolaryngol 2024-08-07

這項研究評估了新推出的AI模型Claude 3 Opus在診斷和規劃頭頸部鱗狀細胞癌（HNSCC）治療的效果，並與ChatGPT 4.0進行比較。研究於2024年3月進行，涵蓋50例HNSCC病例，並將AI模型的建議與傳統的多學科腫瘤委員會（MDT）建議進行對比。結果顯示，Claude 3 Opus在診斷準確性上優於ChatGPT 4.0，且提供的治療建議與MDT一致。雖然在臨床建議和解釋方面表現相當，但Claude 3未引用資訊來源。總體而言，Claude 3 Opus顯示出作為診斷工具的潛力，建議在臨床環境中使用。 PubMed DOI

Evaluating multimodal AI in medical diagnostics.
評估多模態人工智慧在醫學診斷中的應用。 NPJ Digit Med 2024-08-07

這項研究評估了多模態人工智慧模型在NEJM影像挑戰中的表現，並與人類集體智慧進行比較。結果顯示，人工智慧在臨床診斷上有潛力，但也有其限制。Anthropic的Claude 3系列在準確性上超越了人類平均水平，但人類集體決策的表現仍優於所有人工智慧模型。此外，GPT-4 Vision Preview在較簡單問題上反應更有效，特別是對小圖像和長文字的問題。 PubMed DOI

Evaluating text and visual diagnostic capabilities of large language models on questions related to the Breast Imaging Reporting and Data System Atlas 5<sup>th</sup> edition.
評估大型語言模型在與乳腺影像報告與數據系統 Atlas 第五版相關問題的文本和視覺診斷能力。 Diagn Interv Radiol 2024-09-09

這項研究評估大型語言模型（LLMs）在解釋乳腺影像報告及提供臨床建議的表現，分為兩個步驟： 1. **文本評估**：比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳（90%），超過一般放射科醫師（78%）和乳腺放射科醫師（82%）。 2. **視覺評估**：測試五個多模態LLMs在100張乳腺超音波影像上的表現，Claude 3.5 Sonnet以59%準確率領先。研究顯示，雖然LLMs在文本評估中表現良好，但視覺診斷能力有限，需在放射科醫師監督下使用，以避免誤診。 PubMed DOI

The Diagnostic Performance of Large Language Models and General Radiologists in Thoracic Radiology Cases: A Comparative Study.
大型語言模型與一般放射科醫生在胸部放射學案例中的診斷表現：一項比較研究。 J Thorac Imaging 2024-09-13

這項研究評估了10個大型語言模型（LLMs）與2位認證放射科醫生在分析胸部放射學案例的診斷表現。研究收集了124個案例，結果顯示Claude 3 Opus的診斷準確率最高，達70.29%，而放射科醫生的準確率則較低，分別為52.4%和41.1%。LLMs在特定案例中的表現較佳，顯示在適當醫療監督下，LLMs可能成為臨床決策的重要工具。 PubMed DOI

Diagnostic Performance of GPT-4o and Claude 3 Opus in Determining Causes of Death From Medical Histories and Postmortem CT Findings.
GPT-4o 和 Claude 3 Opus 在根據醫療歷史和屍體 CT 發現確定死亡原因的診斷表現。 Cureus 2024-09-20

這項研究評估了兩個大型語言模型（LLMs），GPT-4o 和 Claude 3 Opus，在根據病歷和屍體CT掃描識別死亡原因的能力。研究涵蓋100個經解剖確認的成人案例。結果顯示，GPT-4o在根本死亡原因的準確率為78%、72%和78%，而Claude 3 Opus則為72%、56%和75%。在即時死亡原因方面，GPT-4o的準確率較低，分別為55%、58%和62%，而Claude 3 Opus稍高，為60%、62%和63%。整體而言，兩者在診斷死亡原因上表現不俗。 PubMed DOI

原始文章

站上相關主題文章列表