原始文章

這項研究比較三款多模態大型語言模型在解讀放射影像的表現,發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字,都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說,善用提示工程和豐富輸入資料,有助提升 LLMs 在放射科的應用效能。 PubMed DOI


站上相關主題文章列表

研究使用GPT-3.5 Turbo和GPT-4等語言模型在神經放射學案例上進行診斷,結果顯示在不同任務上有不同表現。結合案例搜尋和直接診斷可提升GPT-3.5 Turbo表現,但整體仍有改進空間,需注意模型限制。結果顯示這些模型在特定情況下可作為輔助診斷工具。 PubMed DOI

最新研究指出,ChatGPT 3.5和GPT-4在放射學診斷上表現優異。研究發現,使用不同提示影響它們對胸部放射學案例的診斷準確性。124個案例顯示,複雜提示顯著提升模型準確性。ChatGPT 3.5使用複雜提示後,準確率從25%提升至56.5%,GPT-4基準準確率為53.2%,使用複雜提示後提升至59.7%。研究強調提示工程對提升模型診斷性能的重要性。 PubMed DOI

大型語言模型(LLMs)如GPT-4o、Claude 3 Opus和Gemini 1.5 Pro在解讀病患病史和影像檢查結果上有潛力。研究比較它們在Radiology Diagnosis Please Cases數據的表現,發現Claude 3 Opus在解決放射學測驗案例時表現最佳。這些LLMs可能有助於放射科醫師更準確地評估和描述影像檢查結果。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

這項研究評估了10個大型語言模型(LLMs)與2位認證放射科醫生在分析胸部放射學案例的診斷表現。研究收集了124個案例,結果顯示Claude 3 Opus的診斷準確率最高,達70.29%,而放射科醫生的準確率則較低,分別為52.4%和41.1%。LLMs在特定案例中的表現較佳,顯示在適當醫療監督下,LLMs可能成為臨床決策的重要工具。 PubMed DOI

這項研究評估了五種多模態大型語言模型(LLMs)在日本診斷放射學委員會考試中的表現,涵蓋2021至2023年的考題。測試模型包括GPT-4o、Claude 3 Opus等,準確率介於30.21%到45.00%之間,GPT-4o表現最佳。雖然Claude 3 Opus在無圖像問題中表現較好,但添加圖像並未顯著提升準確性,甚至有模型表現下降。所有模型均未達到60%的及格標準,顯示目前LLMs在放射學的應用仍需進一步發展。 PubMed DOI

這項研究探討了告知大型語言模型(LLMs)放射學案例的測驗性質如何提升診斷準確性。先前研究顯示,LLMs在影像診斷上表現不錯,但缺乏測驗格式的背景知識,影響表現。研究分析了150個放射學案例,使用GPT-4o和Claude 3.5 Sonnet兩個模型,並評估了提供背景信息對診斷準確性的影響。結果顯示,告知測驗背景顯著改善了模型的診斷表現,特別是對Claude 3.5 Sonnet和GPT-4o的主要診斷。這些發現強調了背景信息在LLM診斷中的重要性,為未來研究提供指導。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在回答放射科考試問題時的表現,特別是當問題包含影像時。研究選取了280個問題,測試了三個模型:GPT-4V、Gemini 1.5 Pro和Claude 3.5 Sonnet,使用多模態、僅影像和僅文字三種提示格式。 結果顯示,GPT-4V和Gemini 1.5 Pro的正確回答率約54-57%,而Claude 3.5 Sonnet在僅文字(63%)和多模態(66%)的表現上明顯優於僅影像(48%)。整體來看,這些模型未能有效利用影像來提升表現,顯示出進一步研究的潛力。 PubMed DOI

這項研究評估了多模態大型語言模型(LLMs)在解讀放射影像的準確性,並與不同經驗的人類讀者進行比較。研究回顧了272個案例,使用了如GPT-4 Omni等LLMs,並收集了初任教職放射科醫師、臨床醫師和醫學生的回應。 主要發現包括:GPT-4 Omni的準確率為59.6%,超過醫學生的47.1%,但仍低於初任教職的80.9%和訓練中的放射科醫師的70.2%。LLMs在較長文本輸入下表現較佳,顯示文本長度對準確性有顯著影響。總體來說,LLMs的準確性不錯,但仍需注意文本長度的影響。 PubMed DOI

這項研究探討了不同的多模態輸入如何影響OpenAI的GPT-4視覺版(GPT-4V)在腦部MRI診斷的表現。研究選取60個具有驗證診斷的腦部MRI案例,根據影像、註解、病史和影像描述四個元素創建七個提示組。結果顯示,四個元素的組合達到最高診斷準確率69%。影像描述對準確性影響顯著,而僅依賴影像則導致低準確率。總結來說,文字描述是提升診斷表現的關鍵,病史也有助益。 PubMed DOI