原始文章

這項研究評估了幾個公開的視覺語言模型(VLMs),特別是Anthropic的Claude和OpenAI的GPT,在解讀放射影像的能力。研究使用ROCOv2和MURAv1.1數據集,測試六個VLM在識別影像模式、解剖結構及檢測X光片骨折的表現。結果顯示,某些模型在模式識別上達到高準確率,但解剖識別的準確率僅在61%到85%之間。雖然Claude-3.5-Sonnet和GPT-4o在特定任務上表現不錯,但整體準確性仍不足以支持臨床應用,需進一步開發和標準化測試。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)如GPT-4o、Claude 3 Opus和Gemini 1.5 Pro在解讀病患病史和影像檢查結果上有潛力。研究比較它們在Radiology Diagnosis Please Cases數據的表現,發現Claude 3 Opus在解決放射學測驗案例時表現最佳。這些LLMs可能有助於放射科醫師更準確地評估和描述影像檢查結果。 PubMed DOI

這項研究評估了不同視覺語言模型(VLMs)在放射學診斷的準確性,特別針對日本的專業考試。比較的模型包括GPT-4o、GPT-4V和Claude-3。分析了383個JDR考題、300個JNM考題和322個JIR考題。結果顯示,GPT-4o在所有考試中表現最佳,JDR得分49%、JNM得64%、JIR得43%。對於有圖片的問題,JDR得48%、JNM得59%、JIR得34%。統計分析顯示,GPT-4o在大多數評估中顯著優於其他模型,顯示其在放射學診斷中的潛力。 PubMed DOI

這項研究評估了兩個大型語言AI模型,Claude 3 Opus和Claude 3.5 Sonnet,在放射影像和臨床歷史下的診斷表現。測試分為三種條件:僅臨床歷史、臨床歷史加影像發現,以及臨床歷史加關鍵影像。結果顯示,Sonnet的表現普遍較佳,尤其在條件3中,正確診斷率達30.1%。統計分析顯示,加入關鍵影像和臨床歷史能顯著提高診斷準確性。總體而言,提供全面資料能提升這兩個AI模型的診斷能力。 PubMed DOI

這項研究評估了多模態人工智慧模型 GPT-4V 在解讀放射影像的表現,包括超音波、電腦斷層掃描和 X 光。分析230張急診影像後,模型在影像識別上達到100%準確率,但在解剖和病理識別上表現不佳,尤其是病理識別僅35.2%。儘管有潛力,GPT-4V 的診斷錯誤率超過40%,引發臨床使用的可靠性擔憂。研究強調需進一步開發以提升準確性,確保病人安全,並指出目前不宜作為獨立診斷工具。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

這項研究評估了10個大型語言模型(LLMs)與2位認證放射科醫生在分析胸部放射學案例的診斷表現。研究收集了124個案例,結果顯示Claude 3 Opus的診斷準確率最高,達70.29%,而放射科醫生的準確率則較低,分別為52.4%和41.1%。LLMs在特定案例中的表現較佳,顯示在適當醫療監督下,LLMs可能成為臨床決策的重要工具。 PubMed DOI

這項研究評估了具備視覺能力的AI模型GPT-4V在解讀放射影像的表現,並與放射科醫師及住院醫師進行比較。研究涵蓋72個放射案例,結果顯示GPT-4V的整體準確率為43%。在影像和非影像依賴的案例中,醫師的表現並未顯著優於GPT-4V。特別是,GPT-4V在僅使用文字輸入時的準確率較高(50%),而僅使用影像輸入則為38%。總體來看,GPT-4V的表現與人類相當,且未能提升人類的解讀準確性。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在回答放射科考試問題時的表現,特別是當問題包含影像時。研究選取了280個問題,測試了三個模型:GPT-4V、Gemini 1.5 Pro和Claude 3.5 Sonnet,使用多模態、僅影像和僅文字三種提示格式。 結果顯示,GPT-4V和Gemini 1.5 Pro的正確回答率約54-57%,而Claude 3.5 Sonnet在僅文字(63%)和多模態(66%)的表現上明顯優於僅影像(48%)。整體來看,這些模型未能有效利用影像來提升表現,顯示出進一步研究的潛力。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

這項研究探討了多模態大型語言模型(LLMs),特別是GPT-4o和Claude Sonnet 3.5,如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試,結果顯示在只有文本的情況下,GPT-4o的準確率為70.8%,遠超醫生的39.5%。當加入圖片時,所有參與者的表現都有提升,尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%,而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強,以達到人類醫生的表現。 PubMed DOI