原始文章

這項研究評估了幾個公開的視覺語言模型(VLMs),特別是Anthropic的Claude和OpenAI的GPT,在解讀放射影像的能力。研究使用ROCOv2和MURAv1.1數據集,測試六個VLM在識別影像模式、解剖結構及檢測X光片骨折的表現。結果顯示,某些模型在模式識別上達到高準確率,但解剖識別的準確率僅在61%到85%之間。雖然Claude-3.5-Sonnet和GPT-4o在特定任務上表現不錯,但整體準確性仍不足以支持臨床應用,需進一步開發和標準化測試。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT-4 Vision在解讀臨床影像(如X光、CT、MRI等)的表現。分析了206個影像研究,結果顯示提供臨床上下文能顯著提高診斷準確率,從8.3%提升至29.1%和63.6%。但在30天和90天後重新評估時,準確率下降多達30%。雖然建議診斷與實際發現匹配率高達92.7%,但GPT-4V仍虛構了258個發現,並錯誤識別了65個案例。總體來看,GPT-4V目前無法可靠解讀放射影像,需進一步改進以確保病人安全。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

這項研究探討了多模態大型語言模型(LLMs),特別是GPT-4o和Claude Sonnet 3.5,如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試,結果顯示在只有文本的情況下,GPT-4o的準確率為70.8%,遠超醫生的39.5%。當加入圖片時,所有參與者的表現都有提升,尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%,而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強,以達到人類醫生的表現。 PubMed DOI

最近的研究顯示,GPT-4V在醫學影像的解讀上有不錯的潛力,尤其在美國醫學執照考試中表現優異,Step 1得分84.2%、Step 2 85.7%、Step 3 88.9%。不過,雖然正確答案的解釋質量接近人類專家,但錯誤答案的解釋常常不準確,顯示出明顯的弱點。模型在處理複雜案例時也面臨挑戰,需要多次提示才能給出準確解釋。因此,在將GPT-4V應用於臨床前,仍需進一步評估其影像解釋能力。 PubMed DOI

最近的研究探討大型語言模型(LLMs)在臨床決策和考試問題回答的有效性,特別是視覺語言模型(VLMs)的引入。研究評估了GPT-4、Claude-3 Sonnet和Gemini-1.5在德國和美國醫學執照考試中的表現。結果顯示,所有LLMs在文本問題中均達及格,但只有GPT-4在圖像問題中超過及格,表現明顯優於其他模型。GPT-4在文本和圖像問題上也超越了醫學生的歷史表現,顯示其在外科決策和醫學教育中的潛在應用價值。 PubMed DOI

這項研究評估大型語言模型(LLMs)在檢測和修正MRI伪影的表現,並與放射科醫生進行比較。研究分為三個階段: 1. 第一階段中,六個LLMs和五位放射科醫生回答42個文本問題,LLMs表現優於醫生,ChatGPT o1-preview得分最高。 2. 第二階段,放射科醫生評估100張含伪影的MRI影像,醫生的表現明顯優於LLMs,資深醫生準確率高。 3. 第三階段在1.5個月後重新評估,檢查回應一致性。 結果顯示,LLMs在文本任務中表現佳,但在視覺解釋上仍有挑戰,建議作為教育工具或輔助系統使用。 PubMed DOI

將大型語言模型(LLMs)如Claude AI整合進放射學,為報告增強、工作流程優化及臨床決策提供了新機會。Claude在生成結構化內容和識別放射學應用方面表現出色,但使用時需謹慎,因其效果依賴於使用者的批判性評估能力。解決與LLMs相關的倫理和實際挑戰,對維持技術與醫療專業人員的自主性至關重要。隨著生成式AI的發展,謹慎實施將有助於最大化臨床利益並降低風險,確保放射學的安全與有效使用。 PubMed DOI

這項研究比較三款多模態大型語言模型在解讀放射影像的表現,發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字,都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說,善用提示工程和豐富輸入資料,有助提升 LLMs 在放射科的應用效能。 PubMed DOI

這項研究發現,Claude 3.5 Sonnet 在產生放射科參考文獻時最準確,正確率高達 80.8%,捏造比例僅 3.1%,明顯勝過其他模型。相較之下,ChatGPT 和 Google Gemini 1.5 Pro 的正確率較低,捏造比例甚至高達 60.6%。不同放射科次專科的正確率也有差異。整體來說,Claude 3.5 Sonnet 學術可靠度高,其他模型則有誤導風險,引用功能還需加強。 PubMed DOI

這項研究比較了Claude、GPT和Gemini三種大型語言模型,從日文頭部CT報告中擷取顱內出血和顱骨骨折資訊的表現。三種模型表現都不錯,其中以Claude最準確。提示設計會影響模型表現,尤其是Gemini。常見錯誤多因報告內容模糊。整體來說,大型語言模型能有效結構化放射報告,但提示設計還需優化,也要在不同語言和實際情境下再測試。 PubMed DOI