原始文章

這項研究探討六種多模態大型語言模型(MLLMs)在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像,提出1084個臨床問題來評估模型表現,並由兩位醫師獨立評估。結果顯示,Claude 3.5 Sonnet的準確率最高,達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯,最佳商業模型的表現比其他模型高出19個百分點。研究指出,雖然MLLMs在手術決策支持上有潛力,但仍需針對特定需求進行開發,並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。 PubMed DOI


站上相關主題文章列表

LLMs(大型語言模型)如Bard 2023.07.13、Claude 2和ChatGPT 4在醫學領域表現比六位耳鼻喉科(ORL)顧問稍差,但差距不大。其中,Claude 2在LLMs中表現最好。顧問的答案與驗證的解決方案相符次數較多。雖然LLMs有風險,但在耳鼻喉科臨床上仍有潛力,需要進一步研究。 PubMed DOI

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

這篇系統性回顧與統合分析探討大型語言模型(LLMs)在臨床腫瘤學的應用,分析了34項研究以評估其表現。研究發現,LLMs主要測試回答腫瘤學問題的能力,但因方法論和評估標準不同,表現上有顯著變異。模型能力、提示策略及特定腫瘤領域等因素影響這些變異。此外,LLMs缺乏標準化報告協議,造成方法論不一致。解決這些問題對提升研究可比性及促進LLM在臨床實踐中的應用至關重要。 PubMed DOI

這項研究評估了五種多模態大型語言模型(LLMs)在日本診斷放射學委員會考試中的表現,涵蓋2021至2023年的考題。測試模型包括GPT-4o、Claude 3 Opus等,準確率介於30.21%到45.00%之間,GPT-4o表現最佳。雖然Claude 3 Opus在無圖像問題中表現較好,但添加圖像並未顯著提升準確性,甚至有模型表現下降。所有模型均未達到60%的及格標準,顯示目前LLMs在放射學的應用仍需進一步發展。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Claude,在脊椎病理的外科決策及放射影像解讀的有效性,並與經驗豐富的脊椎外科醫生進行比較。結果顯示,雖然LLMs能詳細描述MRI影像,但在準確識別病變及外科決策上表現不佳,準確率僅20%,遠低於外科醫生的100%。研究建議LLMs在輔助影像解讀和決策上有潛力,但需進一步發展以克服現有限制,並強調AI研究人員與臨床專家的合作重要性。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在回答放射科考試問題時的表現,特別是當問題包含影像時。研究選取了280個問題,測試了三個模型:GPT-4V、Gemini 1.5 Pro和Claude 3.5 Sonnet,使用多模態、僅影像和僅文字三種提示格式。 結果顯示,GPT-4V和Gemini 1.5 Pro的正確回答率約54-57%,而Claude 3.5 Sonnet在僅文字(63%)和多模態(66%)的表現上明顯優於僅影像(48%)。整體來看,這些模型未能有效利用影像來提升表現,顯示出進一步研究的潛力。 PubMed DOI

這項研究評估了多模態大型語言模型(LLMs)在解讀放射影像的準確性,並與不同經驗的人類讀者進行比較。研究回顧了272個案例,使用了如GPT-4 Omni等LLMs,並收集了初任教職放射科醫師、臨床醫師和醫學生的回應。 主要發現包括:GPT-4 Omni的準確率為59.6%,超過醫學生的47.1%,但仍低於初任教職的80.9%和訓練中的放射科醫師的70.2%。LLMs在較長文本輸入下表現較佳,顯示文本長度對準確性有顯著影響。總體來說,LLMs的準確性不錯,但仍需注意文本長度的影響。 PubMed DOI

這項研究探討了多模態大型語言模型(LLMs),特別是GPT-4o和Claude Sonnet 3.5,如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試,結果顯示在只有文本的情況下,GPT-4o的準確率為70.8%,遠超醫生的39.5%。當加入圖片時,所有參與者的表現都有提升,尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%,而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強,以達到人類醫生的表現。 PubMed DOI

這項研究比較三款多模態大型語言模型在解讀放射影像的表現,發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字,都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說,善用提示工程和豐富輸入資料,有助提升 LLMs 在放射科的應用效能。 PubMed DOI