原始文章

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI


站上相關主題文章列表

研究比較四個大型語言模型在簡化放射學報告以提高患者閱讀易懂性的表現。結果顯示,所有模型都成功簡化報告,但在提供背景資料後效果更好。這顯示這些模型在幫助患者理解放射學報告方面有潛力。 PubMed DOI

這項研究評估了人類閱讀者與大型語言模型(LLMs)在三種語言的乳房影像報告中分配乳房影像報告和數據系統(BI-RADS)分類方面的一致性。LLMs與人類閱讀者顯示出中等程度的一致性,但存在高比例的不一致BI-RADS分類,可能對臨床管理產生負面影響。 PubMed DOI

醫學研究人員越來越多地使用先進的語言模型(LLMs),如ChatGPT-4和Gemini,來改善乳腺相關疾病的診斷。本研究評估這些模型在複雜醫學分類系統中的應用能力,以協助整形外科醫生做出更好的診斷和治療決策。 研究中創建了五十個臨床情境來評估分類準確性,結果顯示Gemini的準確率高達98%,而ChatGPT-4為71%。Gemini在多個分類系統中表現優於ChatGPT-4,顯示出其在整形外科實踐中的潛力,未來有望增強診斷支持和決策能力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括 GPT-4、GPT-4 Turbo、GPT-4omni(GPT-4o)和 Gemini,針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題,結果顯示 GPT-4o 的正確回答中位數為 63.1%,優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳,但在醫學影像解讀方面仍需改進。 PubMed DOI

這項研究指出,人工智慧(AI)在兒童放射學的應用上存在重大差距,特別是針對最新的大型語言模型(LLMs),如GPT-4、Gemini 1.5 Pro和Claude 3 Opus。測試結果顯示,這些模型在90張兒童放射影像中,正確診斷率僅27.8%,部分正確率13.3%,錯誤率高達58.9%。研究顯示,儘管多模態LLMs能處理多種輸入,但目前仍缺乏準確解讀兒童放射影像的專業能力。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是Open AI的GPT-4.0和Microsoft Bing的GPT-4,在將非結構化的乳房超音波報告轉換為結構化格式的有效性。研究分析了100份報告,結果顯示GPT-4.0在生成結構化報告、準確分配BI-RADS分類及提供管理建議方面均優於Bing。此外,GPT-4.0在預測良性和惡性特徵的能力也較佳,但仍不及資深放射科醫師。這顯示GPT-4.0在醫療報告處理上具有潛力。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—GPT-3.5、GPT-4 和 Google Gemini(Bard)在回答60道乳腺癌護理相關的多選題的表現。結果顯示,GPT-4的準確率最高,正確回答了95%的問題,接著是GPT-3.5的90%和Google Gemini的80%。研究還發現,來自公共數據庫的問題與乳腺放射科醫師新制定的問題在答案準確性上並無顯著差異,顯示LLMs在乳腺癌護理方面有良好的應用潛力,但仍需進一步訓練以提升表現。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在冠狀動脈疾病(CAD)診斷中的表現,特別是根據CAD-RADS 2.0指引進行比較。結果顯示,ChatGPT 4o的準確率最高,達到100%,接著是ChatGPT 4和Claude 3 Opus,準確率為96.6%。其他模型的準確率也不錯,介於90%到93.3%之間。這些結果顯示LLMs在改善CAD的放射報告和病人照護方面的潛力,並強調進一步研究其視覺診斷能力的重要性。 PubMed DOI

這項研究評估了10個大型語言模型(LLMs)與2位認證放射科醫生在分析胸部放射學案例的診斷表現。研究收集了124個案例,結果顯示Claude 3 Opus的診斷準確率最高,達70.29%,而放射科醫生的準確率則較低,分別為52.4%和41.1%。LLMs在特定案例中的表現較佳,顯示在適當醫療監督下,LLMs可能成為臨床決策的重要工具。 PubMed DOI

這項研究評估了ChatGPT-3.5在生成乳房超音波報告的BI-RADS分類的有效性,目的是提升醫療診斷的準確性和可解釋性。研究分析了131名患者的報告,並將AI生成的結果與57位醫生的報告進行比較。結果顯示,雖然AI在結構和清晰度上表現良好,但在BI-RADS分類準確性和惡性診斷上仍需改進。研究也探討了「思考鏈」方法,顯示AI在模擬臨床決策過程中的潛力,整體而言,ChatGPT-3.5對乳房超音波評估的診斷結果有助益。 PubMed DOI