原始文章

這項研究評估了AI語言模型Claude 3 Opus在生成腎臟病理影像診斷描述的表現。研究團隊整理了100張影像,涵蓋各種常見腎臟疾病。雖然Claude 3 Opus在語言流暢性上得分不錯(3.86),但在臨床相關性(1.75)、準確性(1.55)、完整性(2.01)和整體價值(1.75)方面表現不佳。不同疾病類型的表現差異明顯,病理學家的評分一致性高,但準確性和完整性則中等。研究顯示AI生成的描述雖流暢,但準確性和臨床相關性仍需改進,未來應探討數據來源的限制並與其他模型比較。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)如GPT-4o、Claude 3 Opus和Gemini 1.5 Pro在解讀病患病史和影像檢查結果上有潛力。研究比較它們在Radiology Diagnosis Please Cases數據的表現,發現Claude 3 Opus在解決放射學測驗案例時表現最佳。這些LLMs可能有助於放射科醫師更準確地評估和描述影像檢查結果。 PubMed DOI

這項研究評估了兩個大型語言AI模型,Claude 3 Opus和Claude 3.5 Sonnet,在放射影像和臨床歷史下的診斷表現。測試分為三種條件:僅臨床歷史、臨床歷史加影像發現,以及臨床歷史加關鍵影像。結果顯示,Sonnet的表現普遍較佳,尤其在條件3中,正確診斷率達30.1%。統計分析顯示,加入關鍵影像和臨床歷史能顯著提高診斷準確性。總體而言,提供全面資料能提升這兩個AI模型的診斷能力。 PubMed DOI

最近在人工智慧(AI)和大型語言模型(LLMs)方面的進展,特別是在皮膚科,顯示出良好的潛力。本研究比較了Claude 3 Opus和ChatGPT(GPT-4)在分析皮膚鏡影像以檢測黑色素瘤的表現。結果顯示,Claude 3 Opus在惡性區分上表現較佳,敏感度和特異度均高於ChatGPT。雖然兩者在診斷上有其潛力,但仍存在錯誤,強調了AI與臨床醫生合作的重要性,以開發更可靠的診斷工具。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),GPT-4o 和 Claude 3 Opus,在根據病歷和屍體CT掃描識別死亡原因的能力。研究涵蓋100個經解剖確認的成人案例。結果顯示,GPT-4o在根本死亡原因的準確率為78%、72%和78%,而Claude 3 Opus則為72%、56%和75%。在即時死亡原因方面,GPT-4o的準確率較低,分別為55%、58%和62%,而Claude 3 Opus稍高,為60%、62%和63%。整體而言,兩者在診斷死亡原因上表現不俗。 PubMed DOI

這項研究探討了大型語言模型(LLMs),特別是ChatGPT-4o和Claude 3-Opus,在超音波影像中分類甲狀腺結節的表現。研究涵蓋112位患者的116個結節,結果顯示ChatGPT-4o的Kappa值為0.116,Claude 3-Opus更低,僅0.034,而初級放射科醫師的Kappa值為0.450,顯示中等協議。ROC曲線方面,ChatGPT-4o的AUC為57.0%,Claude 3-Opus為52.0%,醫師則為72.4%。兩個LLM的不必要活檢率也高,分別為41.4%和43.1%,醫師僅12.1%。這顯示LLMs在醫學影像的診斷準確性仍有限,需謹慎使用。 PubMed DOI

這項研究評估了AI模型Claude 3.5-Sonnet在為腎功能不全患者生成出院摘要的表現,並與人類醫師進行比較。研究在寧波杭州灣醫院進行,涵蓋100名患者。結果顯示,AI的準確性與醫師相似,但生成摘要的效率顯著更高,僅需約30秒,而醫師則超過15分鐘。質量評分也相當,未見顯著差異。整體而言,Claude 3.5-Sonnet展現了高效率和可靠性,顯示AI在醫療文檔處理上有潛力,並需進一步研究以解決倫理和隱私問題。 PubMed DOI

將大型語言模型(LLMs)如Claude AI整合進放射學,為報告增強、工作流程優化及臨床決策提供了新機會。Claude在生成結構化內容和識別放射學應用方面表現出色,但使用時需謹慎,因其效果依賴於使用者的批判性評估能力。解決與LLMs相關的倫理和實際挑戰,對維持技術與醫療專業人員的自主性至關重要。隨著生成式AI的發展,謹慎實施將有助於最大化臨床利益並降低風險,確保放射學的安全與有效使用。 PubMed DOI

這項研究評估了幾個公開的視覺語言模型(VLMs),特別是Anthropic的Claude和OpenAI的GPT,在解讀放射影像的能力。研究使用ROCOv2和MURAv1.1數據集,測試六個VLM在識別影像模式、解剖結構及檢測X光片骨折的表現。結果顯示,某些模型在模式識別上達到高準確率,但解剖識別的準確率僅在61%到85%之間。雖然Claude-3.5-Sonnet和GPT-4o在特定任務上表現不錯,但整體準確性仍不足以支持臨床應用,需進一步開發和標準化測試。 PubMed DOI

這項研究比較三款主流視覺生成式AI(GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro)在辨識與分級肺腺癌組織學型態的表現。結果發現,Claude-3.5-Sonnet的分級準確率最高,穩定性也不錯,且結合臨床資料後,預後預測效果佳。整體來說,生成式AI,尤其是Claude-3.5-Sonnet,對肺腺癌病理評估和預後有很大幫助。 PubMed DOI

這項研究比較了多款主流大型語言模型(如Claude、GPT、Gemini)在臨床診斷上的表現。結果顯示,這些AI在常見病例的診斷準確率都超過九成,Claude 3.7甚至有滿分表現;在複雜案例中,Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調,未來應把AI工具實際整合進臨床與醫學教育,提升照護品質。 PubMed DOI