這項研究探討六種多模態大型語言模型(MLLMs)在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像,提出1084個臨床問題來評估模型表現,並由兩位醫師獨立評估。結果顯示,Claude 3.5 Sonnet的準確率最高,達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯,最佳商業模型的表現比其他模型高出19個百分點。研究指出,雖然MLLMs在手術決策支持上有潛力,但仍需針對特定需求進行開發,並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。
PubMed
DOI