醫療視覺問題回答(VQA)是醫療多模態大型語言模型(LLMs)中的一項重要任務,旨在解決醫療影像的臨床問題。這項技術有助於提升醫療人員的效率,特別是在資源有限的環境中。不過,目前的醫療 VQA 數據集規模不大,且多為簡單問題,缺乏深度推理。
我們的研究引入了一個以臨床知識為基礎的影像差異 VQA 基準,並開發了一種基於 LLM 的方法,顯著提升標籤提取準確率。我們創建了名為 Medical-CXR-VQA 的數據集,專注於胸部 X 光影像,並提出了新穎的 VQA 方法,強調證據和真實性。相關代碼和數據集可在 GitHub 獲取。
PubMed
DOI