Large Foundation Model for Cancer Segmentation.
癌症分割的大型基礎模型。 Technol Cancer Res Treat 2024-07-25

這篇論文探討大型基礎模型在醫學影像，特別是癌症分割的應用，如Segment Anything Model (SAM)。這些模型在自然語言處理和計算機視覺上取得進展，能提升癌症診斷的準確性和效率，並可整合進臨床工作流程中。 **潛在好處：** 1. 提高檢測準確性。 2. 自動化分割節省醫生時間。 3. 可適應多樣化數據集。 4. 提供即時協助。 **挑戰：** 1. 數據質量和可用性不足。 2. 模型泛化能力有限。 3. 可解釋性不足影響信任。 4. 監管和倫理問題需關注。總之，雖然大型模型在癌症診斷上有潛力，但實施時需考量挑戰。 PubMed DOI

Interpretable medical image Visual Question Answering via multi-modal relationship graph learning.
可解釋的醫學影像視覺問答透過多模態關係圖學習。 Med Image Anal 2024-07-30

醫療視覺問題回答（VQA）是醫療多模態大型語言模型（LLMs）中的一項重要任務，旨在解決醫療影像的臨床問題。這項技術有助於提升醫療人員的效率，特別是在資源有限的環境中。不過，目前的醫療 VQA 數據集規模不大，且多為簡單問題，缺乏深度推理。我們的研究引入了一個以臨床知識為基礎的影像差異 VQA 基準，並開發了一種基於 LLM 的方法，顯著提升標籤提取準確率。我們創建了名為 Medical-CXR-VQA 的數據集，專注於胸部 X 光影像，並提出了新穎的 VQA 方法，強調證據和真實性。相關代碼和數據集可在 GitHub 獲取。 PubMed DOI

Auto-delineation of treatment target volume for radiation therapy using large language model-aided multimodal learning.
利用大型語言模型輔助的多模態學習自動勾畫放射治療的治療靶區體積。 Int J Radiat Oncol Biol Phys 2024-08-08

人工智慧在自動劃分正常組織上已有進展，但在放射治療目標體積的準確勾勒上仍有挑戰。為此，我們提出將目標體積劃分視為臨床決策問題，並開發了名為 Medformer 的視覺-語言模型，結合多模態學習。經過測試，Medformer 在前列腺癌和口咽癌數據集上均顯示出顯著的性能提升，特別是在腫瘤體積劃分上，DSC 和 IOU 指標均有明顯改善，顯示出其在臨床應用中的潛力。 PubMed DOI

A LLM-Based Hybrid-Transformer Diagnosis System in Healthcare.
基於 LLM 的混合變壓器診斷系統在醫療保健中的應用。 IEEE J Biomed Health Inform 2024-10-16

這篇論文介紹了一個新開發的模型，叫做混合變壓器網絡（HybridTransNet），它結合了大型語言模型和計算機視覺技術，專注於醫學影像診斷，特別是腦腫瘤檢測。傳統的卷積神經網絡和遞歸神經網絡在處理深層編碼和下採樣時容易丟失細節。HybridTransNet透過變壓器機制有效處理多模態數據，並利用自注意力機制來恢復上下文資訊。實驗結果顯示，該模型在腦腫瘤診斷上表現優於現有方法，顯示出提升醫療資訊學的潛力。 PubMed DOI

CNS-CLIP: Transforming a Neurosurgical Journal Into a Multimodal Medical Model.
CNS-CLIP：將神經外科期刊轉變為多模態醫學模型。 Neurosurgery 2024-12-05

這項研究介紹了一個名為CNS-CLIP的多模態模型，專為神經外科應用設計，僅使用神經外科相關的數據。CNS-CLIP利用24,021對圖像-標題的數據集，提升神經外科信息檢索和影像分類的表現。經過微調後，模型在神經外科信息檢索的Top-1準確率達24.56%，顯著高於基準的8.61%。雖然在通用分類中準確率下降至47.55%，但這顯示出專業模型在醫療環境中的潛力，強調了量身定制數據的重要性。 PubMed DOI

Multimodal large language models address clinical queries in laryngeal cancer surgery: a comparative evaluation of image interpretation across different models.
多模態大型語言模型在喉癌手術中解決臨床問題：不同模型之間影像解讀的比較評估。 Int J Surg 2025-01-27

這項研究探討六種多模態大型語言模型（MLLMs）在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像，提出1084個臨床問題來評估模型表現，並由兩位醫師獨立評估。結果顯示，Claude 3.5 Sonnet的準確率最高，達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯，最佳商業模型的表現比其他模型高出19個百分點。研究指出，雖然MLLMs在手術決策支持上有潛力，但仍需針對特定需求進行開發，並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。 PubMed DOI

MedFILIP: Medical Fine-Grained Language-Image Pre-Training.
MedFILIP: 醫學細粒度語言-影像預訓練。 IEEE J Biomed Health Inform 2025-03-03

這項研究介紹了MedFILIP，一個專為醫學影像分析設計的視覺-語言預訓練模型。它透過自然配對的醫學影像和報告數據來提升診斷準確性。MedFILIP包含幾個創新組件：資訊提取器簡化報告中的疾病資訊，知識注入器連結疾病類別與影像特徵，語義相似性矩陣增強影像與文本的對齊。經過多個數據集測試，MedFILIP在各項任務中表現優異，分類準確率提升最高達6.69%。總體而言，該模型顯著改善了醫學影像分析的診斷結果。 PubMed DOI

Towards a holistic framework for multimodal LLM in 3D brain CT radiology report generation.
朝向一個整體框架，用於多模態 LLM 在 3D 腦部 CT 放射報告生成中的應用。 Nat Commun 2025-03-06

多模態大型語言模型（MLLMs）正在改變醫療保健，特別是在自動化放射學報告生成（RRG）方面。雖然RRG在2D影像上已經取得成效，但3D醫學影像的應用仍待開發。為此，我們建立了3D-BrainCT數據集，包含18,885對文本與掃描影像，並開發了專為3D CT RRG設計的BrainGPT模型。我們提出了特徵導向放射學任務評估（FORTE）來評估報告質量，結果顯示BrainGPT的FORTE F1分數為0.71，74%的報告與人類撰寫的無法區分。這項研究為未來醫療應用中的人機協作提供了堅實的基礎。 PubMed DOI

Integrating local and global attention mechanisms for enhanced oral cancer detection and explainability.
整合本地與全球注意力機制以增強口腔癌檢測及可解釋性。 Comput Biol Med 2025-03-08

這項研究介紹了口腔癌注意網路（OCANet），一個基於U-Net的模型，專注於改善口腔鱗狀細胞癌的分割。OCANet利用局部和全局注意機制，能捕捉複雜的癌症模式，並結合大型語言模型增強可解釋性。其關鍵組件包括通道和空間注意融合、擠壓與激勵區塊等，提升特徵提取和分割效果。OCANet在多個數據集上表現優異，準確率和Dice相似係數均高，顯示出強大的泛化能力，成為癌症診斷中的重要工具。 PubMed DOI

Diagnosis assistant for liver cancer utilizing a large language model with three types of knowledge.
利用三種知識類型的大型語言模型進行肝癌診斷輔助。 Phys Med Biol 2025-04-09

本研究針對肝癌診斷提出一個結合大型與小型模型的輔助工具，旨在提升基層醫療醫生的診斷能力。透過開發更準確的肝腫瘤與血管分割模型，並整合患者醫療紀錄，這個框架能有效改善影像分析的準確性。結果顯示，小型模型在分割表現上有所提升，而大型模型則在醫生評估中獲得更高分數。此研究不僅優化了診斷過程，還增強了模型的可靠性與可解釋性，減少了錯誤推理的情況。 PubMed DOI

原始文章

站上相關主題文章列表