原始文章

針對鼻咽癌的精確診斷工具開發至關重要,多模態基礎模型能整合多種數據,提升臨床支持,但面臨挑戰。首先,針對鼻咽癌的大型視覺-語言數據集稀缺;其次,現有技術難以捕捉複雜任務的層次特徵;最後,基礎模型的多模態整合能力不足。我們提出的層次特徵融合課程學習方法,透過視覺知識學習、粗粒度對齊及細粒度融合,顯示在診斷、報告生成等任務上優於以往模型。 PubMed DOI


站上相關主題文章列表

這篇論文探討大型基礎模型在醫學影像,特別是癌症分割的應用,如Segment Anything Model (SAM)。這些模型在自然語言處理和計算機視覺上取得進展,能提升癌症診斷的準確性和效率,並可整合進臨床工作流程中。 **潛在好處:** 1. 提高檢測準確性。 2. 自動化分割節省醫生時間。 3. 可適應多樣化數據集。 4. 提供即時協助。 **挑戰:** 1. 數據質量和可用性不足。 2. 模型泛化能力有限。 3. 可解釋性不足影響信任。 4. 監管和倫理問題需關注。 總之,雖然大型模型在癌症診斷上有潛力,但實施時需考量挑戰。 PubMed DOI

醫療視覺問題回答(VQA)是醫療多模態大型語言模型(LLMs)中的一項重要任務,旨在解決醫療影像的臨床問題。這項技術有助於提升醫療人員的效率,特別是在資源有限的環境中。不過,目前的醫療 VQA 數據集規模不大,且多為簡單問題,缺乏深度推理。 我們的研究引入了一個以臨床知識為基礎的影像差異 VQA 基準,並開發了一種基於 LLM 的方法,顯著提升標籤提取準確率。我們創建了名為 Medical-CXR-VQA 的數據集,專注於胸部 X 光影像,並提出了新穎的 VQA 方法,強調證據和真實性。相關代碼和數據集可在 GitHub 獲取。 PubMed DOI

人工智慧在自動劃分正常組織上已有進展,但在放射治療目標體積的準確勾勒上仍有挑戰。為此,我們提出將目標體積劃分視為臨床決策問題,並開發了名為 Medformer 的視覺-語言模型,結合多模態學習。經過測試,Medformer 在前列腺癌和口咽癌數據集上均顯示出顯著的性能提升,特別是在腫瘤體積劃分上,DSC 和 IOU 指標均有明顯改善,顯示出其在臨床應用中的潛力。 PubMed DOI

這篇論文介紹了一個新開發的模型,叫做混合變壓器網絡(HybridTransNet),它結合了大型語言模型和計算機視覺技術,專注於醫學影像診斷,特別是腦腫瘤檢測。傳統的卷積神經網絡和遞歸神經網絡在處理深層編碼和下採樣時容易丟失細節。HybridTransNet透過變壓器機制有效處理多模態數據,並利用自注意力機制來恢復上下文資訊。實驗結果顯示,該模型在腦腫瘤診斷上表現優於現有方法,顯示出提升醫療資訊學的潛力。 PubMed DOI

這項研究介紹了一個名為CNS-CLIP的多模態模型,專為神經外科應用設計,僅使用神經外科相關的數據。CNS-CLIP利用24,021對圖像-標題的數據集,提升神經外科信息檢索和影像分類的表現。經過微調後,模型在神經外科信息檢索的Top-1準確率達24.56%,顯著高於基準的8.61%。雖然在通用分類中準確率下降至47.55%,但這顯示出專業模型在醫療環境中的潛力,強調了量身定制數據的重要性。 PubMed DOI

這項研究探討六種多模態大型語言模型(MLLMs)在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像,提出1084個臨床問題來評估模型表現,並由兩位醫師獨立評估。結果顯示,Claude 3.5 Sonnet的準確率最高,達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯,最佳商業模型的表現比其他模型高出19個百分點。研究指出,雖然MLLMs在手術決策支持上有潛力,但仍需針對特定需求進行開發,並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。 PubMed DOI

這項研究介紹了MedFILIP,一個專為醫學影像分析設計的視覺-語言預訓練模型。它透過自然配對的醫學影像和報告數據來提升診斷準確性。MedFILIP包含幾個創新組件:資訊提取器簡化報告中的疾病資訊,知識注入器連結疾病類別與影像特徵,語義相似性矩陣增強影像與文本的對齊。經過多個數據集測試,MedFILIP在各項任務中表現優異,分類準確率提升最高達6.69%。總體而言,該模型顯著改善了醫學影像分析的診斷結果。 PubMed DOI

多模態大型語言模型(MLLMs)正在改變醫療保健,特別是在自動化放射學報告生成(RRG)方面。雖然RRG在2D影像上已經取得成效,但3D醫學影像的應用仍待開發。為此,我們建立了3D-BrainCT數據集,包含18,885對文本與掃描影像,並開發了專為3D CT RRG設計的BrainGPT模型。我們提出了特徵導向放射學任務評估(FORTE)來評估報告質量,結果顯示BrainGPT的FORTE F1分數為0.71,74%的報告與人類撰寫的無法區分。這項研究為未來醫療應用中的人機協作提供了堅實的基礎。 PubMed DOI

這項研究介紹了口腔癌注意網路(OCANet),一個基於U-Net的模型,專注於改善口腔鱗狀細胞癌的分割。OCANet利用局部和全局注意機制,能捕捉複雜的癌症模式,並結合大型語言模型增強可解釋性。其關鍵組件包括通道和空間注意融合、擠壓與激勵區塊等,提升特徵提取和分割效果。OCANet在多個數據集上表現優異,準確率和Dice相似係數均高,顯示出強大的泛化能力,成為癌症診斷中的重要工具。 PubMed DOI

本研究針對肝癌診斷提出一個結合大型與小型模型的輔助工具,旨在提升基層醫療醫生的診斷能力。透過開發更準確的肝腫瘤與血管分割模型,並整合患者醫療紀錄,這個框架能有效改善影像分析的準確性。結果顯示,小型模型在分割表現上有所提升,而大型模型則在醫生評估中獲得更高分數。此研究不僅優化了診斷過程,還增強了模型的可靠性與可解釋性,減少了錯誤推理的情況。 PubMed DOI