原始文章

針對鼻咽癌的精確診斷工具開發至關重要,多模態基礎模型能整合多種數據,提升臨床支持,但面臨挑戰。首先,針對鼻咽癌的大型視覺-語言數據集稀缺;其次,現有技術難以捕捉複雜任務的層次特徵;最後,基礎模型的多模態整合能力不足。我們提出的層次特徵融合課程學習方法,透過視覺知識學習、粗粒度對齊及細粒度融合,顯示在診斷、報告生成等任務上優於以往模型。 PubMed DOI


站上相關主題文章列表

這項研究提出了一種新方法,利用多模態大型語言模型來融合紅外線和可見光影像,克服了傳統影像融合技術的缺點。主要包含兩個部分:首先是CLIP驅動的資訊注入,提取語意豐富的影像特徵;其次是CLIP引導的特徵融合,有效合併紅外線和可見光特徵,應對複雜場景挑戰。這種方法不需複雜網路架構,實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

這項研究探討六種多模態大型語言模型(MLLMs)在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像,提出1084個臨床問題來評估模型表現,並由兩位醫師獨立評估。結果顯示,Claude 3.5 Sonnet的準確率最高,達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯,最佳商業模型的表現比其他模型高出19個百分點。研究指出,雖然MLLMs在手術決策支持上有潛力,但仍需針對特定需求進行開發,並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。 PubMed DOI

這篇論文提出了一個創新的深度學習框架,利用功能性磁共振影像(fMRI)數據來評估大腦中的淀粉樣蛋白β沉積,提供了一種更可及的阿茲海默症篩檢方式。框架包含三個主要組件:節點嵌入編碼器、階層式功能連結網絡學習模組,以及任務特徵一致性損失。實驗結果顯示,這種方法在預測淀粉樣蛋白β方面表現優異,並有助於深入了解阿茲海默症的機制,對其預防具有潛在價值。 PubMed DOI

這項研究介紹了MedFILIP,一個專為醫學影像分析設計的視覺-語言預訓練模型。它透過自然配對的醫學影像和報告數據來提升診斷準確性。MedFILIP包含幾個創新組件:資訊提取器簡化報告中的疾病資訊,知識注入器連結疾病類別與影像特徵,語義相似性矩陣增強影像與文本的對齊。經過多個數據集測試,MedFILIP在各項任務中表現優異,分類準確率提升最高達6.69%。總體而言,該模型顯著改善了醫學影像分析的診斷結果。 PubMed DOI

合成數據生成正逐漸成為解決數位病理學中數據稀缺的關鍵,特別是在癌症診斷上。現有方法面臨類別多樣性不足及細胞註釋缺乏的挑戰,影響病理特徵的捕捉及影像品質。為了解決這些問題,我們提出了拓撲引導的病理基礎模型(ToPoFM),能生成高解析度病理影像,並精確控制細胞層面。透過拓撲知識的細胞排列生成器和擴散模型,我們的實驗顯示ToPoFM在數據合成上具高保真度,並能顯著改善癌症亞型分類和分割等下游任務的表現。 PubMed DOI

多模態大型語言模型(MLLMs)正在改變醫療保健,特別是在自動化放射學報告生成(RRG)方面。雖然RRG在2D影像上已經取得成效,但3D醫學影像的應用仍待開發。為此,我們建立了3D-BrainCT數據集,包含18,885對文本與掃描影像,並開發了專為3D CT RRG設計的BrainGPT模型。我們提出了特徵導向放射學任務評估(FORTE)來評估報告質量,結果顯示BrainGPT的FORTE F1分數為0.71,74%的報告與人類撰寫的無法區分。這項研究為未來醫療應用中的人機協作提供了堅實的基礎。 PubMed DOI

這項研究介紹了口腔癌注意網路(OCANet),一個基於U-Net的模型,專注於改善口腔鱗狀細胞癌的分割。OCANet利用局部和全局注意機制,能捕捉複雜的癌症模式,並結合大型語言模型增強可解釋性。其關鍵組件包括通道和空間注意融合、擠壓與激勵區塊等,提升特徵提取和分割效果。OCANet在多個數據集上表現優異,準確率和Dice相似係數均高,顯示出強大的泛化能力,成為癌症診斷中的重要工具。 PubMed DOI

本研究針對肝癌診斷提出一個結合大型與小型模型的輔助工具,旨在提升基層醫療醫生的診斷能力。透過開發更準確的肝腫瘤與血管分割模型,並整合患者醫療紀錄,這個框架能有效改善影像分析的準確性。結果顯示,小型模型在分割表現上有所提升,而大型模型則在醫生評估中獲得更高分數。此研究不僅優化了診斷過程,還增強了模型的可靠性與可解釋性,減少了錯誤推理的情況。 PubMed DOI

這項研究用GPT-4o結合流程圖嵌入技術,來解讀放射科報告並依ACR指引給胰臟囊腫追蹤建議,準確率高達92%。這方法比單靠預設知識或文字檢索更準確,也能考慮過去影像,未來有機會應用在其他臨床自動化建議上。 PubMed DOI

這篇論文提出一種多階段訓練法,先用疾病標籤、再用實體關係、最後才用完整報告來訓練大型語言模型,逐步增加難度。這樣能讓模型更專注臨床重點,生成的放射科報告在語言流暢度和臨床準確性都表現最佳。程式碼已開源於 GitHub。 PubMed DOI