原始文章

這項研究發現,Meta 的 Llama 3.1 大型語言模型,只用提示詞就能準確從放射科報告中擷取脊椎壓迫性骨折資訊。測試 637 份 CT 報告時,Llama 3.1 70B 加上醫師寫的背景提示詞,F1 分數高達 0.91,效果幾乎和 LLM 產生的提示詞一樣好。加入 few-shot 範例效果不一。顯示開源 LLM 幾乎不用人工處理就能結構化放射科資料。 PubMed DOI


站上相關主題文章列表

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI

所提的PromptLLM方法針對生成新疾病的放射科報告,特別是在標記數據有限的情況下,提供了解決方案。它包含三個步驟: 1. **對齊**:將影像與文本報告對齊,從已標記的疾病中提取知識。 2. **自編碼**:利用新疾病的未標記數據訓練語言模型,掌握相關知識與寫作風格。 3. **提示**:用獲得的知識提示LLM,生成針對新疾病的準確報告。 這方法在僅用1%訓練數據的情況下,能有效生成報告,減少對大型標記數據集的依賴,提升新興疾病的數據分析能力。相關代碼與數據已在GitHub公開。 PubMed DOI

本研究旨在開發一個標準化流程,利用大型語言模型(LLM)從腰椎MRI報告中提取數據,並評估其與專業評分的一致性。研究分析了230名慢性下背痛患者的數據,結果顯示模型在數據提取上表現優異,平均F1分數達0.96,但與專業評分的一致性僅為中等(kappa 0.424)。特別是在側凹狹窄的報告中,低報現象明顯,顯示出需要更客觀的數據提取方法。 PubMed DOI

這項研究比較三款多模態大型語言模型在解讀放射影像的表現,發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字,都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說,善用提示工程和豐富輸入資料,有助提升 LLMs 在放射科的應用效能。 PubMed DOI

這項研究用私有大型語言模型在本地處理814份放射科報告,成功把內容重組、精簡,並依器官系統分類。Mixtral LLM表現最好,能減少超過53%冗詞,提升報告清晰度和結構。結果證明開源LLM不僅保障資料安全,也能有效簡化報告流程,幫助醫師更快掌握重點,優化臨床工作。 PubMed DOI

開源大型語言模型(LLMs)在從放射科報告擷取標籤上,比傳統規則式工具(如 CheXpert)更準確。規模較大的 LLMs,特別在判讀困難異常(如肋骨骨折)時,敏感度更高。不同提示策略(如 chain-of-thought)效果不一。即使標籤有雜訊,用 LLM 擷取的標籤訓練影像分類器,表現仍不錯,但最終評估結果會受標註方法影響很大。因此,選對 LLM、提示方式和評估方法對醫療 AI 發展很重要。 PubMed DOI

這項研究用標準化、針對人類優化的提示語,讓大型語言模型標註六家醫院的放射科報告,結果 Llama 3.1 70b 在不同報告和機構間都很準確且一致。顯示只要設計好提示語,LLMs 在各種臨床環境下都能穩定標註。未來會再加強提示語的通用性和模型穩定性。 PubMed DOI

這項研究比較多種大型語言模型在偵測胸腔放射科報告錯誤的表現,發現經過微調的 Llama-3-70B-Instruct 模型最準確,F1 分數約 0.75–0.83。實測也證實,這模型能有效協助醫師找出報告錯誤,顯示微調後的生成式語言模型有助提升放射科報告校對效率與準確度。 PubMed DOI

這項研究提出結合特徵摘要、思路鏈推理和混合型RAG架構的新提示工程方法,能提升大型語言模型判讀胸部CT報告、診斷肺部疾病的準確度。用2,965份報告測試,結果比傳統深度學習和其他提示法更準,外部驗證也表現優異。此方法不僅提升可解釋性,也有助臨床更精確診斷。 PubMed DOI

這項研究評估多種大型語言模型,利用提示工程從胃鏡和大腸鏡報告中擷取結構化資訊。結果顯示,大型且專業化的模型在基本資訊擷取表現最好,但遇到複雜推理時仍有限制。少樣本學習對部分模型有幫助,顯示LLMs自動化醫療文本分析有潛力,但還需改進。 PubMed DOI