Privacy-ensuring Open-weights Large Language Models Are Competitive with Closed-weights GPT-4o in Extracting Chest Radiography Findings from Free-Text Reports.
保障隱私的開放權重大型語言模型在從自由文本報告中提取胸部放射影像發現方面與封閉權重的 GPT-4o 具競爭力。 Radiology 2025-01-14

這項研究探討了開放權重的大型語言模型（LLMs）在從放射科報告中提取結構化內容的效果，並與傳統的規則系統及封閉權重模型（如GPT-4）進行比較。研究結果顯示，GPT-4o在英語報告中表現最佳，F1分數達92.4%，而Mistral-Large在德語數據集中也表現優異。當使用1000份報告進行微調時，開放權重LLMs的表現顯著超過BERT。結論指出，開放權重模型在結構化報告數據方面具有效能，特別是在中等數據量微調時。 PubMed DOI

Open-Source Large Language Models in Radiology: A Review and Tutorial for Practical Research and Clinical Deployment.
放射學中的開源大型語言模型：實用研究和臨床應用的回顧與教程。 Radiology 2025-01-28

將大型語言模型（LLMs）應用於醫療保健能顯著提升臨床流程與病人護理，但也面臨準確性、可及性、隱私及法規等挑戰。雖然專有模型如GPT-4和Claude 3受到關注，開源模型如Llama 3和LLaVA-Med對醫療機構和研究人員有獨特優勢，但因不熟悉和基礎設施不足，採用速度較慢。這篇文章提供放射學中實施開源LLMs的教程，包括文本生成、提示工程等實用範例，並比較開源與專有模型的優缺點。 PubMed DOI

The use of large language models in detecting Chinese ultrasound report errors.
大型語言模型在檢測中文超聲報告錯誤中的應用。 NPJ Digit Med 2025-01-28

這項回顧性研究探討大型語言模型（LLMs）在提升中文超音波報告準確性上的效果。研究分析了2024年1月至4月期間三家醫院的400份報告，發現243個錯誤，並將其分為六類。研究評估了三個版本的GPT和Claude 3.5 Sonnet在零樣本和少樣本情境下的表現。結果顯示，Claude 3.5 Sonnet在零樣本設定中的錯誤檢測率最高，達52.3%。此外，LLMs處理報告的速度也明顯快於放射科醫生，顯示其在提升報告準確性方面的潛力。 PubMed DOI

Benchmarking the diagnostic performance of open source LLMs in 1933 Eurorad case reports.
1933年Eurorad病例報告中開源LLMs診斷性能的基準評估。 NPJ Digit Med 2025-02-11

最近大型語言模型（LLMs）在放射診斷方面的進展顯著，無論是開源還是專有模型，都能透過本地或雲端部署來解決隱私問題。研究評估了十五個開源LLMs和一個封閉源LLM（GPT-4o）的診斷表現，使用了1,933個來自Eurorad的案例。結果顯示，GPT-4o的表現最佳，其次是Llama-3-70B，顯示開源模型的表現逐漸接近專有模型，顯示其在放射鑑別診斷中的潛力。 PubMed DOI

Comprehensive testing of large language models for extraction of structured data in pathology.
大型語言模型在病理學中結構化數據提取的綜合測試。 Commun Med (Lond) 2025-03-31

病理科部門產生大量非結構化數據，主要以自由文本的診斷報告形式存在，轉換成結構化格式需要大量人力。雖然先進的語言模型能協助此任務，但專有模型可能引發成本和隱私問題。我們創建了一個包含579份德文和英文病理報告的數據集，評估了六個語言模型的提取能力。研究顯示，開源模型在提取結構化數據方面的精度與專有模型相當，且具成本效益和隱私保護潛力，為醫療機構提供了重要見解。 PubMed DOI

Performance of large language models for CAD-RADS 2.0 classification derived from cardiac CT reports.
大型語言模型在心臟CT報告中對CAD-RADS 2.0分類的表現。 J Cardiovasc Comput Tomogr 2025-04-10

這項研究評估大型語言模型（LLMs）自動生成CAD-RADS 2.0分數的能力，對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告，使用了多種先進的LLMs，包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示，GPT-4o和Llama3 70b的準確率最高，分別為93%和92.5%。這些發現顯示，增強上下文學習的模型能有效生成CAD-RADS 2.0分數，提高心臟CT報告的效率與一致性，且開源模型在數據安全上也具優勢。 PubMed DOI

A comparative analysis of privacy-preserving large language models for automated echocardiography report analysis.
用於自動心臟超音波報告分析之隱私保護大型語言模型的比較分析 J Am Med Inform Assoc 2025-05-07

開源大型語言模型能準確擷取心臟超音波報告的重點資料，像是瓣膜疾病嚴重度和人工瓣膜有無，對建立大規模資料庫和疾病監控很有幫助。經過優化後，像Llama3.0-70B、Qwen2.0這些頂尖模型準確率超過98%，但處理速度較慢。小型模型判斷嚴重度較不準，但辨識人工瓣膜還不錯。主要錯誤來自分心或沒照指示。整體來說，LLMs自動化擷取資料很有潛力，但要兼顧準確和效率。 PubMed DOI

Generative Large Language Models Trained for Detecting Errors in Radiology Reports.
用於偵測放射科報告錯誤的生成式大型語言模型 Radiology 2025-05-20

這項研究比較多種大型語言模型在偵測胸腔放射科報告錯誤的表現，發現經過微調的 Llama-3-70B-Instruct 模型最準確，F1 分數約 0.75–0.83。實測也證實，這模型能有效協助醫師找出報告錯誤，顯示微調後的生成式語言模型有助提升放射科報告校對效率與準確度。 PubMed DOI

Integrating Large language models into radiology workflow: Impact of generating personalized report templates from summary.
將大型語言模型整合至放射科工作流程：從摘要生成個人化報告模板的影響 Eur J Radiol 2025-05-28

這項研究發現，像GPT-4這類大型語言模型能把放射科醫師的摘要快速轉成完整CT報告，速度比傳統方式快，品質也差不多。雖然大多數錯誤跟模板有關，重大臨床錯誤很少見，但還是建議要有人工審查，確保報告正確無誤。 PubMed DOI

Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析：比較性研究 Int J Surg 2025-06-11

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力，發現GPT-4表現最佳，尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說，選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示，優化後的AI模型有助於提升胸部CT解讀，對外科手術規劃很有幫助。 PubMed DOI

原始文章

站上相關主題文章列表