Open-Source Large Language Models in Radiology: A Review and Tutorial for Practical Research and Clinical Deployment.
放射學中的開源大型語言模型：實用研究和臨床應用的回顧與教程。 Radiology 2025-01-28

將大型語言模型（LLMs）應用於醫療保健能顯著提升臨床流程與病人護理，但也面臨準確性、可及性、隱私及法規等挑戰。雖然專有模型如GPT-4和Claude 3受到關注，開源模型如Llama 3和LLaVA-Med對醫療機構和研究人員有獨特優勢，但因不熟悉和基礎設施不足，採用速度較慢。這篇文章提供放射學中實施開源LLMs的教程，包括文本生成、提示工程等實用範例，並比較開源與專有模型的優缺點。 PubMed DOI

Benchmarking the diagnostic performance of open source LLMs in 1933 Eurorad case reports.
1933年Eurorad病例報告中開源LLMs診斷性能的基準評估。 NPJ Digit Med 2025-02-11

最近大型語言模型（LLMs）在放射診斷方面的進展顯著，無論是開源還是專有模型，都能透過本地或雲端部署來解決隱私問題。研究評估了十五個開源LLMs和一個封閉源LLM（GPT-4o）的診斷表現，使用了1,933個來自Eurorad的案例。結果顯示，GPT-4o的表現最佳，其次是Llama-3-70B，顯示開源模型的表現逐漸接近專有模型，顯示其在放射鑑別診斷中的潛力。 PubMed DOI

Large language models for error detection in radiology reports: a comparative analysis between closed-source and privacy-compliant open-source models.
大型語言模型在放射科報告中的錯誤檢測：封閉源與符合隱私的開源模型之間的比較分析。 Eur Radiol 2025-02-20

這項研究探討了符合隱私要求的開源大型語言模型（LLMs）在檢測放射科報告錯誤的有效性，並與商業封閉源模型比較。分析了120份報告，發現封閉源模型（如GPT-4）在錯誤檢測率上優於開源模型，分別為88%和79%。不過，開源模型的處理時間較短，每份報告僅需6秒。研究結論指出，開源模型雖然有效，但準確性尚未達到封閉源模型的水準，未來有潛力在保護病人隱私的同時提升臨床工作流程。 PubMed DOI

Robust privacy amidst innovation with large language models through a critical assessment of the risks.
在大型語言模型創新中的穩健隱私：對風險的批判性評估。 J Am Med Inform Assoc 2025-03-20

這項研究探討如何將電子健康紀錄（EHRs）與自然語言處理（NLP）及大型語言模型（LLMs）結合，以改善醫療數據管理和病人照護。研究使用MIMIC III數據集，採用GPT-3.5、GPT-4等模型生成符合HIPAA要求的合成病人紀錄。結果顯示，基於關鍵字的方法在隱私保護上風險較低，且保持良好性能，建議未來可考慮使用虛擬的PHI來提升實用性與隱私保護。 PubMed DOI

Automated Radiology Report Labeling in Chest X-Ray Pathologies: Development and Evaluation of a Large Language Model Framework.
胸部 X 光病理的自動放射學報告標籤：大型語言模型框架的開發與評估。 JMIR Med Inform 2025-03-28

這項研究評估了一種基於GPT的大型語言模型（LLM）在標註非結構化放射學報告的效果，並與現有的CheXbert和CheXpert進行比較，使用了MIMIC-CXR這個大型胸部X光數據集。結果顯示，LLM的平均F1分數為0.9014，超過CheXpert（0.8864），接近CheXbert（0.9047）。在處理較長、複雜的病理描述時，LLM表現尤為優異。整體來看，LLM是傳統BERT方法的有力替代，提供更好的上下文理解，並減少對特徵工程的需求。 PubMed DOI

Comprehensive testing of large language models for extraction of structured data in pathology.
大型語言模型在病理學中結構化數據提取的綜合測試。 Commun Med (Lond) 2025-03-31

病理科部門產生大量非結構化數據，主要以自由文本的診斷報告形式存在，轉換成結構化格式需要大量人力。雖然先進的語言模型能協助此任務，但專有模型可能引發成本和隱私問題。我們創建了一個包含579份德文和英文病理報告的數據集，評估了六個語言模型的提取能力。研究顯示，開源模型在提取結構化數據方面的精度與專有模型相當，且具成本效益和隱私保護潛力，為醫療機構提供了重要見解。 PubMed DOI

Performance of large language models for CAD-RADS 2.0 classification derived from cardiac CT reports.
大型語言模型在心臟CT報告中對CAD-RADS 2.0分類的表現。 J Cardiovasc Comput Tomogr 2025-04-10

這項研究評估大型語言模型（LLMs）自動生成CAD-RADS 2.0分數的能力，對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告，使用了多種先進的LLMs，包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示，GPT-4o和Llama3 70b的準確率最高，分別為93%和92.5%。這些發現顯示，增強上下文學習的模型能有效生成CAD-RADS 2.0分數，提高心臟CT報告的效率與一致性，且開源模型在數據安全上也具優勢。 PubMed DOI

Privacy-Preserving Large Language Model for Matching Findings and Tracking Interval Changes in Longitudinal Radiology Reports.
隱私保護的大型語言模型，用於匹配發現和追蹤縱向放射學報告中的間隔變化。 J Imaging Inform Med 2025-04-11

這項研究評估了一個保護隱私的大型語言模型（LLM）在比對MRI報告的發現及追蹤變化的有效性。研究分為兩個階段：首先，LLM比對後續報告與先前報告的發現；其次，評估這些發現的變化。使用的數據集包含240份身體MRI報告和134份無對比劑的胸部CT報告。TenyxChat-7B LLM在七個模型中表現最佳，內部數據集F1分數達85.4%，外部數據集為81.8%。結果顯示，該模型能有效協助結構化報告，改善醫師之間的溝通。 PubMed DOI

A comparative analysis of privacy-preserving large language models for automated echocardiography report analysis.
用於自動心臟超音波報告分析之隱私保護大型語言模型的比較分析 J Am Med Inform Assoc 2025-05-07

開源大型語言模型能準確擷取心臟超音波報告的重點資料，像是瓣膜疾病嚴重度和人工瓣膜有無，對建立大規模資料庫和疾病監控很有幫助。經過優化後，像Llama3.0-70B、Qwen2.0這些頂尖模型準確率超過98%，但處理速度較慢。小型模型判斷嚴重度較不準，但辨識人工瓣膜還不錯。主要錯誤來自分心或沒照指示。整體來說，LLMs自動化擷取資料很有潛力，但要兼顧準確和效率。 PubMed DOI

Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析：比較性研究 Int J Surg 2025-06-11

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力，發現GPT-4表現最佳，尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說，選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示，優化後的AI模型有助於提升胸部CT解讀，對外科手術規劃很有幫助。 PubMed DOI

原始文章

站上相關主題文章列表