原始文章

這項研究探討了符合隱私要求的開源大型語言模型(LLMs)在檢測放射科報告錯誤的有效性,並與商業封閉源模型比較。分析了120份報告,發現封閉源模型(如GPT-4)在錯誤檢測率上優於開源模型,分別為88%和79%。不過,開源模型的處理時間較短,每份報告僅需6秒。研究結論指出,開源模型雖然有效,但準確性尚未達到封閉源模型的水準,未來有潛力在保護病人隱私的同時提升臨床工作流程。 PubMed DOI


站上相關主題文章列表

這項研究探討了開放權重的大型語言模型(LLMs)在從放射科報告中提取結構化內容的效果,並與傳統的規則系統及封閉權重模型(如GPT-4)進行比較。研究結果顯示,GPT-4o在英語報告中表現最佳,F1分數達92.4%,而Mistral-Large在德語數據集中也表現優異。當使用1000份報告進行微調時,開放權重LLMs的表現顯著超過BERT。結論指出,開放權重模型在結構化報告數據方面具有效能,特別是在中等數據量微調時。 PubMed DOI

將大型語言模型(LLMs)應用於醫療保健能顯著提升臨床流程與病人護理,但也面臨準確性、可及性、隱私及法規等挑戰。雖然專有模型如GPT-4和Claude 3受到關注,開源模型如Llama 3和LLaVA-Med對醫療機構和研究人員有獨特優勢,但因不熟悉和基礎設施不足,採用速度較慢。這篇文章提供放射學中實施開源LLMs的教程,包括文本生成、提示工程等實用範例,並比較開源與專有模型的優缺點。 PubMed DOI

這項回顧性研究探討大型語言模型(LLMs)在提升中文超音波報告準確性上的效果。研究分析了2024年1月至4月期間三家醫院的400份報告,發現243個錯誤,並將其分為六類。研究評估了三個版本的GPT和Claude 3.5 Sonnet在零樣本和少樣本情境下的表現。結果顯示,Claude 3.5 Sonnet在零樣本設定中的錯誤檢測率最高,達52.3%。此外,LLMs處理報告的速度也明顯快於放射科醫生,顯示其在提升報告準確性方面的潛力。 PubMed DOI

最近大型語言模型(LLMs)在放射診斷方面的進展顯著,無論是開源還是專有模型,都能透過本地或雲端部署來解決隱私問題。研究評估了十五個開源LLMs和一個封閉源LLM(GPT-4o)的診斷表現,使用了1,933個來自Eurorad的案例。結果顯示,GPT-4o的表現最佳,其次是Llama-3-70B,顯示開源模型的表現逐漸接近專有模型,顯示其在放射鑑別診斷中的潛力。 PubMed DOI

病理科部門產生大量非結構化數據,主要以自由文本的診斷報告形式存在,轉換成結構化格式需要大量人力。雖然先進的語言模型能協助此任務,但專有模型可能引發成本和隱私問題。我們創建了一個包含579份德文和英文病理報告的數據集,評估了六個語言模型的提取能力。研究顯示,開源模型在提取結構化數據方面的精度與專有模型相當,且具成本效益和隱私保護潛力,為醫療機構提供了重要見解。 PubMed DOI

這項研究評估大型語言模型(LLMs)自動生成CAD-RADS 2.0分數的能力,對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告,使用了多種先進的LLMs,包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示,GPT-4o和Llama3 70b的準確率最高,分別為93%和92.5%。這些發現顯示,增強上下文學習的模型能有效生成CAD-RADS 2.0分數,提高心臟CT報告的效率與一致性,且開源模型在數據安全上也具優勢。 PubMed DOI

開源大型語言模型能準確擷取心臟超音波報告的重點資料,像是瓣膜疾病嚴重度和人工瓣膜有無,對建立大規模資料庫和疾病監控很有幫助。經過優化後,像Llama3.0-70B、Qwen2.0這些頂尖模型準確率超過98%,但處理速度較慢。小型模型判斷嚴重度較不準,但辨識人工瓣膜還不錯。主要錯誤來自分心或沒照指示。整體來說,LLMs自動化擷取資料很有潛力,但要兼顧準確和效率。 PubMed DOI

這項研究比較多種大型語言模型在偵測胸腔放射科報告錯誤的表現,發現經過微調的 Llama-3-70B-Instruct 模型最準確,F1 分數約 0.75–0.83。實測也證實,這模型能有效協助醫師找出報告錯誤,顯示微調後的生成式語言模型有助提升放射科報告校對效率與準確度。 PubMed DOI

這項研究發現,像GPT-4這類大型語言模型能把放射科醫師的摘要快速轉成完整CT報告,速度比傳統方式快,品質也差不多。雖然大多數錯誤跟模板有關,重大臨床錯誤很少見,但還是建議要有人工審查,確保報告正確無誤。 PubMed DOI

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力,發現GPT-4表現最佳,尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說,選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示,優化後的AI模型有助於提升胸部CT解讀,對外科手術規劃很有幫助。 PubMed DOI