原始文章

這項研究探討了符合隱私要求的開源大型語言模型(LLMs)在檢測放射科報告錯誤的有效性,並與商業封閉源模型比較。分析了120份報告,發現封閉源模型(如GPT-4)在錯誤檢測率上優於開源模型,分別為88%和79%。不過,開源模型的處理時間較短,每份報告僅需6秒。研究結論指出,開源模型雖然有效,但準確性尚未達到封閉源模型的水準,未來有潛力在保護病人隱私的同時提升臨床工作流程。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型在檢測放射學報告中語音識別錯誤的能力。比較了五個模型,其中GPT-4在檢測錯誤方面表現出高準確度。研究發現,先進的語言模型在放射學報告中具有自動檢測錯誤的潛力。 PubMed DOI

這項研究評估了一個開源的大型語言模型(LLM)在從急診腦部MRI報告中提取信息的表現。對比了放射科醫師和LLM在識別頭痛、異常發現以及MRI結果與頭痛之間因果關係方面的能力。LLM在這些任務中表現出高靈敏度和特異度,顯示其具有潛力在不需額外訓練的情況下從放射學報告中準確提取信息。 PubMed DOI

2023年,ChatGPT推出後掀起AI熱潮。OpenAI的大型語言模型(LLMs)不提供給安全診所現場使用。各方積極推動LLM民主化,允許本地實施符合隱私規範且適應特定數據。本文探討放射學中本地LLM的潛力,並討論開放與封閉AI領域的發展。初創公司如Meta、Google、X和Mistral AI透過開放模型推動LLM民主化。雖然性能可能不及GPT-4等封閉LLM,但開放LLM在改善診斷報告、與患者互動及從臨床數據庫中提取診斷信息方面展現潛力。 PubMed DOI

這項研究比較了OpenAI的GPT-4與幾個開源大型語言模型在從胸部X光報告中提取相關發現的表現。使用了來自ImaGenome和麻省總醫院的數據集。結果顯示,Llama 2-70B在ImaGenome數據集的微F1分數為0.97,而GPT-4為0.98。在機構數據集中,GPT-4的表現也優於其他模型。研究強調了少樣本提示能提升開源模型在醫療報告標註中的潛力。 PubMed DOI

這項研究評估了專有與開放的大型語言模型(LLMs)在分析胰臟癌放射學報告的有效性,重點在於疾病的存在、位置及治療反應。研究分析了203份去識別化的報告,使用了GPT-4、GPT-3.5-turbo及開放模型如Gemma-7B和Llama3-8B。結果顯示,GPT-4在確定疾病狀態上準確率最高,達75.5%。開放模型在某些方面表現不如專有模型,但仍具潛力,特別是在專有模型無法使用時。這項研究為未來腫瘤學領域的LLM研究提供了重要資源。 PubMed DOI

這項研究探討了開放權重的大型語言模型(LLMs)在從放射科報告中提取結構化內容的效果,並與傳統的規則系統及封閉權重模型(如GPT-4)進行比較。研究結果顯示,GPT-4o在英語報告中表現最佳,F1分數達92.4%,而Mistral-Large在德語數據集中也表現優異。當使用1000份報告進行微調時,開放權重LLMs的表現顯著超過BERT。結論指出,開放權重模型在結構化報告數據方面具有效能,特別是在中等數據量微調時。 PubMed DOI

將大型語言模型(LLMs)應用於醫療保健能顯著提升臨床流程與病人護理,但也面臨準確性、可及性、隱私及法規等挑戰。雖然專有模型如GPT-4和Claude 3受到關注,開源模型如Llama 3和LLaVA-Med對醫療機構和研究人員有獨特優勢,但因不熟悉和基礎設施不足,採用速度較慢。這篇文章提供放射學中實施開源LLMs的教程,包括文本生成、提示工程等實用範例,並比較開源與專有模型的優缺點。 PubMed DOI

這項回顧性研究探討大型語言模型(LLMs)在提升中文超音波報告準確性上的效果。研究分析了2024年1月至4月期間三家醫院的400份報告,發現243個錯誤,並將其分為六類。研究評估了三個版本的GPT和Claude 3.5 Sonnet在零樣本和少樣本情境下的表現。結果顯示,Claude 3.5 Sonnet在零樣本設定中的錯誤檢測率最高,達52.3%。此外,LLMs處理報告的速度也明顯快於放射科醫生,顯示其在提升報告準確性方面的潛力。 PubMed DOI

最近大型語言模型(LLMs)在放射診斷方面的進展顯著,無論是開源還是專有模型,都能透過本地或雲端部署來解決隱私問題。研究評估了十五個開源LLMs和一個封閉源LLM(GPT-4o)的診斷表現,使用了1,933個來自Eurorad的案例。結果顯示,GPT-4o的表現最佳,其次是Llama-3-70B,顯示開源模型的表現逐漸接近專有模型,顯示其在放射鑑別診斷中的潛力。 PubMed DOI

這項研究評估大型語言模型(LLMs)自動生成CAD-RADS 2.0分數的能力,對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告,使用了多種先進的LLMs,包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示,GPT-4o和Llama3 70b的準確率最高,分別為93%和92.5%。這些發現顯示,增強上下文學習的模型能有效生成CAD-RADS 2.0分數,提高心臟CT報告的效率與一致性,且開源模型在數據安全上也具優勢。 PubMed DOI