原始文章

這項研究比較多種大型語言模型在偵測胸腔放射科報告錯誤的表現,發現經過微調的 Llama-3-70B-Instruct 模型最準確,F1 分數約 0.75–0.83。實測也證實,這模型能有效協助醫師找出報告錯誤,顯示微調後的生成式語言模型有助提升放射科報告校對效率與準確度。 PubMed DOI


站上相關主題文章列表

深度學習在放射學的應用有助於改善診斷,但臨床接受度仍有挑戰。本研究開發了一個基於Llama 3-8B的語言模型,旨在自動生成MRI和CT報告的結論,以協助放射科醫生並提升效率。使用了15,000份來自克拉約瓦醫藥與藥學大學的報告數據進行訓練,並在NVIDIA RTX 3090 GPU上進行微調。結果顯示,模型在生成結論的準確性上表現良好,並獲得放射科醫生的正面評價。未來需解決數據偏見及臨床整合等問題。 PubMed DOI

這項研究評估了專有與開放的大型語言模型(LLMs)在分析胰臟癌放射學報告的有效性,重點在於疾病的存在、位置及治療反應。研究分析了203份去識別化的報告,使用了GPT-4、GPT-3.5-turbo及開放模型如Gemma-7B和Llama3-8B。結果顯示,GPT-4在確定疾病狀態上準確率最高,達75.5%。開放模型在某些方面表現不如專有模型,但仍具潛力,特別是在專有模型無法使用時。這項研究為未來腫瘤學領域的LLM研究提供了重要資源。 PubMed DOI

這項研究評估大型語言模型(LLMs)在翻譯放射科報告的效果。由於合格翻譯者不足,這對病人護理造成挑戰。研究團隊將100份合成報告翻譯成九種語言,並使用十個LLM進行自動翻譯,結果由18位放射科醫生評估。發現GPT-4的翻譯品質最佳,特別是在英德、英希、英泰和英土語言對上表現突出。雖然LLMs在清晰度和一致性上表現良好,但醫學術語的準確性仍需改進。總體來說,LLMs能有效翻譯放射科報告,但不同模型和語言的表現有所差異。 PubMed DOI

這項回顧性研究探討大型語言模型(LLMs)在提升中文超音波報告準確性上的效果。研究分析了2024年1月至4月期間三家醫院的400份報告,發現243個錯誤,並將其分為六類。研究評估了三個版本的GPT和Claude 3.5 Sonnet在零樣本和少樣本情境下的表現。結果顯示,Claude 3.5 Sonnet在零樣本設定中的錯誤檢測率最高,達52.3%。此外,LLMs處理報告的速度也明顯快於放射科醫生,顯示其在提升報告準確性方面的潛力。 PubMed DOI

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI

這項研究探討了符合隱私要求的開源大型語言模型(LLMs)在檢測放射科報告錯誤的有效性,並與商業封閉源模型比較。分析了120份報告,發現封閉源模型(如GPT-4)在錯誤檢測率上優於開源模型,分別為88%和79%。不過,開源模型的處理時間較短,每份報告僅需6秒。研究結論指出,開源模型雖然有效,但準確性尚未達到封閉源模型的水準,未來有潛力在保護病人隱私的同時提升臨床工作流程。 PubMed DOI

這項研究評估大型語言模型(LLMs)自動生成CAD-RADS 2.0分數的能力,對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告,使用了多種先進的LLMs,包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示,GPT-4o和Llama3 70b的準確率最高,分別為93%和92.5%。這些發現顯示,增強上下文學習的模型能有效生成CAD-RADS 2.0分數,提高心臟CT報告的效率與一致性,且開源模型在數據安全上也具優勢。 PubMed DOI

這篇研究發現,GPT-4o-mini和ERNIE-4.0-Turbo-8K在根據放射科報告給肺結節追蹤建議時,準確率都超過九成,表現和專業醫師差不多,錯誤建議也很少。雖然這些AI有潛力協助放射科決策,但實際應用前還是要嚴格驗證和監督,確保病人安全。 PubMed DOI

這項研究發現,像GPT-4這類大型語言模型能把放射科醫師的摘要快速轉成完整CT報告,速度比傳統方式快,品質也差不多。雖然大多數錯誤跟模板有關,重大臨床錯誤很少見,但還是建議要有人工審查,確保報告正確無誤。 PubMed DOI

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力,發現GPT-4表現最佳,尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說,選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示,優化後的AI模型有助於提升胸部CT解讀,對外科手術規劃很有幫助。 PubMed DOI