原始文章

這項研究發現,給大型語言模型(如GPT-4o和Llama-3.3-70B)明確的標註指引,能大幅提升它們從中風CT報告擷取重點的準確度,其中GPT-4o表現最好。結果強調,清楚的指引對提升醫療自動化資料擷取很重要。 PubMed DOI


站上相關主題文章列表

本研究探討大型語言模型(LLMs)在從放射科報告中提取額外影像檢查建議(RAIs)的有效性。研究回顧了250份報告,確認231份包含RAIs,並使用自然語言處理算法進行分析。結果顯示,GPT-4在提取RAI檢查方式、身體部位和時間框架方面的準確率均優於GPT-3.5,顯示出LLMs在確保影像檢查建議及時完成的潛力,可能有助於減少診斷延遲。 PubMed DOI

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在從機械血栓切除術的自由文本報告中提取程序細節的表現,並與GPT-4進行比較。測試的模型包括Llama3.1 405B、Llama3 70B、Llama3 8B和Mixtral 8X7B,分析了130份來自兩個機構的報告。 結果顯示,Llama3.1 405B的數據提取準確率達93.5%,與GPT-4相當。Llama3 70B的準確率為90.6%(英語)和88.2%(德語),而Llama3 8B和Mixtral 8X7B的準確率均為86.1%。總體而言,Llama3.1 405B在數據提取上可作為安全的本地替代方案,特別適合重視個人數據隱私的情況。 PubMed DOI

病理科部門產生大量非結構化數據,主要以自由文本的診斷報告形式存在,轉換成結構化格式需要大量人力。雖然先進的語言模型能協助此任務,但專有模型可能引發成本和隱私問題。我們創建了一個包含579份德文和英文病理報告的數據集,評估了六個語言模型的提取能力。研究顯示,開源模型在提取結構化數據方面的精度與專有模型相當,且具成本效益和隱私保護潛力,為醫療機構提供了重要見解。 PubMed DOI

開源大型語言模型(LLMs)在從放射科報告擷取標籤上,比傳統規則式工具(如 CheXpert)更準確。規模較大的 LLMs,特別在判讀困難異常(如肋骨骨折)時,敏感度更高。不同提示策略(如 chain-of-thought)效果不一。即使標籤有雜訊,用 LLM 擷取的標籤訓練影像分類器,表現仍不錯,但最終評估結果會受標註方法影響很大。因此,選對 LLM、提示方式和評估方法對醫療 AI 發展很重要。 PubMed DOI

這項研究用標準化、針對人類優化的提示語,讓大型語言模型標註六家醫院的放射科報告,結果 Llama 3.1 70b 在不同報告和機構間都很準確且一致。顯示只要設計好提示語,LLMs 在各種臨床環境下都能穩定標註。未來會再加強提示語的通用性和模型穩定性。 PubMed DOI

這篇研究發現,GPT-4o-mini和ERNIE-4.0-Turbo-8K在根據放射科報告給肺結節追蹤建議時,準確率都超過九成,表現和專業醫師差不多,錯誤建議也很少。雖然這些AI有潛力協助放射科決策,但實際應用前還是要嚴格驗證和監督,確保病人安全。 PubMed DOI

這項研究比較多種大型語言模型在偵測胸腔放射科報告錯誤的表現,發現經過微調的 Llama-3-70B-Instruct 模型最準確,F1 分數約 0.75–0.83。實測也證實,這模型能有效協助醫師找出報告錯誤,顯示微調後的生成式語言模型有助提升放射科報告校對效率與準確度。 PubMed DOI

這項研究發現,像GPT-4這類大型語言模型能把放射科醫師的摘要快速轉成完整CT報告,速度比傳統方式快,品質也差不多。雖然大多數錯誤跟模板有關,重大臨床錯誤很少見,但還是建議要有人工審查,確保報告正確無誤。 PubMed DOI

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力,發現GPT-4表現最佳,尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說,選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示,優化後的AI模型有助於提升胸部CT解讀,對外科手術規劃很有幫助。 PubMed DOI