原始文章

這篇研究發現,GPT-4o-mini和ERNIE-4.0-Turbo-8K在根據放射科報告給肺結節追蹤建議時,準確率都超過九成,表現和專業醫師差不多,錯誤建議也很少。雖然這些AI有潛力協助放射科決策,但實際應用前還是要嚴格驗證和監督,確保病人安全。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs)在從非結構化放射報告中提取臨床數據的效果,專注於七種肺部疾病。研究分析了1,800份報告,並使用Google Gemini Pro 1.0、OpenAI的GPT-3.5和GPT-4進行數據提取。結果顯示,所有模型的準確率都很高,特別是GPT-4的表現最佳,敏感性和特異性均達到優秀水準。這些結果顯示,LLMs,尤其是GPT-4,可能成為醫生進行病歷審查的有效替代方案,提升非結構化放射數據的提取能力。 PubMed DOI

這項研究比較了兩個大型語言模型(LLMs),GPT-4 和 Gemini,在分析放射學報告以識別腫瘤問題的表現。研究涵蓋205名患者,結果顯示GPT-4在準確率、精確度、召回率和F1分數上均優於Gemini,特別是在腫瘤狀態的判斷上也更準確。這顯示出大型語言模型,尤其是GPT-4,在腫瘤監測方面的潛力。 PubMed DOI

這項研究評估了專有與開放的大型語言模型(LLMs)在分析胰臟癌放射學報告的有效性,重點在於疾病的存在、位置及治療反應。研究分析了203份去識別化的報告,使用了GPT-4、GPT-3.5-turbo及開放模型如Gemma-7B和Llama3-8B。結果顯示,GPT-4在確定疾病狀態上準確率最高,達75.5%。開放模型在某些方面表現不如專有模型,但仍具潛力,特別是在專有模型無法使用時。這項研究為未來腫瘤學領域的LLM研究提供了重要資源。 PubMed DOI

這項研究評估大型語言模型(LLM)在提取與肺部微波腫瘤消融(MWA)相關的臨床資訊的效果。研究針對20名患者進行回顧性分析,檢視治療後最多12個月的放射學報告和診所筆記。使用LLM(GPT 3.5 Turbo 16k)識別四個關鍵臨床結果,結果經手動審查驗證。分析104份放射學報告和37份診所筆記,顯示LLM在識別這些結果上準確率高達85%到100%。研究顯示LLM能有效提取醫療數據中的臨床資訊,未來可能對介入放射學研究有幫助。 PubMed DOI

這項研究探討大型語言模型(LLMs)在自動生成腫瘤影像檢查申請的臨床歷史的應用,資料來自207名接受CT掃描的癌症患者。研究顯示,GPT-4在提取關鍵腫瘤學參數方面表現優異,F1分數達0.983。LLM生成的歷史中,主要診斷、急性症狀及相關手術的出現頻率均高於原始歷史,且差異具統計意義。放射科醫生更偏好LLM生成的歷史,認為其提供更完整的解讀,降低傷害風險。總之,LLM能準確創建全面的腫瘤影像臨床歷史,受到醫生青睞。 PubMed DOI

這項研究評估了九個大型語言模型(LLMs)在總結中國放射科報告中對肺癌的印象表現。研究發現,ERNIE Bot、Tongyi Qianwen 和 Claude 在生成 CT、PET-CT 和超音波報告的印象方面表現最佳。雖然生成的印象通常完整且正確,但在簡潔性和真實性上仍有不足,且與放射科醫生撰寫的印象相比,仍存在顯著差距。整體來看,現有的 LLMs 雖能生成高完整性和正確性的報告,但尚無法完全取代放射科醫生。 PubMed DOI

這項研究評估大型語言模型(LLMs)自動生成CAD-RADS 2.0分數的能力,對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告,使用了多種先進的LLMs,包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示,GPT-4o和Llama3 70b的準確率最高,分別為93%和92.5%。這些發現顯示,增強上下文學習的模型能有效生成CAD-RADS 2.0分數,提高心臟CT報告的效率與一致性,且開源模型在數據安全上也具優勢。 PubMed DOI

這項研究比較多種大型語言模型在偵測胸腔放射科報告錯誤的表現,發現經過微調的 Llama-3-70B-Instruct 模型最準確,F1 分數約 0.75–0.83。實測也證實,這模型能有效協助醫師找出報告錯誤,顯示微調後的生成式語言模型有助提升放射科報告校對效率與準確度。 PubMed DOI

這項研究發現,GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好,特別是在難題和鑑別度高的題目上,推理方式也很接近人類。結果顯示,這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力,發現GPT-4表現最佳,尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說,選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示,優化後的AI模型有助於提升胸部CT解讀,對外科手術規劃很有幫助。 PubMed DOI