原始文章

這項研究評估了九個大型語言模型(LLMs)在總結中國放射科報告中對肺癌的印象表現。研究發現,ERNIE Bot、Tongyi Qianwen 和 Claude 在生成 CT、PET-CT 和超音波報告的印象方面表現最佳。雖然生成的印象通常完整且正確,但在簡潔性和真實性上仍有不足,且與放射科醫生撰寫的印象相比,仍存在顯著差距。整體來看,現有的 LLMs 雖能生成高完整性和正確性的報告,但尚無法完全取代放射科醫生。 PubMed DOI


站上相關主題文章列表

這項研究評估了四個大型語言模型(LLMs)在前列腺癌治療相關的資訊檢索和風險評估任務中的表現,特別針對第四期患者。研究使用350份模擬報告,並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示,所有模型在資訊檢索任務中表現良好,但在風險評估上差異明顯,ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞,研究仍提醒可能的誤解會影響臨床決策,並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ERNIE Bot 和 ChatGPT,在回答肝癌介入放射學問題的有效性,特別是針對經動脈化療栓塞(TACE)和肝動脈灌注化療(HAIC)。共設計38個問題,由10位專業人士評估兩者的回答。結果顯示,ERNIE Bot 在中文環境中表現較佳,而 ChatGPT 在英文環境中更優。研究強調根據語言選擇合適的 LLM 以提供準確的治療資訊,但也指出兩者都需人工審查以確保資訊可靠性。 PubMed DOI

這項回顧性研究探討大型語言模型(LLMs)在提升中文超音波報告準確性上的效果。研究分析了2024年1月至4月期間三家醫院的400份報告,發現243個錯誤,並將其分為六類。研究評估了三個版本的GPT和Claude 3.5 Sonnet在零樣本和少樣本情境下的表現。結果顯示,Claude 3.5 Sonnet在零樣本設定中的錯誤檢測率最高,達52.3%。此外,LLMs處理報告的速度也明顯快於放射科醫生,顯示其在提升報告準確性方面的潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)在自動生成腫瘤影像檢查申請的臨床歷史的應用,資料來自207名接受CT掃描的癌症患者。研究顯示,GPT-4在提取關鍵腫瘤學參數方面表現優異,F1分數達0.983。LLM生成的歷史中,主要診斷、急性症狀及相關手術的出現頻率均高於原始歷史,且差異具統計意義。放射科醫生更偏好LLM生成的歷史,認為其提供更完整的解讀,降低傷害風險。總之,LLM能準確創建全面的腫瘤影像臨床歷史,受到醫生青睞。 PubMed DOI

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI

這項研究發現,ChatGPT-4o在診斷肝臟局部病灶時,表現大致和資淺放射科醫師差不多,但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程,也沒明顯提升醫師的診斷表現。總結來說,目前大型語言模型對診斷這類疾病的幫助有限,準確度還有待加強。 PubMed DOI

這篇研究發現,GPT-4o-mini和ERNIE-4.0-Turbo-8K在根據放射科報告給肺結節追蹤建議時,準確率都超過九成,表現和專業醫師差不多,錯誤建議也很少。雖然這些AI有潛力協助放射科決策,但實際應用前還是要嚴格驗證和監督,確保病人安全。 PubMed DOI

這項研究發現,像GPT-4這類大型語言模型能把放射科醫師的摘要快速轉成完整CT報告,速度比傳統方式快,品質也差不多。雖然大多數錯誤跟模板有關,重大臨床錯誤很少見,但還是建議要有人工審查,確保報告正確無誤。 PubMed DOI

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力,發現GPT-4表現最佳,尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說,選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示,優化後的AI模型有助於提升胸部CT解讀,對外科手術規劃很有幫助。 PubMed DOI