Evaluating large language models in echocardiography reporting: opportunities and challenges.

在心臟超音波報告中評估大型語言模型:機會與挑戰

<think> 嗯,我需要分析這篇研究的標題和摘要。研究目的是評估大型語言模型在心臟超音波報告中的應用,探討機會和挑戰。假設是這些模型能夠有效地總結臨床文本,但在心臟超音波方面的應用還不夠廣泛。 方法方面,研究使用了四種開源模型,並透過In-Context Learning和Quantized Low-Rank Adaptation微調,分為發展集和驗證集。樣本數量很大,97,506份報告,來自71,717名患者,樣本來源廣泛,但可能缺乏多樣性。評估方式有量化和質性兩方面,自動化指標和心臟科醫生的評審。 數據解釋上,EchoGPT模型表現最好,勝率在87%到99%之間,自動指標評分也很高,且在質性評審中被認為更精簡。自動指標和人工評分的相關性中等,RadGraph F1得分和臨床實用性相關性最高,0.42。自動指標對測量數量的變化不太敏感,掉得不多,0-5%。 研究結果支持假設,模型在總結報告上有用,尤其是在精簡性上更佳。但自動指標和人工評分的相關性不高,可能需要更全面的人工評估標準。研究的局限性包括樣本來源單一,缺乏多樣性,未考慮其他因素如報告複雜度,且模型可能在不同機構的表現不一致。 臨床應用方面,模型可以幫助生成報告草稿,提升工作流程效率,但仍需人工審核。未來研究應開發更可擴展的評估方法,考慮更多變量,如報告類型和用戶反饋。其他可能的解釋包括模型可能在特定類別更出色,或需要更多微調來提升表現。 </think> ### 研究目的與假設 本研究旨在評估大型語言模型(LLMs)在心臟超音波報告中的應用潛力及其挑戰。研究假設這些模型能夠有效地總結臨床文本,並探討其在心臟超音波報告中的效果,特別是在從「Findings」到「Impressions」的總結任務中。 ### 方法與設計 研究方法包括使用四種開源模型,並透過微調技術來提升模型在報告總結上的表現。樣本數量龐大,來自Mayo Clinic的報告,分為發展集和驗證集。評估方式包括自動化指標和心臟科醫生的質性評審,方法合理且全面,但可能缺乏多樣性和樣本來源的廣泛性。 ### 數據解釋與結果 研究結果顯示EchoGPT模型在自動化指標中表現最佳,且在質性評審中被認為更精簡。然而,自動指標和人工評分的相關性中等,顯示自動化指標可能無法完全反映臨床實用性。 ### 局限性與偏見 研究局限包括樣本來源單一、缺乏報告多樣性、未考慮報告複雜度等因素,以及模型在不同機構的表現可能不一致。 ### 臨床及未來研究意涵 模型可用於生成報告草稿,提升工作流程效率,但需人工審核。未來研究應考慮更多變量,開發更可擴展的評估方法,包括報告類型和用戶反饋。 ### 其他觀點 模型可能在特定報告類別上表現更佳,或需要進一步微調以提升表現,增加報告多樣性和臨床情境的考慮。