Evaluating large language models in echocardiography reporting: opportunities and challenges.

在心臟超音波報告中評估大型語言模型：機會與挑戰

<think> 嗯，我需要分析這篇研究的標題和摘要。研究目的是評估大型語言模型在心臟超音波報告中的應用，探討機會和挑戰。假設是這些模型能夠有效地總結臨床文本，但在心臟超音波方面的應用還不夠廣泛。方法方面，研究使用了四種開源模型，並透過In-Context Learning和Quantized Low-Rank Adaptation微調，分為發展集和驗證集。樣本數量很大，97,506份報告，來自71,717名患者，樣本來源廣泛，但可能缺乏多樣性。評估方式有量化和質性兩方面，自動化指標和心臟科醫生的評審。數據解釋上，EchoGPT模型表現最好，勝率在87%到99%之間，自動指標評分也很高，且在質性評審中被認為更精簡。自動指標和人工評分的相關性中等，RadGraph F1得分和臨床實用性相關性最高，0.42。自動指標對測量數量的變化不太敏感，掉得不多，0-5%。研究結果支持假設，模型在總結報告上有用，尤其是在精簡性上更佳。但自動指標和人工評分的相關性不高，可能需要更全面的人工評估標準。研究的局限性包括樣本來源單一，缺乏多樣性，未考慮其他因素如報告複雜度，且模型可能在不同機構的表現不一致。臨床應用方面，模型可以幫助生成報告草稿，提升工作流程效率，但仍需人工審核。未來研究應開發更可擴展的評估方法，考慮更多變量，如報告類型和用戶反饋。其他可能的解釋包括模型可能在特定類別更出色，或需要更多微調來提升表現。 </think> ### 研究目的與假設本研究旨在評估大型語言模型（LLMs）在心臟超音波報告中的應用潛力及其挑戰。研究假設這些模型能夠有效地總結臨床文本，並探討其在心臟超音波報告中的效果，特別是在從「Findings」到「Impressions」的總結任務中。 ### 方法與設計研究方法包括使用四種開源模型，並透過微調技術來提升模型在報告總結上的表現。樣本數量龐大，來自Mayo Clinic的報告，分為發展集和驗證集。評估方式包括自動化指標和心臟科醫生的質性評審，方法合理且全面，但可能缺乏多樣性和樣本來源的廣泛性。 ### 數據解釋與結果研究結果顯示EchoGPT模型在自動化指標中表現最佳，且在質性評審中被認為更精簡。然而，自動指標和人工評分的相關性中等，顯示自動化指標可能無法完全反映臨床實用性。 ### 局限性與偏見研究局限包括樣本來源單一、缺乏報告多樣性、未考慮報告複雜度等因素，以及模型在不同機構的表現可能不一致。 ### 臨床及未來研究意涵模型可用於生成報告草稿，提升工作流程效率，但需人工審核。未來研究應考慮更多變量，開發更可擴展的評估方法，包括報告類型和用戶反饋。 ### 其他觀點模型可能在特定報告類別上表現更佳，或需要進一步微調以提升表現，增加報告多樣性和臨床情境的考慮。