Evaluation of performance of generative large language models for stroke care.

生成式大型語言模型於中風照護表現之評估

<think> 嗯，我需要分析一下這篇關於大型語言模型在中風照護中表現的研究。首先，研究的目的是評估GPT、Claude和Gemini在中風的預防、診斷、治療和復健四個階段的表現。研究假設是這些模型能夠有效地應用在這些臨床場景中。研究方法方面，使用了三種提示工程技巧：ZSL、COT和TOT。每種技巧都有其優點，比如ZSL能提供簡潔準確的回答，COT則擅長結構化推理，TOT在同理心和可行性上有優勢。但這些方法也可能有缺陷，比如ZSL在複雜情境下可能不夠深入，COT可能在需要同理心時效果不佳。數據解釋部分，模型在準確性和結構化推理上有亮點，但整體表現不一致，尤其在同理心和具操作性方面存在不足。這可能是因為模型缺乏臨床經驗，或者是訓練資料不足以涵蓋所有中風照護的情境。研究的局限性包括評分標準的主觀性、樣本數量不足以及缺乏長期評估。這些因素可能導致結果的偏差。此外，未考慮到的變數如模型版本更新和不同使用者的需求，也可能影響結果。臨床意義方面，模型可以作為輔助工具，但不宜完全取代專業人員。未來研究應該考慮多模態輸入、人機協作和持續評估。另外，針對不同模型的優勢進行調整和測試，可能提升其在中風照護中的應用效果。總的來說，雖然模型在某些方面有亮點，但整體表現仍不穩定，需要進一步改進和驗證才能在臨床上得到更好的應用。 </think> ### 研究目的與假設這項研究旨在評估三個大型語言模型（GPT、Claude和Gemini）在中風照護的四個階段（預防、診斷、治療和復健）中的表現。研究假設這些模型能夠有效地應用於臨床場景，提供準確、具操作性且富有同理心的建議。 ### 方法與設計研究採用了三種提示工程技巧：Zero-Shot Learning (ZSL)、Chain of Thought (COT)和Talking Out Your Thoughts (TOT)，並將其應用於真實的中風情境。專家團隊根據五個評估準則（準確性、幻覺、具體性、同理心和可行性）評估模型輸出。 ### 數據解釋與結果模型在某些領域表現出色，如ZSL在治療階段的準確性，但整體表現不一致，未能在所有階段達到高臨床標準。TOT在同理心和可行性上有優勢，COT在結構化推理上表現良好，但無法在所有方面保持一致。 ### 局限性與偏見研究可能受限於評分標準的主觀性和樣本數量不足。未考慮的變數包括模型版本更新和不同使用者需求，可能影響結果。 ### 臨床及未來研究意涵模型可作為輔助工具，但需進一步改進。未來研究建議考慮多模態輸入、人機協作和持續評估，以提升模型在中風照護中的應用效果。 ### 其他觀點模型在某些方面有潛力，但整體表現不穩定，需更多驗證才能在臨床上得到更好的應用。